屈鹏
- 作品数:35 被引量:257H指数:10
- 供职机构:中国科学技术信息研究所更多>>
- 发文基金:中国博士后科学基金国家自然科学基金国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术语言文字更多>>
- 情报学研究方法的统计分析--以《情报学报》2010年发表文章为例
- 研究方法是学科发展水平的具体体现。本文对《情报学报》2010年发表的文章进行统计分析,以描述统计说明这些文章中所反映出情报学中使用的主要研究方法和我国情报学发展的现状。研究结果显示,实证研究占到《情报学报》2010年发文...
- 屈鹏
- 关键词:情报学信息计量统计分析数据处理
- 多语叙词表构建方法研究与实践被引量:3
- 2014年
- 多语叙词表是实现多语言信息组织和检索,满足日益增长的多语言信息需求的重要工具资源。首先介绍多语叙词表构建的研究现状和3种主要构建方法,并对基于翻译构建多语叙词表的方法及该方法的不足进行分析,然后从汉化方法、汉语词汇的选取原则、叙词表辅助汉化平台的构建及汉化结果评价4个方面对英语EI叙词表和日语JST叙词表的汉化工作进行介绍,最后探讨下一步的研究工作。
- 徐红姣高影繁张均胜屈鹏曾文
- 中文科技文献切分的领域适应技术研究
- 2014年
- 以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。
- 石崇德乔晓东王惠临屈鹏
- 基于语义角色标注的专利主题提取研究被引量:4
- 2014年
- 主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。
- 孟令恩李颖何彦青屈鹏王惠临
- 关键词:语义角色标注主题抽取
- 基于机器翻译的专利术语翻译获取方法研究被引量:3
- 2014年
- 鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。
- 何彦青刘建辉屈鹏李颖徐红姣
- 关键词:机器翻译
- 多语言科技语料库建设研究
- 2015年
- 多语言科技语料库建设的重要意义在于它能够服务于多语言科技文献信息的组织、科技文献的自动翻译,以及科技文献的情报分析等。科技语料库的建设采用的主要技术方法是运用自然语言处理和计算机处理技术实现语料的采集、自动加工和处理。本文介绍多语言科技语料库建设方面的相关研究工作,主要涉及多语言词表、平行语料的获取与处理,及多语言语法资源的建设等方面的工作成果。研究工作的不足之处在于语料库的数据资源和语法资源的质量和规模有待于提高和完善。
- 曾文张均胜徐红姣李颖刘敏屈鹏刘丹
- 关键词:多语言语料库
- 网络搜索结果的主题覆盖度优化研究
- 2016年
- 为向网络用户提供多样化的搜索结果,本文通过相关文档和相关主题之间的映射刻画了相关文档空间,提出了主题多样性优化模型。该模型首先对相关排序结果聚类,然后计算主题基量和增量,最终以二者的组合作为排序依据。在采用AQUAINT语料库、TREC N51-N100查询课题和主题覆盖度评价指标的试验设定下验证了所提优化模型的有效性,并找到了最优的模型和参数配置。本文提出了利用相关排序结构特征的主题覆盖度优化模型,为网络搜索实践提供了翔实的参考数据。
- 屈鹏赖茂生
- 关键词:网络搜索信息检索模型
- 知识组织最新研究与实践进展被引量:16
- 2009年
- 选取知识组织领域的几个前沿问题,反映其在理论研究和实践应用方面的最新进展。首先,书目记录功能需求(FRBR)深刻影响着AACR2和ISBD的发展,并促进了全球智力资源的共享;本体作为一种工具广泛应用于知识组织乃至信息检索领域,使用本体改造受控词表成为热点问题之一;受控语言与自然语言的融合,网络环境下传统知识组织工具的改造与应用亦为这一领域研究的前沿和重点;随着草根理论的兴起,大众分类法也逐渐进入研究者的视野,在促进用户信息交流和知识共享中起着重要的作用。
- 赖茂生屈鹏谢静
- 关键词:书目记录功能需求本体网络分类法
- 人类信息行为研究的几个主要问题被引量:7
- 2009年
- 阐述人类信息行为研究的主要问题,包括用户认知、用户信息行为及其与系统交互的研究现状。首先从情报检索的两大研究范式出发,分析情报检索认知范式的特点,进而介绍认知情报检索的研究,认为这一领域对丰富情报学的基础理论和深入认识用户具有重要的基础作用。其次,介绍国外用户信息行为研究取得的进展,包括美国学者等建立的一系列行为模型所包含的要素,即目标与任务、情境、情感和可信度等。最后讨论相关性和情报检索评价中的非效率效果因素。
- 刘畅屈鹏李璐
- 关键词:认知范式用户行为
- 搜索引擎查询日志的词性标注和挖掘研究被引量:9
- 2009年
- 利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以"的"为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。
- 赖茂生屈鹏
- 关键词:日志挖掘词性标注语言行为