国家自然科学基金(60970083)
- 作品数:27 被引量:75H指数:6
- 相关作者:昝红英张坤丽柴玉梅俞士汶韩英杰更多>>
- 相关机构:郑州大学北京大学河南商业高等专科学校更多>>
- 发文基金:国家自然科学基金教育部重点实验室开放基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于词典的名词性隐喻识别
- 隐喻是用一个事物来类比另外一个事物的语言表达,在自然语言中非常普遍,要实现自然语言理解隐喻处理不可避免。本文针对最基本的隐喻类型——名词性隐喻,提出基于词典的识别方法。结合同义词词林的语义距离与HowNet的语义关系来识...
- 贾玉祥俞士汶
- 关键词:名词性隐喻词典语义距离语义关系
- 文献传递
- 基于相似度的网页标题抽取方法被引量:6
- 2011年
- 目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力。
- 李国华昝红英
- 关键词:相似度WEB信息抽取
- 基于iTopicModel的关联文本分类算法
- 2011年
- 针对传统文本分类方法对文档间关联关系考虑不充分的问题,提出一种基于iTopicModel的关联文本分类算法。根据类信息已知的文档归属于各个主题的概率判断主题代表的类信息,利用待分类文档归属于各个主题的概率及文本信息对文档进行分类。实验结果表明,当文档间的关联关系对类信息影响较大时,TC-iTM的分类性能优于传统文本分类方法。
- 梁鹏鹏柴玉梅王黎明
- 关键词:文本分类主题模型EM算法
- 基于介词用法的事件信息抽取研究被引量:4
- 2013年
- 事件信息抽取是目前信息抽取领域的主要研究方向,为了提高事件信息抽取的准确率,提出一种基于介词用法的事件信息抽取方法。通过对介词用法的研究,掌握了不同介词用法在语言结构中的不同作用,以介词用法信息为背景,完成抽取规则编写。针对规则,完成抽取系统的编写,以达到理想的抽取结果。采用郑州大学提供的语料,通过大量实验,结果准确率、召回率及F值分别达到90.88%、86.92%、88.86%,表明了该方法的有效性。
- 昝红英张腾飞林爱英
- 关键词:事件抽取介词用法
- 基于条件随机场的语气词用法自动识别研究被引量:1
- 2011年
- 研究了基于条件随机场的语气词用法自动识别,把语气词用法识别问题看作序列标注任务,将语气词上下文的词语、词性以及词语和词性的复合作为特征建立特征模板来确定语气词的用法。实验数据表明,与规则方法相比,大部分常用语气词的常用用法的识别准确率有了明显的提升,该方法在语气词用法识别任务中具有一定的有效性。
- 周溢辉昝红英穆玲玲
- 关键词:自然语言处理语气词条件随机场
- 基于统计和规则的常用词的兼类识别研究被引量:4
- 2013年
- 词的兼类问题是汉语词性标注中的关键问题之一。针对常用词的兼类识别进行研究,综合考虑了影响兼类词识别的不同特征,分别使用条件随机场模型、最大熵模型和k最近邻等统计方法,根据兼类词本身的特点以及其在上下文句子中的关系,同时针对不同的方法采用词语信息、词性信息等不同的特征模板分别对训练语料进行特征抽取,并取得了较好的实验结果;对一些识别结果不够理想的词又尝试了规则的方法,构建兼类词的规则,不断进行测试,改进规则库,在相同的条件下,得到了优于统计方法的实验结果。
- 夏静柴玉梅昝红英
- 关键词:中文信息处理兼类词条件随机场最大熵K近邻
- 基于例句语料库的现代汉语方位词用法自动识别研究
- 本文根据目前已有的方位词研究成果以及已构建的现代汉语方位词用法词典和用法规则库,初步完成了对现代汉语方位词例句语料库的基于规则的用法自动识别,通过对自动识别结果的分析,调整和完善了现代汉语方位词用法词典和规则库,使基于例...
- 买志玉赵丹昝红英张坤丽
- 关键词:方位词用法词典语料库
- 文献传递
- 汉语语气词用法的自动识别研究被引量:5
- 2010年
- 研究现代汉语语气词用法的自动识别问题,从语气词的实际用法入手,构建语气词用法词典和语气词用法规则库,利用语气场构建语气词用法规则库。采用1998年1月的《人民日报》分词与词性标注语料,利用语气词用法规则库进行语气词的自动识别。实验结果证明,语气词的识别准确率为78.433%。
- 周溢辉穆玲玲昝红英袁应成
- 关键词:自然语言处理语义场
- 副词“就”的用法及其自动识别研究被引量:6
- 2010年
- 作者近年来从事现代汉语虚词知识库研究,并初步构建了包括副词、介词、连词、助词、语气词等的虚词用法词典、用法规则库以及用法语料库的"三位一体"现代汉语虚词知识库。该文在已有工作的基础上,进一步考察副词"就"在1998年1月《人民日报》分词与词性标注语料中的出现规律,通过规则描述、自动标注、人工校对、机器学习等方面的探索,研究副词"就"用法(包括义项)的形式化描述及其自动识别问题,并给出详细的实验结果。
- 昝红英张军珲朱学锋俞士汶
- 关键词:汉语虚词条件随机场最大熵自动识别
- 助词“的”用法自动识别研究被引量:3
- 2018年
- 在"三位一体"虚词用法知识库的基础上,分别采用基于规则、基于CRF模型和神经网络模型的门循环单元,对助词"的"用法进行自动识别,识别的准确率分别为34.4%,77.5%和81.3%。在对助词"的"用法进行分析的基础上,合并了部分用法,并采用CRF模型和神经网络模型进行粗粒度用法识别,准确率分别达到81.8%和84.5%,得到较明显的提高。期望识别结果可以应用于其他自然语言处理任务中。
- 刘秋慧张坤丽许鸿飞俞士汶昝红英
- 关键词:CRF