国家自然科学基金(60703008)
- 作品数:6 被引量:37H指数:4
- 相关作者:肖升何炎祥姚双云胡金柱沈威更多>>
- 相关机构:武汉大学湖南第一师范学院湖南省第一师范学院更多>>
- 发文基金:国家自然科学基金湖南省高校科技创新团队支持计划湖南省教育厅科研基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- Entropy-based Clustering for Improving Document Re-ranking
- Document re-ranking locates between initial retrieval and query expansion in information retrieval system.In t...
- Chong Teng
- 关键词:COMPONENTCLUSTERING
- 关联词搭配的自动发现被引量:12
- 2011年
- 提出了关联词搭配模式自动发现的基本方法。建立一个大规模语料库,然后作分词处理,并对关联词进行自动标注和人工校对;评估关联词搭配的三个重要参数(搭配距离、搭配强度MI值、搭配强度Z值),并设定阈值,超过阈值的格式自动作为候选搭配模式。通过实验,标注的准确率为88.75%,表明本方法具有较好效果。运用该方法,发现了以往大量未被注意的句法搭配模式,对研制高质量的关联词知识库起到了积极的促进作用,对复句句法、语义的自动分析具有重要的意义。
- 姚双云胡金柱肖升沈威
- 关键词:语料库关联词搭配
- 改进的潜在语义分析中文摘录方法被引量:8
- 2012年
- 中文摘录是一种实现中文自动文摘的便捷方法,它根据摘录规则选取若干个原文句子直接组成摘要。通过优化输入矩阵和关键句子选取算法,提出了一种改进的潜在语义分析中文摘录方法。该方法首先基于向量空间模型构建多值输入矩阵;然后对输入矩阵进行潜在语义分析,并由此得出句子与潜在概念(主题信息的抽象表达)的语义相关度;最后借助改进的优选算法完成关键句子选取。实验结果显示,该方法准确率、召回率和F度量值的平均值分别为75.9%、71.8%和73.8%,与已有同类方法相比,改进后的方法实现了全程无监督且在整体效率上有较大提升,更具应用潜质。
- 肖升何炎祥
- 关键词:自动文摘潜在语义分析奇异值分解
- 基于依存分析的中文时间表达式类型判定被引量:2
- 2013年
- 某些"基数词+时间单位词"组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。
- 肖升何炎祥李勇帆
- 关键词:依存分析
- 基于动词论元结构的中文事件抽取方法被引量:11
- 2012年
- 为将动词与其论元间的约束规则应用于事件抽取,在事件模型中引入动词论元结构形成模型变体,围绕模型变体提出基于动词论元结构的中文事件抽取方法。此方法首先对待抽取文本进行预处理和句法分析,得出其语法结构;然后将所得结构与动词论元结构属性进行比较,找出每个动词支配的论元;最后利用论元的语义属性确定与之对应的事件特征并由此完成事件抽取。实验结果显示,此方法能有效提高抽取系统的性能和效率。
- 肖升何炎祥
- 关键词:动词论元结构信息抽取
- 事件超图模型及类型识别被引量:2
- 2013年
- 为避免向量空间模型的独立性假设影响事件类型识别,该文提出了一种基于超图的事件类型识别方法。该方法首先用事件超图描写事件元素间的多元有序关系;然后用事件超图模型(由事件超图添加类型组件和层面组件后构成)描述某个(某类)事件在不同观测层面的属性及其结构;最后根据事件的属性及其结构计算其相似度,并借此完成事件类型识别。实验结果显示,此方法识别效率的平均F值达到83.0%,与基于向量空间模型的支持向量机方法和最大熵方法相比,此方法也具有一定优势。
- 肖升何炎祥
- 关键词:事件抽取超图有向超图
- 基于基本要素的文摘内容连贯性评测模型被引量:4
- 2008年
- 文摘的自动化面临诸多因难,一个重要的原因是对文摘的内容缺乏有效的自动评测方法.文中提出了基于基本要素(BE)关系网格的文摘内容连贯性评测模型.模型以BE为内容单元,以BE中的"关系"为内容单元的语法角色,通过BE关系在BE关系网格中的转移概率来表达文摘内容的连贯性.在DUC2005数据集上的评测结果显示,模型评测结果与人工评测结果的Pearson相关系数为0.408,比Lapata2005年提出的实体网格模型得到的结果提高了约66%.
- 刘德喜姬东鸿
- 关键词:自动文摘