清华大学人文学院计算语言学研究室
- 作品数:8 被引量:87H指数:5
- 相关作者:季姮厉宇航高小云更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于概念统计的英文自动文摘研究被引量:19
- 2002年
- 文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。
- 万敏罗振声季姮高小云
- 关键词:主题概念向量空间模型计算机
- 基于概念层次的英文文本自动分类研究被引量:11
- 2004年
- 该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。
- 厉宇航罗振声程慕胜
- 关键词:自动文本分类VSMWORDNET
- 中文文本自动校对中的语法错误检查被引量:16
- 2003年
- 文章将中文文本的语法错误分为搭配错误和与句型成分相关的错误两大类。分别采用模式匹配的方法和基于句型成分分析的进行检查,这两种方法的结合,可以同时考虑局部和全局的语法限制信息,并且降低了语法检查的复杂度。通过对实验结果的分析和评测,证明文章所述的方法是可行的。
- 龚小谨罗振声骆卫华
- 关键词:语法错误
- 汉语句子谓语中心词的自动识别被引量:26
- 2003年
- 谓语中心词的识别是句法成分分析中的一个非常重要的部分。本文提出了一种规则和特征学习相结合的谓语识别方法 ,将整个谓语识别的过程分为语片捆绑、谓语粗筛选和谓语精筛选三个阶段。在谓语粗筛选中 ,利用规则过滤掉明显不能充当谓语的词 ,得到一个准谓语集 ;在精筛选阶段 ,选择谓语的支持特征 ,根据统计计算得到每个特征对谓语的支持度 ,然后利用准谓语在句子中的上下文出现的特征对准谓语集中的词进行再次筛选 ,从而确定出句子的谓语中心词。经过测试表明 。
- 龚小谨罗振声骆卫华
- 关键词:计算机应用中文信息处理
- 基于语义层次树的英文自动文摘系统
- 本文提出了一种基于语义层次树的自动文摘方法,通过语义概念层次分析,以概念统计代替传统的词频统计,在语义层面上构建向量空间模型,并结合文本结构分析和可读性加工,设计并实现了一个英文自动文摘系统。本文描述了语义层次树构造、主...
- 万敏罗振声季姮
- 关键词:语义层次向量空间模型主题概念
- 基于概念统计和语义层次分析的英文自动文摘研究被引量:27
- 2003年
- 传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 。
- 季姮罗振声万敏高小云
- 关键词:计算机应用中文信息处理主题概念向量空间模型
- 模式匹配和句型成分分析相结合的语法错误自动检查
- 本文将中文文本的语法错误分为搭配错误和与句型成分相关的错误两大类。分别采用模式匹配和基于句型成分分析的方法进行检查,这两种方法的结合,可以同时考虑局部和全局的语法限制信息,并且降低了语法检查的复杂度。通过对实验结果的分析...
- 龚小谨罗振声骆卫华
- 关键词:语法错误
- 文献传递
- 基于中心理论的汉语指代词消解算法
- 指代词悬挂问题多年来一直是自然语言处理领域内的一个难题。本文在中心理论(Centering Theory)的基础上,提出了新的汉语指代词消解算法,并介绍了它在自动文摘可读性加工领域的应用。该算法是以中心理论为模型,利用句...
- 疏骏罗振声万敏
- 关键词:人称代词指示代词自动文摘
- 文献传递