北京语言大学应用语言研究所
- 作品数:43 被引量:170H指数:8
- 相关作者:邹红建韩秀娟更多>>
- 相关机构:太原理工大学文法学院外语系太原理工大学文法学院太原理工大学计算机与软件学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金教育部人文社会科学研究基金更多>>
- 相关领域:语言文字自动化与计算机技术文化科学电子电信更多>>
- 汉语真实文本字母词语考察被引量:11
- 2005年
- 借助计算机自动提取,本文对2002年《人民日报》(网络版)全年真实文本中外文字母的使用情况进行了统计考察,给出了作者对字母词语中几个问题的分析讨论,包括对外文字母在该报纸语料中使用情况的分类、字母词语的工程界定(ELWP)、单字母ELWP、含数字ELWP的分类分析和并列结构ELWP处理等。希望对字母词语的规范和中文信息处理有所裨益。
- 郑泽之张普
- 关键词:字母词语
- 面向特定领域的多字词表达式的提取
- 本文在阐述多字词表达式的定义的基础上,对面向特定领域的多字词表达式提取的技术路线进行了详细说明,并在方法、面向对象规模、效率等方面有所创新。利用领域高频词的新技术提取了多字词表达式,其面向的对象是数量为G级大规模的真实文...
- 刘荣王丽娟张志平刘健文胡竟伟
- 关键词:汉字处理词汇提取数理语言学
- 文献传递
- 面向对外汉语报刊教学的文本难易度分类
- 本文介绍了利用文本中通用词的覆盖率和文本长度两个因素,通过计算文本难易度,对大规模文本进行自动初步难易分类.实验发现,综合考虑文本的通用词覆盖率和文本长度比仅根据其中一个因素对文本进行难易度分类效果更佳.针对本次实验所用...
- 邹红建杨尔弘
- 文献传递
- 量化词语的领域特征被引量:1
- 2014年
- 词作为最小的语义单位,同领域之间具有复杂的关系,特别是较为常用的词,通常难以明确界定其所属领域。在某些应用中并非必须确定词和领域的明确关系,仅仅依赖词的领域性的量化值就能够取得较好的效果。该文根据大规模语料库中词的关联信息,采用无指导的方法,对词的领域性进行量化,其结果可以作为词的一种特征应用于文本分类、话题检测、信息检索等相关的自然语言处理中。最后,通过和常用的特征——TF*IDF在话题检测应用中进行对比,证明了其有效性。
- 刘冬明杨尔弘
- 关键词:IDF
- 突发事件文本的信息结构分析
- 本文利用RST修辞结构理论研究了突发事件文本的结构关系,重点分析了突发事件类文本中五类主要的结构关系,同时对文本的信息构成作了探讨,分析了客观信息,主观信息以及模糊信息等三类信息的分布比例也做了—定的研究。这些分析有助于...
- 曾青青杨尔弘
- 关键词:文字处理文本分析修辞结构数理语言学
- 文献传递
- 树库中的歧义组合考察被引量:1
- 2012年
- 汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来消解,仅仅依靠词语的语法特征(如词类信息)是无法解决的。
- 李艳娇杨尔弘
- 关键词:语义关系树库
- 基于中心/修饰依存重排序模型的短语SMT被引量:1
- 2012年
- 为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合.该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量.在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息.实验结果显示,该模型可以明显地改善机器翻译系统的局部调序.
- 刘水李生赵铁军刘鹏远
- 语言监测中词语构造能力的分析及其应用
- 2005-2009年的国家语言资源监测工作已经积累了—些成果,这些成果应该设法转化为语言研究、语言教学、语言信息处理的可用资源。本文将探讨语言监测中词语的内部组成及其关系,统计并分析其中高频词语的能产性,一方面可以为更好...
- 曾小兵邱丽娜张普张志平杨尔弘
- 关键词:语言资源词汇结构特征
- 基于DCC动态流通语料库的流行语类型分析
- 本文对基于DCC动态流通语料库的流行语类型进行了分析。文章围绕基于动态流通语料库的流行语研究、流行语的变化曲线、流行语的自身结构等进行了阐述。
- 史中琦张普
- 关键词:汉语语言语言文字流行语言
- 文献传递
- 语言监测中词语构造能力的分析及其应用
- 2005-2009年的国家语言资源监测工作已经积累了—些成果,这些成果应该设法转化为语言研究、语言教学、语言信息处理的可用资源。本文将探讨语言监测中词语的内部组成及其关系,统计并分析其中高频词语的能产性,一方面可以为更好...
- 关键词:语言资源词汇结构特征
- 文献传递网络资源链接