国家高技术研究发展计划(2006AA01Z139)
- 作品数:6 被引量:15H指数:3
- 相关作者:陈家骏戴新宇周俊生田宝明陈毅东更多>>
- 相关机构:南京大学厦门大学南京师范大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金福建省重点科技计划项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 跨语言信息检索中的查询扩展被引量:4
- 2009年
- 提出了把语义词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分利用了现有词典资源和语料库资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上位词和潜在语义相关词,实验表明该方法能很好的解决跨语言信息检索中翻译项的歧义问题。
- 郭文陈毅东赵欣
- 关键词:跨语言信息检索查询扩展
- 基于HMM的汉语整句拼音输入法研究
- 2008年
- 介绍了一种基于HMM的汉语整句拼音输入转换为整句汉字的输入法,提出了引入语言知识后的一种音字选择方法,并给出了采用N元拼音文法时的选择模型。实验表明,该方法取得了较好的效果。
- 贾剑峰史晓东赖兴邦
- 关键词:智能拼音输入法N元模型
- 一种结合BaseNP识别的汉语概率句法分析改进模型
- 基本短语,尤其是基本名词短语(BaseNP)一直是句法分析中需要特殊处理的一种结构。准确地识别基本短语不仅有助于降低句法分析的复杂度,提高效率:而且还能起到消歧的作用,从而改善句法分析的结果。本文在 Collins 概率...
- 何亮戴新宇周俊生陈家骏
- 关键词:基本名词短语汉语句法分析
- 文献传递
- 跨语言信息检索中的查询扩展
- 本文提出了把词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分的利用了现有词典资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上下位词和潜在语义相关词,实验表明该方法能比...
- 郭文史晓东陈毅东
- 关键词:跨语言信息检索查询扩展
- 文献传递
- 语篇标注语料库的建设研究
- 本文主要介绍一个语篇标注体系,该标注体系采用自底向上的方法对基本语篇形式单元(BFDU)到句群等语篇中不同层次的语言单位和其间的关系类型进行标注,并标注了能充分反应语篇信息的各种词汇关系。本研究所产生的语料库可用于基于语...
- 练睿婷史晓东
- 关键词:语料库
- 文献传递
- 中心词驱动的汉语统计句法分析模型的改进被引量:3
- 2008年
- 在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。
- 何亮戴新宇周俊生陈家骏
- 关键词:计算机应用中文信息处理基本名词短语汉语句法分析
- 利用系统整合提高中文分词精度的方法研究
- 2009年
- 实现一个基于条件随机场模型的中文分词工具,同时还提出利用多系统组合来提升中文分词成绩的构想,并用实验数据分析几个系统整合后所具有的分词潜力。实现几个系统的整合并将分词最好的成绩提高0.56个百分点。
- 刘智文
- 关键词:条件随机场中文分词
- 一种错误敏感的词对齐评价方法
- 对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。本文针对基于短语的...
- 黄书剑奚宁赵迎功戴新宇陈家骏
- 关键词:统计机器翻译词对齐AER
- 文献传递
- 一种基于贪婪算法的KNN参数选择策略被引量:1
- 2008年
- K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。
- 金自翔戴新宇陈家骏
- 关键词:文本分类K近邻贪婪算法
- 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT被引量:7
- 2008年
- 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.
- 戴新宇田宝明周俊生陈家骏
- 关键词:潜在语义分析文本分类