王洪俊
- 作品数:11 被引量:9H指数:2
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划北京市重大科技计划项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 面向文本聚类的相似度计算方法研究
- 作为一种基于无监督学习的知识获取方法,文本聚类是文本挖掘领域的一项重要技术。文本聚类在文档组织、信息检索、话题检测与跟踪等诸多领域都得到了普遍的应用,受到研究者的广泛重视,具有重要的研究价值。
如何提高聚类质量...
- 王洪俊
- 关键词:文本相似度文本聚类有监督学习语义相似度语言学知识
- 中文文本聚类的特征单元比较
- 本文对字、词和字串等文本特征在中文文本聚类中的效果进行了比较实验.实验使用K-MEANS聚类方法,检验了字特征、字串特征、词特征以及它们的组合方式的聚类效果.
- 王洪俊俞士汶苏祺施水才肖诗斌
- 关键词:中文文本聚类
- 文献传递
- 人民日报标注语料的索引方法研究
- 本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:混合索引
- 文献传递
- 人民日报标注语料的索引方法研究
- 本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率.
- 王洪俊施水才俞士汶肖诗斌
- 关键词:混合索引
- 文献传递
- 跨语言相似文档检索被引量:5
- 2007年
- 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:计算机应用中文信息处理文档相似度
- TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索
- 本文介绍了TRS文本检索系统的主要技术特点,分析了搜索引擎技术的优点和不足,提出了基于自然语言处理的文本检索技术,介绍了TRS自动分类、自动摘录和相似性检索技术.所有这些技术都经过大数据量和开放环境的实际检验,有许多成功...
- 施水才肖诗斌王弘蔚王洪俊苏东庄
- 文献传递
- 词义演化的计算方法被引量:4
- 2006年
- 从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。
- 王洪俊施水才俞士汶吕学强
- 多情景跨领域中文文本智能校对关键技术及应用
- 2021年
- 数字化时代,多种应用情景的电子文本大量涌现,包括各种编码输入法、OCR识别、机器翻译、语音识别等产生的文本,并在新闻和图书出版、各种公文处理、网络媒体处理等跨领域得到广泛应用。电子文本中经常会出现字词、句法、语义级的各种错误,直接影响文本的质量,敏感性、政治性错误还会影响社会安全和稳定。人工对文本内容的审核校对,成本高且质量得不到保证。开展多情景跨领域的中文文本智能校对技术研究,可以发现各种错误的出现机理,有利于规范文本内容,减轻劳动强度,降低出版成本,具有重要的科学、社会意义及应用价值。项目历时近20年,在国家自然科学基金等项目支持下,通过校企合作,对中文文本校对的关键技术进行深入研究并取得突破,形成多项创新性技术成果,部分成果在国内外实现了重大技术突破。
- 张仰森亓文法亓文法施水才吴云芳陈若愚黄改娟王洪俊吴云芳肖诗斌尤建清黄改娟张良
- 关键词:电子文本中文文本文本校对机器翻译公文处理国家自然科学基金
- 文本自动分类技术及其应用
- 本文首先介绍了两项较实用化的文本自动分类技术,分析其实质,指出其不足,提出一个改进方案.设计并实现一个自动分类系统,该系统经过长期的测试,表现出良好的性能和高的分类精度.
- 王弘蔚孙丽华王洪俊
- 关键词:支持向量机K近邻
- 文献传递
- 基于倒排表的快速文档相似性检索
- 本文提出了一种基于倒排表的快速文档相似检索算法,通过采用基于hash的技术,消除了合并操作这一瓶颈操作.
- 王洪俊施水才肖诗斌
- 关键词:倒排表
- 文献传递