您的位置: 专家智库 > >

西野文人

作品数:2 被引量:99H指数:2
供职机构:中国科学院大学更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇新词
  • 1篇信息处理
  • 1篇语料
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇新词语
  • 1篇垃圾
  • 1篇计算机
  • 1篇计算机应用
  • 1篇INTERN...
  • 1篇词语
  • 1篇大规模语料
  • 1篇大规模语料库

机构

  • 2篇中国科学院
  • 1篇烟台师范学院
  • 1篇中国科学院研...
  • 1篇中国科学院大...

作者

  • 2篇西野文人
  • 2篇刘群
  • 1篇于浩
  • 1篇孟遥
  • 1篇邹纲
  • 1篇刘洋
  • 1篇崔世起
  • 1篇亢世勇

传媒

  • 1篇计算机研究与...
  • 1篇中文信息学报

年份

  • 1篇2006
  • 1篇2004
2 条 记 录,以下是 1-2
排序方式:
面向Internet的中文新词语检测被引量:77
2004年
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。
邹纲刘洋刘群孟遥于浩西野文人亢世勇
关键词:计算机应用中文信息处理新词语
基于大规模语料库的新词检测被引量:40
2006年
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
崔世起刘群孟遥于浩西野文人
关键词:新词
共1页<1>
聚类工具0