您的位置: 专家智库 > >

罗智勇

作品数:22 被引量:120H指数:6
供职机构:北京语言大学信息科学学院更多>>
发文基金:国家自然科学基金教育部科学技术研究重点项目国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 9篇期刊文章
  • 9篇会议论文
  • 2篇学位论文
  • 1篇专利
  • 1篇科技成果

领域

  • 17篇自动化与计算...
  • 2篇文化科学
  • 2篇语言文字

主题

  • 7篇汉语
  • 6篇中文
  • 6篇现代汉语
  • 6篇分词
  • 5篇信息处理
  • 5篇数据稀疏
  • 5篇中文信息
  • 5篇中文信息处理
  • 4篇自动分词
  • 4篇相似词
  • 4篇计算机
  • 3篇专名
  • 3篇专名识别
  • 2篇多音词
  • 2篇引语
  • 2篇人名
  • 2篇人名识别
  • 2篇识别方法
  • 2篇随机场
  • 2篇条件随机场

机构

  • 20篇北京语言大学
  • 9篇北京工业大学
  • 1篇中国人民解放...

作者

  • 22篇罗智勇
  • 12篇宋柔
  • 3篇荀恩东
  • 2篇王洁
  • 1篇岳炳词
  • 1篇李卫亮
  • 1篇李卫亮
  • 1篇李飞
  • 1篇喻国宝
  • 1篇戴伟长
  • 1篇许勇
  • 1篇邢富坤
  • 1篇陈小荷
  • 1篇娄珽
  • 1篇娄珽
  • 1篇樊太志
  • 1篇袁江
  • 1篇王慧玲

传媒

  • 6篇中文信息学报
  • 2篇全国第八届计...
  • 1篇计算机研究与...
  • 1篇北京大学学报...
  • 1篇北京工业大学...
  • 1篇第十届全国计...

年份

  • 1篇2021
  • 3篇2019
  • 2篇2018
  • 1篇2017
  • 1篇2010
  • 1篇2009
  • 1篇2007
  • 2篇2006
  • 6篇2005
  • 1篇2004
  • 1篇2002
  • 2篇2001
22 条 记 录,以下是 1-10
排序方式:
基于小句复合体的句子边界自动识别研究被引量:2
2021年
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F_(1)值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。
何晓文罗智勇胡紫娟王瑞琦
关键词:句子小句复合体句子边界识别
相似词及其在计算机辅助校对系统中的应用
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
罗智勇宋柔
关键词:数据稀疏相似词计算机辅助校对
文献传递
现代汉语通用分词系统
宋柔戴伟长罗智勇娄珽李卫亮李飞陈小荷喻国宝袁江许勇岳炳词王慧玲
该研究技术原理为歧义切分对5段和5段以下的歧义字段进行了穷尽式的分析处理,对于5段以上的歧义字段提出了高准确度的一般性规则,实现了专名识别和排歧的一体化算法。性能指标:分词准确率(分词正确的字数/全文字数)>98%;分词...
关键词:
关键词:自动分词专名识别
现代汉语通用分词系统的技术与实现
自动分词技术是中文信息处理的基础工程.任何基于词一级中文处理应用系统都离不开分词系统.自动分词技术的重点和难点在于歧义切分处理和未登录词识别.该文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在...
罗智勇
关键词:中文信息处理歧义处理专名识别
文献传递
相似词及其在计算机辅助校对系统中的应用
统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高.把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
罗智勇宋柔
关键词:数据稀疏相似词计算机辅助校对
文献传递网络资源链接
一种基于可信度的人名识别方法
专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》...
罗智勇宋柔荀恩东
关键词:自动分词人名识别统计语言模型
文献传递
现代汉语通用分词系统中歧义切分的实用技术被引量:29
2006年
歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
罗智勇宋柔
关键词:中文信息处理歧义切分
基于小句复合体的句子边界自动识别研究
自然语言文本的语法结构层次是词、短语、句子、小句复合体、语篇.词、短语相关处理技术已经相当成熟,而句子的概念至今未有公认的适用于语言信息处理的界定.语言学界对于句子的定义缺乏操作性;而且以句号句为单位进行语言信息处理的工...
何晓文罗智勇胡紫娟王瑞琦
关键词:自动识别小句复合体
基于序列标注的引语识别初探
句间引用关系自动识别是篇章分析中一项重要内容.句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少.句间引用关系主要体现在引语中的引用句上.引语由引导句和引用句组成,一般分为直接引语和间接...
贾泓昊罗智勇
关键词:条件随机场
面向应用的词语处理技术
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前自动分词系统性能,在歧义切分处理方面已经达到了较高水平,但未登录词识别性能仍有待进一步提高;同时,...
罗智勇
关键词:歧义切分专名识别新词发现数据稀疏
文献传递
共3页<123>
聚类工具0