您的位置: 专家智库 > >

刘冰洋

作品数:5 被引量:9H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 2篇专利

领域

  • 3篇自动化与计算...

主题

  • 3篇抽取
  • 2篇新闻
  • 2篇新闻事件
  • 2篇新闻文本
  • 2篇主角
  • 1篇多语
  • 1篇多语言
  • 1篇多语种
  • 1篇新闻信息
  • 1篇信息成本
  • 1篇信息抽取
  • 1篇语句
  • 1篇人名
  • 1篇识别方法
  • 1篇属性抽取
  • 1篇中文
  • 1篇中文命名实体
  • 1篇字符
  • 1篇字符串
  • 1篇网络

机构

  • 5篇中国科学院
  • 3篇国家互联网应...
  • 3篇中国科学院大...

作者

  • 5篇刘冰洋
  • 5篇程学旗
  • 4篇伍大勇
  • 4篇刘倩
  • 3篇刘悦
  • 2篇刘欣然
  • 1篇张瑾
  • 1篇贺敏

传媒

  • 3篇中文信息学报

年份

  • 1篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2015
  • 1篇2014
5 条 记 录,以下是 1-5
排序方式:
多语种网络文本快速新词抽取被引量:2
2014年
从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
刘冰洋刘倩张瑾刘欣然程学旗
关键词:新词后缀树多语言
融合全局词语边界特征的中文命名实体识别方法被引量:6
2017年
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。
刘冰洋伍大勇刘欣然程学旗
关键词:命名实体识别
一种新闻事件要素抽取方法与装置
本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件...
程学旗刘倩伍大勇刘悦刘冰洋钟艳琴
文献传递
一种新闻事件要素抽取方法与装置
本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件...
程学旗刘倩伍大勇刘悦刘冰洋钟艳琴
文献传递
基于同义扩展的在线百科中实体属性抽取被引量:1
2016年
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。
刘倩刘冰洋贺敏伍大勇刘悦程学旗
共1页<1>
聚类工具0