您的位置: 专家智库 > >

国家自然科学基金(60703051)

作品数:3 被引量:70H指数:2
相关作者:张剑峰姚建民夏云庆更多>>
相关机构:清华大学苏州大学清华信息科学与技术国家实验室更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇会议论文
  • 3篇期刊文章

领域

  • 8篇自动化与计算...

主题

  • 2篇语言处理
  • 2篇中文
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇模糊匹配算法
  • 2篇查询
  • 2篇查询扩展
  • 1篇登录
  • 1篇信息抽取
  • 1篇信息处理
  • 1篇依存分析
  • 1篇语言
  • 1篇语言分析
  • 1篇索引
  • 1篇拼音
  • 1篇情感分析
  • 1篇网络
  • 1篇未登录词
  • 1篇文本
  • 1篇文本处理

机构

  • 8篇清华大学
  • 1篇苏州大学
  • 1篇中国传媒大学
  • 1篇香港城市大学
  • 1篇清华信息科学...

作者

  • 4篇夏云庆
  • 1篇姚建民
  • 1篇郝博一
  • 1篇郑方
  • 1篇杨莹
  • 1篇张剑峰

传媒

  • 2篇清华大学学报...
  • 1篇中文信息学报

年份

  • 1篇2012
  • 6篇2009
  • 1篇2008
3 条 记 录,以下是 1-8
排序方式:
基于索引过滤的汉语短文本模糊匹配计算方法
在当前的中文信息处理中,对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发,提出了基于索引过滤的中文短文本模糊匹配计算方法,包括长度过滤和字命...
曹犟邬晓钧夏云庆郑方
关键词:索引
文献传递
微博文本处理研究综述被引量:55
2012年
微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。该文对微博文本进行了定义,阐述了微博文本研究的重要性,并从微博文本的不同应用领域出发,对微博文本的研究现状进行了综述,介绍了目前已经存在的微博文本数据集和应用系统。
张剑峰夏云庆姚建民
关键词:语言分析文本处理
基于情感向量空间模型的歌词情感分析
音频信号在歌曲情感分析中难以奏效,所以本文提出以歌词作为歌曲情感分析的依据,采取基于情感单元的情感向量空间模型(s-VSM)进行歌词情感分析。该模型较好地解决了基于词汇的向量空间模型(w-VSM)在文本表示效率、歧义、情...
夏云庆杨莹张鹏洲
关键词:文本情感分析
文献传递
基于拼音索引的中文模糊匹配算法被引量:15
2009年
主流商业搜索引擎主要基于关键词精确匹配技术。为提高在用户的输入错误时的检索效率,提出了有索引的汉语模糊匹配算法。该算法采用汉字、拼音和拼音改良的编辑距离这3种汉字相似程度的不同度量方式,对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验中,将该方法应用于网页文本语料库中。在使用基于拼音改良的编辑距离度量方式时,在时间和空间复杂度增长不大的情况下,该方法取得了60.42%的准确率与50.41%召回率。
曹犟邬晓钧夏云庆郑方
关键词:查询扩展
基于泛化和繁殖的自举式意见目标抽取方法
2009年
意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的F-1 score指标超出基线方法0.078;自举过程完成后,F-1 score指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。
郝博一夏云庆邬晓钧郑方刘轶
关键词:自然语言处理文本挖掘
基于拼音索引的中文模糊匹配算法
主流商业搜索引擎主要基于关键词精确匹配技术,对于用户的输入错误,通常无法取得令人满意的检索效果。针对这一问题,结合汉语中的拼音知识,本文提出汉字相似程度的三种不同的度量方式,并基于相似程度度量提出有索引的汉语模糊匹配方法...
曹犟邬晓钧夏云庆郑方
关键词:拼音查询扩展
文献传递
意见目标网络与意见目标抽取研究
未知意见目标是影响意见挖掘系统覆盖率的重要因素。现有意见目标抽取方法大多直接将人工标注的意见目标为种子,通过采取语法/统计模板从真实评价文本中抽取未知意见目标。存在三个问题: (1)手工标注的意见目标粒度过大,不适合作为...
夏云庆郝博一徐睿峰
关键词:自然语言处理信息抽取
文献传递
OPINAX:一个有效的产品属性挖掘系统
产品属性抽取是产品意见挖掘的重要任务之一,直接影响着产品意见挖掘的性能。本文提出了一种基于语言依存分析和语料库统计相结合的未登录(OOV)产品属性挖掘算法。该算法基于一个小规模基本产品属性集,从依存分析结果中提取与已有属...
郝博一夏云庆郑方
关键词:未登录词依存分析
文献传递
共1页<1>
聚类工具0