国家自然科学基金(60873174)
- 作品数:3 被引量:216H指数:3
- 相关作者:孙茂松谢丽星周明乔维更多>>
- 相关机构:清华大学微软公司更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于层次结构的多策略中文微博情感分析和特征抽取被引量:194
- 2012年
- 随着Web2.0时代的兴起,与微博相关的研究得到了学术界和工业界的广泛关注。该文使用新浪API获取数据,针对中文微博消息展开了情感分析方面的研究。我们对于三种情感分析的方法进行了深入研究,包括表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法,实验表明基于SVM的层次结构多策略方法效果最好。其次,针对层次结构的多策略方法的特征选择进行了详细分析,包括主题无关、主题相关的特征。实验表明使用主题无关的特征时获得的准确率为66.467%。引入主题相关的特征后,准确率提升至67.283%。
- 谢丽星周明孙茂松
- 关键词:情感分析SVM
- 基于互联网自然标注资源的自然语言处理被引量:17
- 2011年
- 该文提出了"基于互联网自然标注资源的自然语言处理"的学术思想,并从自然标注资源的定义和基本类型、基于自然标注资源的计算、方法论层面上的初步思考等三个角度对这一学术思想进行了初步的阐发。最后指出了其中的一个基础问题:如果我们把全部自然标注资源所能提供的全部信息或知识都以一种系统的方式用到了极致,并且把它们最大限度地有机集成起来,机器能否如愿以偿地获得对自然语言一定深度的理解呢?
- 孙茂松
- 关键词:互联网自然语言处理
- 基于M^3N的中文分词与命名实体识别一体化被引量:5
- 2010年
- 中文分词和命名实体识别经常被视为2个独立的任务。该文提出一种基于最大间隔Markov网络模型(M3N)的中文分词和命名实体识别一体化方法,将二者统一在一个字序列标注框架下,进行联合训练和测试。在SIGHAN_2005分词数据集上的实验结果显示,与基于条件随机场模型的分词器相比,基于M3N的分词器加权综合值提高0.3%~2.0%。在SIGHAN_2005分词数据集和SIGHAN_2006命名实体数据集上进行测试的结果显示,与分步方法相比,一体化方法能够同时提高中文分词和命名实体识别的性能,加权综合值的提高幅度分别为1.5%~5.5%和5.7%~7.9%。同时,还基于分词任务考察了特征模版和不合法序列对M3N性能的影响。
- 乔维孙茂松
- 关键词:中文分词命名实体识别
- 越汉双语句子自动对齐研究初步
- 句子级对齐双语语料是自然语言处理的重要资源之一,对于机器翻译、跨语言检索、双语词典编纂等研究有很大应用价值。关于自动句子对齐的研究主要针对于英语、法语、汉语等语言,据我们所知,尚未见到针对越南语-汉语的相关研究。本文考查...
- 陈坚忠李鹏孙茂松
- 文献传递