曲维光
- 作品数:103 被引量:399H指数:13
- 供职机构:南京师范大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金江苏省社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于转发图的微博事件主题摘要方法被引量:2
- 2014年
- 自动摘要是自然语言处理中研究文本主题提取的重要课题.传统的摘要研究侧重于新闻、Web网页和博客等长文本的主题提取.本文关注以微博为代表的短文本的主题摘要,提出基于图结构的微博主题区域划分方法,并采用LDA方法提取微博热点事件的主题信息.最后,通过可视化方式展现主题内容在微博转发中的变化.
- 赵斌吉根林曲维光顾彦慧
- 关键词:可视化
- CLUCENE在语料库建设中的应用
- 2008年
- 深入分析了现有语料库的构建模式和语料库应具备的功能模块,提出基于文件系统和Clucene全文检索引擎工具包的语料库建设方案.实验证明,Clucene具有丰富的接口设计和良好的扩展性,为语料库建设提供了一种较好的技术实现方式.
- 贺胜曲维光卢亚军
- 关键词:CLUCENE语料库语料库建设
- 基于机器学习与语义知识的动词隐喻识别被引量:2
- 2011年
- 在自然语言中,动词的用法主要包含3种:字面、转喻和隐喻.动词的隐喻用法在隐喻的研究中占有重要的地位.动词的隐喻计算包含两个子任务:隐喻识别和隐喻理解.本文采用条件随机场、最大熵模型来识别动词的隐喻搭配,并在此基础上,加入了两种语义信:息《同义词词林》的同义词信息和《知网》的语义信息来识别动词的隐喻表达,实验识别正确率可达94.47%.
- 赵红艳曲维光张芬周俊生
- 关键词:知网同义词词林
- 词向量和语义知识相结合的汉语未登录词语义预测研究被引量:2
- 2020年
- 【目的】将词向量和语义知识相结合,提高未登录词语义预测的准确性。【方法】抓取含有未登录词网页的语料,利用Word2Vec等模型得到词语的分布式表示信息,再结合构词语义知识对候选词进行中心词和词性过滤,实现未登录词的语义预测。【结果】在人民日报语料未登录词测试集上的实验结果表明,模型预测正确率可达87.5%,高于只使用词语内部知识的模型和只使用外部分布信息的词向量模型。【局限】无法预测语义不透明的未登录词。【结论】将携带词语外部信息的词向量与词语内部特征相结合,显著提高了未登录词语义预测的正确率,说明词语内、外部信息对于语义的组成有重要作用。
- 魏庭新柏文雷曲维光
- 关键词:未登录词语义知识
- 注疏文献中的注释语句自动分析被引量:8
- 2012年
- 注疏文献中蕴含着丰富的知识,并且它们的行文方式具有半结构化特征。研究了经典古籍与其注疏文献句子对齐的方法,以及注疏文献中注释语句的自动分析方法。该项研究成果能为古籍语料库精加工提供便捷的途径,也能为语言研究者提供更为智能的检索模式。
- 马创新陈小荷曲维光
- 关键词:古籍数字化句子对齐注释
- 基于语境计算模型的词义消歧
- 本文提出相对词频的概念,据此建立起语境计算模型,利用歧义字段前后语境词语相对词频信息对多义词进行消歧。以“黄色”和“黄金”为例进行实验,封闭测试精确率分别达到99.41%和98.93%,开放测试精确率分别达到96.37%...
- 曲维光董宇陈钟陈小荷
- 关键词:计算语言学词义消歧
- 多语料库中汉语四字格的切分和识别研究被引量:4
- 2013年
- 汉语四字格的能产性和派生性极强,利用四字格模式创造出的新词数量在现代汉语词汇中一直呈上升趋势。该文将研究的目光投向分词语料库中的四字格,对语料库中的四字格进行了系统的分类和归纳,并对语料库内部和语料库之间的四字格切分不一致现象进行了详细的调查统计。最后,针对四字格的切分不一致数据引入条件随机场(CRF)模型,对多语料库中的汉语四字格进行识别实验,封闭测试和开放测试的识别精度均达到93%以上。
- 徐润华曲维光陈小荷王东波
- 关键词:四字格CRF模型
- 基于神经网络的复句判定及其关系识别研究被引量:1
- 2021年
- 复句是自然语言的基本单位之一,复句的判定及其语义关系的识别,对于句法解析、篇章理解等都有着非常重要的作用。基于神经网络模型识别自然语料中的复句,判断其复句关系,构造复句判定和复句关系识别联合模型,以最大程度地减少误差传递。在复句判定任务中通过Bi-LSTM获得上下文语义信息,采用注意力机制捕获句内跨距离搭配信息,利用CNN捕获句子局部信息。在复句关系识别任务中,使用Bert增强句子的语义表示,运用Tree-LSTM对句法结构和成分标记进行建模。在CAMR中文语料上的实验结果表明,基于注意力机制的复句判定模型F1值达到91.7%,基于Tree-LSTM的复句关系识别模型F1值达到69.15%。在联合模型中,2项任务的F1值分别达到92.15%和66.25%,说明联合学习能够使不同任务获得更多特征,从而提高模型性能。
- 贾旭楠魏庭新曲维光曲维光顾彦慧
- 关键词:神经网络语义建模
- 基于神经网络的教师教学评估系统被引量:8
- 2004年
- 利用神经网络对教师教学评估中所使用的权值进行非线性学习与调整 ,通过实验证明了该方法的有效性 .
- 陈德良曲维光周春林
- 关键词:神经网络教师教学评估系统权值
- 面向中文自动分词的可扩展式电子词典研究被引量:3
- 2008年
- 在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。
- 贺胜曲维光许超
- 关键词:电子词典词典结构自动分词HASH