公共文化服务平台

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

基于互联网海量语料的新词发现研究及中文分词系统改进: 中文自动分词是中文自然语言处理的基础。随着Web2.0的发展，网络新词的自动识别已经成为中文分词的一个主要难点和瓶颈。对此提出了一种非监督的新词识别方法，该方法利用互信息(PMI，Point-wise Mutual In...; 杜丽萍; 关键词：词汇识别中文分词系统

互信息改进方法在术语抽取中的应用被引量：18: 2015年; 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。; 杜丽萍李晓戈周元哲邵春昌; 关键词：术语抽取知识获取互信息

基于信息抽取技术的问答系统被引量：8: 2017年; 通过分析实体关系和命名实体,提出基于层次的答案提取方法。在将问题分为实体关系型、实体型和关键词型3类的基础上,按照实体关系层、实体层、关键词层得到答案集,利用基础特征、命名实体匹配和实体关系匹配进行特征排序提取答案。基于NLPCCEVAL2015的测试结果表明,在考虑命名实体和实体关系的情况下,准确率比仅使用基础特征的情形提高了6.1%,达到54.05%。; 于根李晓戈刘睿范贤杜丽萍; 关键词：问答系统信息抽取

基于互信息改进算法的新词发现对中文分词系统改进被引量：43: 2016年; 提出一种非监督的新词识别方法。该方法利用互信息（PMI）的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词（n为发现的新词最大长度,可以根据需要指定）。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。; 杜丽萍李晓戈于根刘春丽刘睿; 关键词：新词识别未登录词互信息中文分词

基于表示学习的中文分词被引量：5: 2016年; 为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别。对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析。基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能。; 刘春丽李晓戈刘睿范贤杜丽萍; 关键词：聚类条件随机场中文分词

全选清除导出

共1页<1>

杜丽萍