安徽省自然科学基金(11040606M133)
- 作品数:14 被引量:65H指数:6
- 相关作者:郑诚代宁李清刘福君胡春玲更多>>
- 相关机构:安徽大学教育部合肥学院更多>>
- 发文基金:安徽省自然科学基金安徽省高校省级自然科学研究项目安徽省高等学校优秀青年人才基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 一种基于成分的句子相似度计算被引量:4
- 2012年
- 当前信息数据量庞大、冗余度高,如何在自动问答系统中快速查询所需要的信息成为一个关键课题。句子相似度计算作为该领域的一个基础并且是核心的部分,一直受到人们的关注。当前的方法各有其不足之处,文中提出了一种基于成分的句子相似度计算方法。通过将句子划分为主语、谓语、宾语、定语等成分,根据知网计算各个成分间的相似度,最后将所有成分的相似度加权求和得到句子相似度。这种方法不仅能够明显提高句子相似度计算的准确率,同时也极大地降低了计算时的时空消耗,可以有效地提高自动问答系统的准确性。
- 郑诚夏青松孙昌年
- 关键词:句子相似度句子成分自然语言处理
- 结合情感词典与规则的微博情感极性分类方法被引量:4
- 2014年
- 随着微博在网民中日益火热,社会热点问题容易快速地演变成微博热门话题。由于微博用户多、数据量大、情感复杂的特性,通过情感分析来准确地获取微博潜藏的社会价值、商业价值变得十分迫切。该文通过构建情感词典,查找语义规则,并将情感词典与规则结合,建立微博情感分析模型,实验结果表明本文方法在负向情感判别方面效果优于SVM,并且在微博语料较短时,整体分类效果也优于SVM。
- 郑诚杨希张吉赓
- 关键词:情感分析情感词典
- 基于语义的VSM模型改进被引量:8
- 2011年
- 文本聚类在很多领域都有广泛的应用,传统的文本聚类方法由于并不考虑语义因素,得出的聚类效果并不理想。利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。
- 苏喻郑诚马中杰
- 关键词:文本聚类VSM模型特征向量语义
- 基于类序列规则的中文微博情感分类被引量:9
- 2016年
- 研究中文微博文本的情感分类问题,介绍一种基于类序列规则的微博情感分类方法。通过情感词典和机器学习的方法获得微博文本中每个句子的2个潜在的情感标签,将每条微博文本看作是一个数据序列,从数据集中挖掘出类序列规则,从挖掘出的规则中提取出的有效特征并结合文本其他特征来训练分类器。在COAE会议提供的微博数据集上的实验结果表明该方法的有效性。
- 郑诚沈磊代宁
- 关键词:情感分类情感词典文本特征
- 基于VSM和LDA模型的FAQ问答系统被引量:3
- 2014年
- 传统的搜索引擎返回的数据太过庞大,很多情况下用户不能快速地找到自己要的答案。在这种情况下,文中引入FAQ系统。FAQ中如何找到最佳匹配答案,是文中的研究重点。改进了传统的VSM模型,使得它能更好地体现问题中词的权重。重点引入了LDA模型,并用计算机故障领域内的文档资料对它进行训练,得到主题-词的概率分布。通过主题-词中词的概率分布,计算词与词的相关度,提出通过词与词间相关度计算句子与句子间相似度的算法。对两个算法进行综合,得到最终的相似度算法。文中对FAQ进行整理,得到了FAQ问答系统的雏形。通过实验分析,说明相似度算法有很好的效果。
- 郑诚刘娇丽项珑
- 关键词:VSMDIRICHLET
- 融合BTM主题特征的短文本分类方法被引量:11
- 2016年
- 针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法计算权重。结合BTM主题模型中各主题下的主题词对词数较少的文档进行补充,并选择每篇文档在各个主题下的概率分布作为另一部分文档特征。通过KNN算法进行多组分类实验,结果证明该方法与传统的TF-IWF等方法计算特征进行比较,F1的结果提高了10%左右,验证了方法的有效性。
- 郑诚吴文岫代宁
- 关键词:主题模型
- 基于路径的网络本体语言存储模型
- 2011年
- 为提高信息检索效率,提出基于路径的网络本体语言(OWL)存储模型,首先设计了转换和存储OWL数据的方法,实现构建包含有类和属性层次结构关系的数据图,然后通过深度优先搜索(DFS)算法建立从根节点的类和属性信息到每个节点的类和属性信息的路径,再将这些信息存储到设计的关系数据库表中。通过实验与现有方法进行了比较,在查询处理时间和本体更新时间性能方面都有改进,方案具有可行性。
- 吕刚郑诚胡春玲
- 关键词:WEB本体语言本体存储语义网
- 基于指代消解和篇章结构分析的自动摘录算法被引量:2
- 2012年
- 传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。
- 郑诚刘福君李清
- 关键词:自然语言处理向量空间模型主题划分篇章结构指代消解
- 一种改进的基于领域本体的概念语义相似度算法被引量:1
- 2013年
- 首先,分析相似度计算的几类方法,然后提出一个改进的基于本体的相似度计算方法。方法同时考虑了与被评估概念相关的所有上下位关系,本体中的有向边和概念属性。经实验验证,该方法简单有效。
- 胡哲郑诚
- 关键词:本体语义距离相似度
- 基于领域本体概念划分的语义标注方法
- 2013年
- 对当前的基于领域本体的语义标注方法进行了说明和分析,提出了基于领域本体概念划分的语义标注方法.该方法将领域本体中的概念分为特有概念和普通概念,先用一般的领域本体标注算法计算特征词的权值,再对普通概念特征词的权值进行调整,最后结合水稻领域进行试验.实验表明,该方法在保证查全率的基础上,提高了普通概念特征词的查准率.
- 杨利叶明全郑诚
- 关键词:本体语义标注