徐学可
- 作品数:13 被引量:58H指数:4
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 网页文本分类及其在搜索引擎中的应用
- 网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类对于解决人们如...
- 徐学可
- 关键词:网页文本分类文本信息搜索引擎网络信息
- 文献传递
- 基于情感词向量的微博情感分类被引量:21
- 2017年
- 该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。
- 杜慧徐学可伍大勇刘悦余智华程学旗
- 关键词:情感分析情感分类
- 基于关键句的多语言情感数据处理分类方法及系统
- 本发明公开了一种基于关键句的多语言情感数据处理分类方法及系统,方法包括:步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投票规则来最终判定情感词的极性;步骤2,用抽取出的情感词典数据包计算情感属...
- 程学旗林政张瑾谭松波徐学可
- 文献传递
- 多种语言文本数据分类处理方法
- 本发明公开了一种自学习的涉及多语言数据处理分类方法,包括通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对...
- 程学旗林政张瑾谭松波徐学可
- 文献传递
- 基于主题Hub值的元搜索被引量:1
- 2009年
- 为了提高元搜索引擎排序结果的质量,提出了成员引擎特征的主题Hub值表示和基于主题Hub值的结果排序算法.特征学习算法利用一组主题关联词对成员引擎的特征进行学习,并表示为主题Hub值的形式.排序算法根据主题Hub值计算结果的全局相关度对结果进行排序.实验结果表明,该模型取得了更好的排序质量.
- 蒋宗礼李宪雷徐学可
- 关键词:搜索引擎元搜索排序
- 面向情绪分类的情绪词向量学习被引量:3
- 2017年
- 提出了一种面向情绪分类的融合词内部信息和情绪标签的词向量学习方法。在CBOW模型的基础上,引入词内部成分和情绪标签信息,以适应微博情绪表达的不规范,同时丰富词向量的情绪语义。对于输入文本,按照词的TF-IDF权重对词向量进行加权求和,以作为文本向量表示。以上述词向量或文本向量作为情绪分类器的输入,采用机器学习的分类方法(LR、SVM、CNN),验证本文情绪词向量在情绪分类任务上的实验效果。实验表明,情绪词向量与原始CBOW词向量相比,在准确率、召回率、F值等各项指标上都有更好的表现。
- 杜漫徐学可杜慧伍大勇刘悦程学旗
- 关键词:情绪分析
- 文本分类中基于词条聚合的特征抽取被引量:6
- 2008年
- 特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPR INT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.
- 蒋宗礼徐学可李帅
- 关键词:特征抽取
- 一种基于超链接引导的主题搜索的主题敏感爬行方法被引量:12
- 2008年
- 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。
- 蒋宗礼徐学可李帅
- 关键词:主题爬虫主题模型
- 面向在线顾客点评的属性依赖情感知识学习被引量:1
- 2015年
- 该文研究属性依赖情感知识学习。首先提出了一个新颖的话题模型,属性观点联合模型(Joint Aspect/Opinion model,JAO),来同时抽取评论实体属性及属性相关观点词信息。在此基础上,对于各个属性,构造属性依赖的词关系图,并在该图上应用马尔科夫随机行走过程来计算观点词到少量褒、贬种子词的游走时间(Hitting Time),进而估计这些词的属性依赖的情感极性分值。在餐馆点评数据上的实验表明所提出的方法能有效抽取属性相关观点词,同时有效估计其属性依赖的情感极性分值。
- 徐学可谭松波刘悦程学旗吴琼
- 一种基于集成学习与类指示器的文本分类方法被引量:3
- 2010年
- 提出了一种基于集成学习机制与类指示器的文本分类方法.该方法利用AdaBoost.MH算法框架,在每一轮次中,自适应地计算类指示度,通过加权组合所有成员类指示度,获得对理想类指示度的一种逼近.利用最终的类指示度所得到的分类器不仅简单、易于更新,而且泛化能力强.在标准语料集TanCorp-12上的实验表明,该方法适用于对分类效率要求较高的实时应用,同时可以利用集成学习进行某些知识的精确学习,并将这些知识用于弱分类器,从而实现简单高效的分类.
- 蒋宗礼徐学可
- 关键词:文本分类