肖诗斌
- 作品数:58 被引量:390H指数:10
- 供职机构:北京信息科技大学计算机学院更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学交通运输工程语言文字更多>>
- MySql嵌入式存储引擎的研究和实现
- 数据库是数据存储和查询的重要的工具,本文介绍了一种在 mysql 数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度,来设计数据存储格式,来具体的编写自己的存储引...
- 马永成肖诗斌王弘蔚施水才
- 关键词:存储引擎数据格式
- 文献传递
- 专利检索日志的同义词获取被引量:1
- 2015年
- 【目的】研究专利检索日志中的同义词获取方法。【方法】提出一种基于用户行为分析的语义关系获取算法,利用检索式的逻辑运算符关系提取候选同义词对,结合拼音、字型、缩写、简繁等特征,从专利检索日志中挖掘出一部同义词词典。【结果】实验结果表明,该方法识别同义词的准确率达到74.5%,共生成17 495组同义词,生成词典的规模超过目前已有研究中的一些方法。【局限】该词典生成算法较适用于使用复杂检索式的图书情报检索领域。【结论】丰富了基于日志的语义词典获取领域的研究。
- 谷威李超凡王洪俊肖诗斌施水才
- 关键词:日志挖掘
- 基于RSS的博客采集系统的设计与实现被引量:9
- 2007年
- 提出一种基于RSS的博客采集系统实现方案。设计两个爬虫,一个负责广度优先遍历互联网,获取每个用户对应的RSS地址;另一个负责对每个RSS地址垂直搜索,跟踪检测是否有更新的博客文章,以增量方式将更新文章装入数据库。并为算法设计实现一个模型系统。
- 刘莉肖诗斌王涛施水才
- 关键词:RSS信息采集
- 基于极性词典的中文微博客情感分类被引量:29
- 2014年
- 微博客是近年来自然语言处理领域研究的热点。主要针对中文微博客中的情感分类展开研究。结合网络新词和基础情感词,同时考虑了情感词的极性情感强弱,构建四个词典,分别是基础情感词典、表情符号词典、否定词词典和双重否定词词典;在情感词典的基础上,融合汉语语言学特征和微博情感表达特征,提出一种新的基于极性词典的情感分类方法。实验准确率达到82.2%。实验结果表明,提出的方法可以对中文微博进行较好的情感分类,有一定的应用价值。
- 王勇吕学强姬连春肖诗斌
- 关键词:情感分类词典语言学特征
- 规则与统计相结合的案件名称识别
- 在公安领域信息中,案件名称有着举足轻重的作用。因此,如何准确的识别出文本中的案件名称是一个非常重要的研究课题。在对公安领域文本进行了深入地分析和研究的基础上,总结出了案件名称的结构特征及其上下文信息,建立了用于识别案件名...
- 乔春庚肖诗斌孙丽华施水才
- 关键词:公安领域信息抽取
- 文献传递
- 一种基于Native XML的全文检索引擎
- 随着XML的日益流行,基于XML的全文检索应用需求也迅速扩大.在这些应用中native-XML数据库是发展方向.虽然商业化的native-XML数据库已经出现,但其全文检索的性能还不尽人意.本文将提出一种方法,在传统的倒...
- 王弘蔚肖诗斌
- 关键词:检索引擎
- 文献传递
- 一种改进的基于《知网》的词语语义相似度计算被引量:128
- 2008年
- 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
- 江敏肖诗斌王弘蔚施水才
- 关键词:中文信息处理知网词语相似度
- 基于多特征与复合分类法的中文微博情感分析被引量:8
- 2013年
- 为了提高微博的情感分析的准确率,选取微博文本中的动词和形容词作为特征,提出了基于层次结构的特征降维方法,采用基于表情符号的方法计算特征极性值。在此基础上,提出了基于特征极性值的位置权重计算方法,借助支持向量机(SVM)作为机器学习模型将微博文本分为正面、负面和中性3类。也就是多特征提取,结合字典法与机器学习法2种算法,来提高情感分析的准确率。实验结果表明,该方法能取得平均为72.16%的准确率。提出的基于多特征与复合分类器的情感分析方法能够比较有效地对中文微博文本进行情感分类。
- 吴维肖诗斌
- 关键词:表情符号情感分类
- 基于支持向量机的中文文本自动分类研究被引量:65
- 2002年
- 根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。
- 都云琪肖诗斌
- 关键词:支持向量机中文文本学习算法中文信息处理
- 搜索引擎日志中“N_1+N_2+V”型名词短语研究被引量:3
- 2011年
- "N1+N2+V"结构是组成名词短语的一种基本形式。本文基于搜狗日志语料,对搜索引擎日志中的"N1+N2+V"型名词短语进行研究。针对语料自身的特点,从句法特征、短语的层次切分与拆分、句法功能和语义关系4方面,对这类短语进行了考察,着重分析了N1与N2、N2与V的语义关系。文中对搜狗日志的查询内容进行了深入分析和实证,为搜索引擎用短语词典的构建研究提供理论依据。
- 肖诗斌赵红改王洪俊吕学强
- 关键词:搜索引擎日志句法特征句法功能语义关系