徐蔚然
- 作品数:70 被引量:197H指数:7
- 供职机构:北京邮电大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信理学文化科学更多>>
- 基于语义特征扩展的知识库增量引文推荐算法被引量:4
- 2016年
- 将知识库增量引文推荐(cumulative citation recommendation,CCR)任务分解为3个基本的关键问题:针对知识库某一实体名的查询扩展;针对文档和实体的特征提取;基于线性和非线性相结合的分类模型。提出了基于语义词典(DBpedia)与词向量(word embedding)相结合的方法进行查询扩展,以及利用LDA和ESA两种算法对文档进行特征提取,最终通过线性逻辑回归与非线性随机森林相融合的分类算法实现CCR算法。与基线系统相比,该方法在TREC KBA2014评测数据上的试验结果的F1平均提升了14.7%,表明本文设计的方法能够较好地解决引文推荐问题。
- 徐也徐蔚然
- 关键词:知识库查询扩展特征提取
- 一种基于隐多粒度局部特征的中文分词方法
- 本发明实施例公开了一种基于隐多粒度局部特征的中文分词方法。属于信息处理领域。该方法的特征包括:先利用多卷积核的卷积神经网络处理待分词文本,得到待分词文本的隐多粒度局部特征;再经过一个k‑max池化层,仅保留其中比较重要的...
- 包祖贻李思徐蔚然
- 文献传递
- 一种短信的识别方法和设备
- 本发明提供一种短信的识别方法和设备。其中方法包括:接收服务器发送的短信和所述短信的概率特征向量;利用所述概率特征向量分别计算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和...
- 徐蔚然王占一刘东鑫方琦
- 文献传递
- 防假死爬虫系统的构建方法
- 本发明公开了一种防假死爬虫系统的构建方法,该方法包括下列步骤:(1)检测处理被请求网页;(2)检测处理网络响应;(3)检测处理存储空间;(4)重复执行步骤(1),(2)和(3),直到网页超链接全部处理完为止。通过应用本发...
- 杨溥郭军徐蔚然
- 文献传递
- 中文文本分类中的特征选择算法研究被引量:65
- 2005年
- 比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。
- 胡佳妮徐蔚然郭军邓伟洪
- 关键词:文本分类评价函数
- 同话题定位跟踪式论坛爬虫系统
- 本发明公开了一种同话题定位跟踪式论坛爬虫系统,包括以下部件:非文本粗略过滤器,非文本精确过滤器,超链接补全器,纯网页超链接存储库,同话题定位跟踪器,同话题网页超链接存储库,网页组数据下载器,统一编号器,网页组数据存储库,...
- 杨溥郭军徐蔚然
- 文献传递
- 内部网可定制爬虫系统构建方法
- 本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定...
- 杨溥郭军徐蔚然
- 文献传递
- 基于统计的中文标点识别算法研究
- 本文提出了一套基于统计的中文标点识别算法,包括特征抽取、特征选择及贝叶斯分类器的应用, 与现有的基于逻辑判断的算法相比,本算法有较强鲁棒性、易于扩展功能,具有普遍意义,并且实验结果表明该方法识别率比逻辑判断算法有所提高。
- 吴铭徐蔚然郭军
- 关键词:贝叶斯分类器
- 文献传递
- 基于贝叶斯分类器的文字字体判断设备及其方法
- 本发明公开了一种基于贝叶斯分类器的文字字体判断设备及其方法。所述的设备包括:文字图像输入装置与前端处理装置、特征提取器、训练样本存储器、PCA分析器,PCA变换器、分类器参数估计器、贝叶斯分类器、可信度估计装置、判断结果...
- 徐蔚然刘刚郭军张洪刚
- 文献传递
- 基于合并模型的中文文本情感分析
- 本文研究中文文本的篇章倾向性分析问题。针对于传统的只考虑单一粒度上的情感分析方法,本文提出了一种新颖的基于不同粒度的结合模型的中文文本情感分析算法,该方法结合了基于词语级和句子级的篇章情感分析。在基于词语级篇章情感分析方...
- 李思张浩徐蔚然郭军
- 关键词:情感分析中文文本
- 文献传递