万乐
- 作品数:2 被引量:2H指数:1
- 供职机构:北京理工大学更多>>
- 相关领域:理学自动化与计算机技术化学工程更多>>
- 面向化工领域的Web文本搜索与分类
- 2006年
- 随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。
- 于海英潘云东李亮万乐
- 关键词:化工支持向量机向量空间模型
- 类别特征词权重加权文本分类方法被引量:2
- 2006年
- 提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。
- 万乐刘万春
- 关键词:文本分类特征抽取