江西省教育厅科学技术研究项目(2007-129)
- 作品数:6 被引量:32H指数:3
- 相关作者:王明文王鹏鸣陶红亮熊小勇左家莉更多>>
- 相关机构:江西师范大学江西财经大学更多>>
- 发文基金:江西省科技攻关计划国家自然科学基金江西省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种新的投影寻踪计算方法及在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种何效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问...
- 万中英王明文廖海波
- 关键词:文本分类维数约简投影寻踪
- 文献传递
- 基于核偏最小二乘分类的垃圾邮件过滤被引量:2
- 2009年
- 垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron-Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。
- 岑芳明王明文王鹏鸣戴玉娟
- 关键词:计算机应用中文信息处理垃圾邮件过滤非线性核偏最小二乘潜在语义
- 基于偏最小二乘特征抽取的垃圾邮件过滤被引量:4
- 2008年
- 随着垃圾邮件逐渐成为网络用户的一大困扰,垃圾邮件过滤技术的研究显得越来越重要。针对电子邮件存在数据极度稀疏性、高特征维数和多重相关性等特点,本文提出了一种基于偏最小二乘原理的特征抽取方法,可以通过对原始特征进行线性组合抽取出既可反映邮件内容又可反映邮件类型的潜在语义特征,并可解决多重相关性问题。在Enron-Spam邮件数据集上的实验结果表明,同χ2特征选择方法相比,该方法在较低维数上可以获取良好的邮件过滤性能。
- 王鹏鸣吴水秀王明文黄国斌
- 关键词:计算机应用中文信息处理垃圾邮件过滤偏最小二乘特征抽取
- 双向聚类迭代的协同过滤推荐算法被引量:16
- 2008年
- 协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大。实验表明,在调整后的聚类簇中查找邻居将更加准确,可以有效解决数据稀疏问题的影响,有利于提高推荐的准确性。
- 王明文陶红亮熊小勇
- 关键词:计算机应用中文信息处理协同过滤聚类平均绝对偏差
- 基于聚类分析的搜索引擎自动性能评价被引量:2
- 2010年
- 传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费大量的人力物力,并且评价结果依赖于人工标注的准确性,效率较低。该文基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过类间距和类内距等指标实现检索性能的自动评价。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。
- 吴世勇王明文
- 关键词:信息检索性能评价聚类分析
- 新的基于中间语义的多语言信息检索模型被引量:5
- 2010年
- 在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在语义对应关系,在潜在中间语义空间中进行检索,从而实现跨语言信息检索.作者在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,在TREC5&9和SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文的模型表现了较好的性能.
- 邹小芳王明文左家莉余美华
- 关键词:平行语料库
- 双向聚类迭代的协同过滤推荐算法
- 协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。本文针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态...
- 王明文陶红亮熊小勇
- 关键词:协同过滤聚类MAE
- 文献传递
- 基于用户日志聚类的查询扩展模型
- 如何提高检索精度,为用户提供高质量、高相关度的查询结果,是信息检索领域中最重要的问题。查询扩展是解决此问题的主要方法之一。本文提出了一种基于用户查询日志的查询扩展模型,此模型根据用户查询日志进行聚类,对一个新查询先计算其...
- 吴京慧余珊珊王明文
- 关键词:查询扩展查询日志聚类
- 文献传递
- 基于频率共现熵的跨语言网页自动分类研究被引量:3
- 2011年
- 研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.
- 柯丽王明文何世柱黎佳罗远胜
- 关键词:跨语言网页分类贝叶斯分类
- 基于WEB资源的ComPaper10th中权威学者挖掘
- 文献检索中,自动发现指定研究领域的权威文献和权威学者,使用户对特定领域有全面、深刻、细致的认识和了解,不仅能使科研工作者能快速的进行相关研究,对普通用户了解领域知识也有很好的帮助。首先基于Lucene开源项目构建了一种文...
- 王明文何世柱
- 文献传递