袁伯秋
- 作品数:2 被引量:2H指数:1
- 供职机构:北京航空航天大学计算机学院更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- LDA模型参数有偏估计方法
- 2010年
- LDA(Latent Dirichlet Allocation)等基于隐含topic的模型在离散数据处理中的应用逐渐增多.然而LDA使用Dirichlet分布作为隐含topic的分布函数,未能很好表示各topic之间相互关系.目前常见改进方法是通过DAG(Directed Acyclic Graph)图或对数正态分布等其他分布函数表达topic之间的关系.本文通过参数有偏估计的方法,考虑topic混合过程中词项上的重叠关系,改变topic内部词项分布,最终改进LDA模型性能.在回顾一些基础内容后,重点介绍参数有偏估计及简化计算方法.最后通过LDA模型在信息检索中的实验验证这种改进的有效性,并初步分析模型参数选用规律.
- 袁伯秋周一民李林
- 关键词:LDAWORDNET
- 垃圾邮件处理中LDA特征选择方法被引量:2
- 2009年
- 垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方法优于通常的IG、MI特征选择方法;测试过滤器的过滤性能与其他过滤器相当。
- 袁伯秋周一民李林
- 关键词:垃圾邮件过滤