段晓丽
- 作品数:3 被引量:12H指数:2
- 供职机构:大连理工大学更多>>
- 发文基金:教育部人文社会科学研究基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- Web文本自动文摘的研究
- 随着互联网技术的迅速发展,网页已成为最重要的信息资源,但随之而来的是“信息爆炸”的问题。除了描述网页主题的正文信息外,Web网页中往往还包含一些导航条、广告链接及版权等垃圾信息,如何在浩瀚的网络中快速而又准确地找到用户所...
- 段晓丽
- 关键词:主题分析PAGERANK算法
- 文献传递
- 基于正文特征及网页结构的主题网页信息抽取被引量:10
- 2012年
- Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。
- 段晓丽王宇谷静刘玮楠
- 关键词:正文抽取
- 基于主题分割与PageRank算法的文本主题抽取被引量:2
- 2010年
- 针对主题句抽取时完整性差的问题,在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
- 段晓丽王宇
- 关键词:PAGERANK算法