您的位置: 专家智库 > >

段晓丽

作品数:3 被引量:12H指数:2
供职机构:大连理工大学更多>>
发文基金:教育部人文社会科学研究基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 3篇抽取
  • 2篇正文抽取
  • 2篇PAGERA...
  • 1篇信息抽取
  • 1篇主题抽取
  • 1篇主题分析
  • 1篇自动文摘
  • 1篇网页
  • 1篇网页结构
  • 1篇文本
  • 1篇文摘
  • 1篇WEB文本

机构

  • 3篇大连理工大学
  • 1篇中国环境管理...

作者

  • 3篇段晓丽
  • 2篇王宇
  • 1篇刘玮楠
  • 1篇谷静

传媒

  • 1篇现代图书情报...
  • 1篇计算机工程与...

年份

  • 2篇2012
  • 1篇2010
3 条 记 录,以下是 1-3
排序方式:
Web文本自动文摘的研究
随着互联网技术的迅速发展,网页已成为最重要的信息资源,但随之而来的是“信息爆炸”的问题。除了描述网页主题的正文信息外,Web网页中往往还包含一些导航条、广告链接及版权等垃圾信息,如何在浩瀚的网络中快速而又准确地找到用户所...
段晓丽
关键词:主题分析PAGERANK算法
文献传递
基于正文特征及网页结构的主题网页信息抽取被引量:10
2012年
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。
段晓丽王宇谷静刘玮楠
关键词:正文抽取
基于主题分割与PageRank算法的文本主题抽取被引量:2
2010年
针对主题句抽取时完整性差的问题,在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
段晓丽王宇
关键词:PAGERANK算法
共1页<1>
聚类工具0