您的位置: 专家智库 > >

丁国栋

作品数:22 被引量:125H指数:6
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术理学文化科学一般工业技术更多>>

文献类型

  • 9篇会议论文
  • 6篇专利
  • 5篇期刊文章
  • 1篇学位论文
  • 1篇科技成果

领域

  • 14篇自动化与计算...
  • 1篇一般工业技术
  • 1篇文化科学
  • 1篇理学

主题

  • 9篇抽取
  • 8篇信息检索
  • 6篇网页
  • 4篇信息抽取
  • 4篇网页信息
  • 4篇网页信息抽取
  • 4篇包装器
  • 4篇查询
  • 4篇查询扩展
  • 3篇优先搜索
  • 3篇语言模型
  • 3篇搜索
  • 3篇网站
  • 3篇链接
  • 3篇链接关系
  • 3篇宽度优先搜索
  • 2篇段落
  • 2篇信息处理
  • 2篇页面
  • 2篇元数据

机构

  • 22篇中国科学院
  • 3篇上海证券交易...
  • 1篇中国科学院研...

作者

  • 22篇丁国栋
  • 9篇张刚
  • 9篇王斌
  • 8篇程学旗
  • 6篇郭岩
  • 5篇白硕
  • 4篇王宇
  • 2篇许洪波
  • 2篇曹冬林
  • 2篇梅雪
  • 2篇郭瑞杰
  • 2篇吴博
  • 1篇董永苹
  • 1篇谭松波
  • 1篇段建国
  • 1篇王东滨
  • 1篇何慧
  • 1篇舒敏
  • 1篇王丽宏
  • 1篇王勇

传媒

  • 2篇计算机研究与...
  • 2篇中文信息学报
  • 1篇计算机工程
  • 1篇第二届全国信...
  • 1篇全国网络与信...
  • 1篇中国科学院计...
  • 1篇全国网络与信...

年份

  • 1篇2012
  • 2篇2011
  • 3篇2010
  • 1篇2009
  • 2篇2008
  • 4篇2007
  • 3篇2006
  • 3篇2005
  • 3篇2004
22 条 记 录,以下是 1-10
排序方式:
基于统计语言建模的信息检索及相关研究
本文对基于统计语言建模(SLM,Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在...
丁国栋
关键词:信息检索统计语言模型查询扩展
文献传递
大规模网络内容安全控制关键技术与示范系统研究
程学旗王丽宏余翔湛丁国栋熊刚舒敏黄文廷贺龙涛刘峰刘振业王勇王东滨李东何慧董永苹谭松波
大规模网络内容安全监控示范应用系统包括安全响应管控平台、信息对抗平台、互联网舆情监测系统等三个应用系统。安全响应管控平台能够在网络舆情暴发时,及时将控管指令在全网生效,并结合空路由技术和路由扩散技术将舆情控制在局部的最小...
关键词:
基于话题特征统计的互联网热点分析技术
网络中热点话题发现问题,本文提出了一种基于话题特征统计的互联网热点话题发现方法。该方法首先从文本中提取话题特征,然后对话题特征进行聚类分析,从而发现热点话题特征,再利用检索技术,将热点话题特征对应的话题报文检索出来,形成...
段建国丁国栋程学旗
关键词:关键词抽取
一种基于局部共现的查询扩展方法被引量:60
2006年
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local ContextAnalysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。
丁国栋白硕王斌
关键词:计算机应用中文信息处理信息检索查询扩展
一种网页的正文抽取方法
本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
郭岩丁国栋张刚
一种网页的正文抽取方法
本发明提供一种网页的正文抽取方法,包括下列步骤:1)将为所述网页建立的DOM树中的所有特征节点进行合并段落操作;2)从承载最长段落的节点集合中任选一个节点,从所选节点回溯至所述DOM树的根节点,计算各个节点的父节点及其子...
郭岩丁国栋张刚
文献传递
一种基于局部共现的查询扩展方法
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC.LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选...
丁国栋王斌白硕
关键词:信息检索查询扩展
文献传递网络资源链接
Web超链挖掘:中国境内Web图结构研究被引量:8
2005年
以网站作为Web图的顶点,以网站之间链接为有向边,研究了中国境内Web图的拓扑特点和宏观结构。试验表明:网站的入度和出度分布同样服从幂级数定律(PowerLaw);境内Web图的连通性明显高于全球的Web图,其最大的强连通分量中的网站数超过50%;在境内Web中,如果两个网站之间存在一条有向路径,则从一个网站漫游到另外一个网站,平均只需点击7.1次,最多只需点击29次。
丁国栋王斌白硕
关键词:网站链接关系宽度优先搜索
文本检索的统计语言建模方法综述被引量:24
2006年
统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术·首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战·
丁国栋白硕王斌
关键词:信息检索语言模型
一种网页信息抽取的系统及方法
本发明涉及网页信息抽取的系统和方法,系统包括:模板生成模块,用于从网页集合中选取待自动标注网页,根据用户标注的训练网页将待自动标注网页分类,生成分类的类别的网页模板;网页同质化模块,用于依据网页模板屏蔽待自动标注网页同其...
吴博王宇张刚丁国栋程学旗
文献传递
共3页<123>
聚类工具0