公共文化服务平台

谭文堂: 作品数：14 被引量：66H指数：5; 供职机构：国防科学技术大学更多>>; 发文基金：国家自然科学基金湖南省自然科学基金国防科技大学优秀研究生创新基金更多>>; 相关领域：自动化与计算机技术文化科学自然科学总论理学更多>>

合作作者

基于统计模型的汉语句子主干分析: 当前随着互联网的快速发展,信息急剧膨胀,如何管理和查找信息成为信息科学一个难题。自然语言处理的句法分析所研究的不仅仅是如何获取句子的结构,还要研究在句法分析的各个层面如何利用句法分析的技术实现有效的信息组织和管理,以及精...; 谭文堂; 关键词：浅层分析

基于多维标度法的专利文本可视化聚类研究被引量：13: 2010年; 为了从当前海量的专利文本信息资源中迅速准确地获取所需的信息并将其以可视化的形式展现出来,通过研究文本挖掘相关理论和关键技术,结合专利文本的特征及现有的分析方法,提出一种基于多维标度法的专利文本可视化聚类方法,并结合实际进行了相关分析讨论。实验结果表明,该方法较好地展现了当前专利技术领域的应用主题分布状态及其关联图谱,可为相关部门的管理决策和技术创新提供有意义的参考和支持。; 郝智勇贺明科谭文堂张健东; 关键词：主题可视化

一种面向网络敏感信息的截图取证与锁定回访的方法: 本发明公开了一种面向网络敏感信息的截图取证与锁定回访方法，该方法包括：对所监测网站的网页数据进行采集；对网页数据进行规范化处理、基于正则表达式抽取网页标题和链接、基于网页标题和链接进行敏感信息的匹配；对敏感信息进行外页和...; 李芳芳葛斌汤大权肖卫东殷风景贺明科封孝生谭文堂; 文献传递

网络节点重要度的快速评估方法被引量：9: 2013年; 对网络节点进行重要性评估,快速发掘重要性节点已经成为数据挖掘、复杂网络中的一个基本问题,现有的节点重要度评估方法对于大型网络而言,计算速度较慢.基于电阻网络提出一种快速实用的节点重要度评估方法,该方法利用节点对网络电能消耗的影响来评估节点的重要度,如果由于一个节点的存在而导致网络平均电能消耗减少,则该节点就越重要,更之则该节点重要度就低.该方法的时间复杂度为O(n^3),在分布式扩展的情况下可达到O(n),实验分析证明了该方法的有效性,而且运算速度快,能处理大规模网络.; 肖卫东谭文堂葛斌李芳芳; 关键词：网络节点重要度电阻网络电能消耗

基于概率生成模型的网络数据分类方法被引量：2: 2013年; 利用实体之间的相互关系来对实体进行分类的网络数据分类是数据挖掘的一个重要研究内容.现有的网络数据分类方法普遍根据邻居节点的类别来对节点进行分类.这些方法在同质性程度较高的网络中达到了很高的分类精度.然而在现实世界中,存在许多同质性程度很低的网络.在低同质性网络中,大多数相连节点的类别不同,所以现有方法难以正确预测出节点的类别.因此,提出了一种新的网络数据分类方法.其主要思路是建立一个描述网络的概率生成模型.在这个概率生成模型中,将网络中的边作为观察变量,将未知类别节点的类别作为潜在变量.通过吉布斯采样方法对模型进行求解,计算出潜在变量的取值,从而得到未知类别节点的类别.在真实数据集上的对比实验表明,提出的分类方法在低同质性网络上有更好的分类性能.; 王桢文肖卫东谭文堂; 关键词：网络数据同质性

一种面向多文本集的部分比较性LDA模型被引量：5: 2013年; 跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)来实现跨文本集的话题分析,该模型通过层次狄利克雷过程(hierarchical Dirichlet processes,HDP)把话题划分为公共话题和文本集特有话题,使模型能更加精确地对文本进行建模.模型采用Gibbs抽样方法进行参数推导,一系列包括Held-Out数据对数似然和模型困惑度指标在内的定量与定性的实验表明,模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题;在Held-Out对数似然测度和模型困惑度指标上,PCCLDA相对当前两个主要的CTM模型具有较大的优势.; 谭文堂王桢文殷风景葛斌肖卫东; 关键词：GIBBS抽样

基于多层最大熵模型的句子主干分析被引量：4: 2010年; 句子主干分析的主要任务是自动识别句子的主干成分。鉴于汉语句子之间成分的相关性,提出一种多层最大熵模型,它的底层最大熵利用句子的上下文特征识别主干词候选项,高层最大熵利用底层最大熵模型的计算结果,结合句子内的远距离特征和句子之间的关系,对底层最大熵模型识别出的主干词候选集进行分析。实验证明,该模型对于简单的主干成分识别正确率较高,对训练语料有一定的依赖;随着语料规模的增长,模型性能缓慢提升。; 葛斌封孝生谭文堂肖卫东; 关键词：最大熵自然语言理解

基于Lucene.Net的分布式全文检索系统被引量：13: 2009年; 随着互联网的发展,现代信息量急剧增加,人们对于信息的检索要求越来越高,一个好的检索系统必须具有较快的检索速度和较高的查准率。针对海量文本数据提出一种基于Lucene.Net全文检索引擎构建的分布式全文检索系统,使用.NET Remoting实现分布式的全文索引与全文检索,具有较好的扩展性和很快的索引与检索速度,并成功地将该技术应用于军队某部信息管理系统,取得了很好的效果。; 谭文堂贺明科李阜; 关键词：REMOTING 分布式全文索引

一种基于电阻网络的文本摘要方法: 句子打分算法作为抽取式自动摘要方法中最为关键的组成部分，成为近年来自动摘要领域的热点问题。本文提出了一种基于电阻网络图的摘要句子打分方法，该方法将句子作为节点，句子之间的相似度作为边，通过基尔霍夫定律在文本相似度图上计算...; 叶静贺明科谭文堂吴昊李芳芳; 关键词：电阻网络; 文献传递网络资源链接

垃圾评论自动过滤方法被引量：16: 2012年; 针对互联网上存在的大量垃圾评论,提出一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络平均电能消耗的影响,建立电离群因子来度量数据的离群程度,以此来识别垃圾评论。实验证明了该方法的有效性,在多个数据集上取得了较好的效果。; 谭文堂朱洪葛斌李芳芳肖卫东