您的位置: 专家智库 > >

陶晓鹏

作品数:26 被引量:237H指数:5
供职机构:复旦大学计算机科学技术学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学理学更多>>

文献类型

  • 19篇期刊文章
  • 6篇会议论文
  • 1篇学位论文

领域

  • 20篇自动化与计算...
  • 2篇文化科学
  • 1篇理学

主题

  • 5篇索引
  • 4篇中文
  • 3篇文本分类
  • 2篇电信
  • 2篇信息检索
  • 2篇引擎
  • 2篇语义相似
  • 2篇语义相似度
  • 2篇中国电信
  • 2篇数据采掘
  • 2篇数据库
  • 2篇数据挖掘
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇全文索引
  • 2篇相似度
  • 2篇后缀树
  • 2篇互关联后继树
  • 2篇计算机
  • 2篇关联规则

机构

  • 26篇复旦大学
  • 1篇湖州师范学院

作者

  • 26篇陶晓鹏
  • 17篇胡运发
  • 4篇杨笑天
  • 3篇周水庚
  • 3篇王政华
  • 2篇郝秀兰
  • 2篇杨茹
  • 2篇王宁
  • 1篇刘学文
  • 1篇曹小冲
  • 1篇林韶娟
  • 1篇张锦
  • 1篇葛家翔
  • 1篇徐和祥
  • 1篇于玉
  • 1篇王建会
  • 1篇董淳
  • 1篇陈晓云
  • 1篇李荣陆
  • 1篇严铭清

传媒

  • 4篇计算机工程
  • 4篇计算机应用与...
  • 3篇计算机研究与...
  • 3篇中国索引
  • 3篇第十五届全国...
  • 1篇模式识别与人...
  • 1篇计算机应用
  • 1篇软件学报
  • 1篇中文信息学报
  • 1篇教育研究前沿...
  • 1篇第六届全国机...

年份

  • 1篇2015
  • 1篇2013
  • 1篇2012
  • 2篇2011
  • 2篇2010
  • 3篇2009
  • 1篇2008
  • 4篇2007
  • 1篇2005
  • 1篇2004
  • 2篇2003
  • 1篇2002
  • 1篇2000
  • 1篇1999
  • 4篇1998
26 条 记 录,以下是 1-10
排序方式:
最大频长积字符串及其高效查找算法
2008年
在传统的字符串处理算法中往往分别考虑字符串的频度和长度。然而,在实际应用中,将字符串的频度和长度结合考虑是有意义的。基于这点我们提出了频长积的概念,规定字符串的频度和长度的乘积为字符串的频长积。并基于广义后缀树和Uk- konen算法,提出了时间复杂度为O(N)的查找算法。效率实验证实了该算法的高效性。语义实验表明,本算法找出的最大频长积字符串相比于最大频度字符串或最大长度字符串,其实际语义更为明确。这样的字符串在文本压缩、基因序列的分析以及其他注重语义的应用中将具有很高的应用价值。
严铭清陶晓鹏胡运发
关键词:广义后缀树
基于邻接矩阵全文索引模型的文本压缩技术被引量:1
2004年
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型 ,但是它的最优符号集的寻找算法是NP完全问题 ,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法 ,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础 ,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型 ,它忠实地反映了原始文本 ,很利于进行原始文本的初步统计 ,因此算法效率得以提高 ,其时间复杂度与文本的汉字种数成线性关系 ,能够适应在线需要。并且 ,算法生成的压缩模型的压缩比是 0 4 7,比基于字的压缩模型的压缩效率提高 2 5 %。
陶晓鹏胡运发
关键词:计算机应用中文信息处理邻接矩阵文本压缩
XML函数约束规则的自动挖掘
1.引言随着网络的发展,网上数据的交换、检索和管理成为问题。XML(eXtensible Markup Language)的自描述性使得实现统一标准成为可能。XML常常由DTD(Document Type Definit...
金峰陶晓鹏胡运发
文献传递
无辅助数据的中文分词方法(英文)
中文分词是得到广泛关注和深入研究的问题本文提出了新的方法,无需人工编制词典或分词语料,仅靠文本自身信息的分词方法。基本思想是中文文本是由某个信息源按照一定的规律逐词产生,这些规律使得文本基于正确分词的熵比基于随意的分隔要...
陶晓鹏周水庚
文献传递
后缀数组创建算法的分析和比较被引量:7
2007年
后缀数组构建算法的时间和空间开销是它在实际应用中的瓶颈。该文介绍了两种较好的构建算法,对它们的性能作了评估和分析,指出了各自的适用范围,给出并比较了两种算法在不同情况下的实验结果。
杨笑天陶晓鹏
关键词:后缀数组后缀树
基于特征选择及Condensing技术的文本取样被引量:1
2009年
作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.
郝秀兰陶晓鹏王述云徐和祥胡运发
关键词:文本分类
Pat数组创建算法的研究被引量:5
2000年
Pat数组是目前比较新的全文索引结构 ,有广阔、良好的应用前景 .详细研究了 Pat数组的创建算法 ,提出了新算法——双边二分比较法 .首先从理论上分析了算法的高效性 ,然后用实验结果证实了分析 ,初步的研究表明 ,Pat数组用于中文文本的全文索引是可行的 .
陶晓鹏胡运发张锦
关键词:全文索引
kNN文本分类器类偏斜问题的一种处理对策被引量:36
2009年
类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.
郝秀兰陶晓鹏徐和祥胡运发
关键词:文本分类KNN
利用同场景多幅图像进行图像降噪
2011年
提出一种利用同场景多幅图像作为输入来降低数码照片在高感光度下数码照片噪点的方法。该方法本质上基于按区块匹配加权平均值的方法。该方法在匹配区块的搜索过程中利用了计算机视觉中的追踪、变换等技术来减小搜索范围,从而大幅度降低了整个处理过程的时间复杂度,并且增加了匹配的准确度,满足了高分辨率图像在处理速度上的需求。此外,该方法中的权值设计能够有效避免传统按区块匹配方法带来的残影问题。
王恒陶晓鹏
关键词:图像降噪仿射变换
中国电信黄页搜索引擎的设计思路
2007年
本文介绍了复旦大学所开发的中国电信黄页搜索引擎的研究背景,探讨了黄页搜索引擎系统面对的需求和相关设计方案,以及系统实现需要采用的软件、硬件、网路配置。黄页信息检索系统既是一种分类的搜索系统,又是同企业挂钩的商业搜索系统,代表了搜索引擎研究的前沿技术。
胡运发陶晓鹏王政华杨笑天
关键词:信息检索搜索引擎
共3页<123>
聚类工具0