公共文化服务平台

陶晓鹏: 作品数：26 被引量：235H指数：5; 供职机构：复旦大学计算机科学技术学院更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术文化科学理学更多>>

合作作者

最大频长积字符串及其高效查找算法: 2008年; 在传统的字符串处理算法中往往分别考虑字符串的频度和长度。然而,在实际应用中,将字符串的频度和长度结合考虑是有意义的。基于这点我们提出了频长积的概念,规定字符串的频度和长度的乘积为字符串的频长积。并基于广义后缀树和Uk- konen算法,提出了时间复杂度为O(N)的查找算法。效率实验证实了该算法的高效性。语义实验表明,本算法找出的最大频长积字符串相比于最大频度字符串或最大长度字符串,其实际语义更为明确。这样的字符串在文本压缩、基因序列的分析以及其他注重语义的应用中将具有很高的应用价值。; 严铭清陶晓鹏胡运发; 关键词：广义后缀树

基于邻接矩阵全文索引模型的文本压缩技术被引量：1: 2004年; 基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型 ,但是它的最优符号集的寻找算法是NP完全问题 ,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法 ,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础 ,邻接矩阵全文索引是论文 [9]提出的一种新的全文索引模型 ,它忠实地反映了原始文本 ,很利于进行原始文本的初步统计 ,因此算法效率得以提高 ,其时间复杂度与文本的汉字种数成线性关系 ,能够适应在线需要。并且 ,算法生成的压缩模型的压缩比是 0 4 7,比基于字的压缩模型的压缩效率提高 2 5 %。; 陶晓鹏胡运发; 关键词：计算机应用中文信息处理邻接矩阵文本压缩

XML函数约束规则的自动挖掘: 1.引言随着网络的发展,网上数据的交换、检索和管理成为问题。XML(eXtensible Markup Language)的自描述性使得实现统一标准成为可能。XML常常由DTD(Document Type Definit...; 金峰陶晓鹏胡运发

无辅助数据的中文分词方法(英文): 中文分词是得到广泛关注和深入研究的问题本文提出了新的方法,无需人工编制词典或分词语料,仅靠文本自身信息的分词方法。基本思想是中文文本是由某个信息源按照一定的规律逐词产生,这些规律使得文本基于正确分词的熵比基于随意的分隔要...; 陶晓鹏周水庚; 关键词：中文分词

后缀数组创建算法的分析和比较被引量：6: 2007年; 后缀数组构建算法的时间和空间开销是它在实际应用中的瓶颈。该文介绍了两种较好的构建算法,对它们的性能作了评估和分析,指出了各自的适用范围,给出并比较了两种算法在不同情况下的实验结果。; 杨笑天陶晓鹏; 关键词：后缀数组后缀树

基于特征选择及Condensing技术的文本取样被引量：1: 2009年; 作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.; 郝秀兰陶晓鹏王述云徐和祥胡运发; 关键词：文本分类

Pat数组创建算法的研究被引量：5: 2000年; Pat数组是目前比较新的全文索引结构 ,有广阔、良好的应用前景 .详细研究了 Pat数组的创建算法 ,提出了新算法——双边二分比较法 .首先从理论上分析了算法的高效性 ,然后用实验结果证实了分析 ,初步的研究表明 ,Pat数组用于中文文本的全文索引是可行的 .; 陶晓鹏胡运发张锦; 关键词：全文索引

kNN文本分类器类偏斜问题的一种处理对策被引量：36: 2009年; 类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.; 郝秀兰陶晓鹏徐和祥胡运发; 关键词：文本分类 KNN

利用同场景多幅图像进行图像降噪: 2011年; 提出一种利用同场景多幅图像作为输入来降低数码照片在高感光度下数码照片噪点的方法。该方法本质上基于按区块匹配加权平均值的方法。该方法在匹配区块的搜索过程中利用了计算机视觉中的追踪、变换等技术来减小搜索范围,从而大幅度降低了整个处理过程的时间复杂度,并且增加了匹配的准确度,满足了高分辨率图像在处理速度上的需求。此外,该方法中的权值设计能够有效避免传统按区块匹配方法带来的残影问题。; 王恒陶晓鹏; 关键词：图像降噪仿射变换

中国电信黄页搜索引擎的设计思路: 2007年; 本文介绍了复旦大学所开发的中国电信黄页搜索引擎的研究背景,探讨了黄页搜索引擎系统面对的需求和相关设计方案,以及系统实现需要采用的软件、硬件、网路配置。黄页信息检索系统既是一种分类的搜索系统,又是同企业挂钩的商业搜索系统,代表了搜索引擎研究的前沿技术。; 胡运发陶晓鹏王政华杨笑天; 关键词：信息检索搜索引擎