陈桂林
- 作品数:7 被引量:209H指数:5
- 供职机构:上海交通大学电子信息与电气工程学院更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种高效的中文电子词表数据结构被引量:48
- 2000年
- 在分析中文字编码体系、中文词一些特点的基础上,文中提出了一种新的中文电子词表数据结构,并讨论了利用首字Hash 加二分查找的数据查找算法以及相关的数据更新、删除和插入算法. 理论分析和试验结果表明。
- 陈桂林王永成韩客松王刚
- 关键词:中文信息处理数据结构计算机
- Internet网络信息自动摘要的研究被引量:32
- 1999年
- 针对Internet网络信息的基本特征,提出了一套新的自动摘要方案:首先根据标识符的不同赋予相应文本字串不同的权值,在文本字串长度大于一定阈值的情况下,对中英文字串采用不同方式调整权值,然后根据权值大小挑选字串,生成文字流畅且具备一定质量的自动摘要。
- 陈桂林王永成
- 关键词:互联网网络信息
- 一种快速单模式准确匹配算法被引量:12
- 2001年
- 引入连续跳跃查找文本的思想 ,提出了一种新的单模式精确匹配算法 ,其最优条件下的时间复杂度为 O[n/(m+1 ) ],新算法的平均时间复杂度分析表明其具有优越的查找性能 .对比实验结果显示 ,新算法的性能优于目前所见的同类算法 ,特别是在模式较短的情况下 ,优势更为明显 ,这一特点非常适合于自然语言文本的检索 .
- 王永成陈桂林韩客松
- 关键词:快速搜索算法时间复杂度
- 字串去重的快速算法研究被引量:5
- 2000年
- 针对文本处理中的字串去重问题 ,本文提出了四种有效的快速算法 ,其平均时间复杂度为O(nlogn) ,空间复杂度为O(n)。其中利用首字hash方法的去重算法比直接利用快速排序算法具有更好的性能 ,其思想可用于改进快速排序算法。
- 陈桂林王永成
- 关键词:文本处理时间复杂度空间复杂度去重算法
- 无词典高频字串快速提取和统计算法研究被引量:59
- 2001年
- 本文提出了一种快速的高频字串提取和统计方法。使用Hash技术 ,该方法不需要词典 ,也不需要语料库的训练 ,不进行分词操作 ,依靠统计信息 ,提取高频字串。用语言学知识进行前缀后缀等处理后 ,得到的高频字串可以作为未登录词处理、歧义消解和加权处理等的辅助信息。实验显示了该方法速度较快且不受文章本身的限制 。
- 韩客松王永成陈桂林
- 关键词:文本信息处理语料库
- 自动文摘中若干技术的研究
- 该文以自动文摘为背景,对一些关键技术如中文文本的自动切分、模式匹配问题以及网络信息处理等展开了较为深入的研究,在一些领域取得了一定程度的进展,有些成果还具有基础性地位和领先意义.它们不仅可以为自动文摘提供技术储备、提高研...
- 陈桂林
- 关键词:自动文摘中文自动分词超文本
- 文献传递
- 汉语语言的无词典分词模型系统被引量:57
- 1999年
- 本文主要人人知识的自动获取出发;介绍了研究中的汉语语言的无词典分词模型系统、通过算法的自然语言描述,阐述了模型的思想,分析了它与传统方法相比的优点,提出了要使系统达到实用还需解决的几个问题。
- 韩客松王永成陈桂林
- 关键词:中文信息处理知识自动获取分词模型汉语语言