韩月阳
- 作品数:4 被引量:31H指数:3
- 供职机构:云南大学信息学院更多>>
- 发文基金:云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于字分类的中文分词的研究被引量:10
- 2011年
- 中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字。在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题。以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高。
- 韩月阳邓世昆贾时银李远方
- 关键词:中文分词互信息
- Hadoop-MapReduce下的PageRank矩阵分块算法被引量:13
- 2011年
- PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。
- 李远方邓世昆闻玉彪韩月阳
- 关键词:PAGERANKMAPREDUCEHADOOP矩阵分块
- 基于S-EK图最短路径中文分词的研究
- 中文分词是中文信息处理的基础。在自然语言理解、语言文字研究、中文文本自动标引、信息检索、机器翻译等领域中,中文分词具有不可替代的作用。因此,中文分词的研究至关重要。
但是,中文分词的研究水平已经远落后于与它关联的相...
- 韩月阳
- 关键词:中文分词信息处理最短路径统计模型
- 文献传递
- 基于树结构的MapReduce模型被引量:9
- 2011年
- MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用。此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构)。文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用代替传统的,使模型更具有一般性。最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率。实验结果表明,其执行速度明显比传统模型高效。
- 李远方贾时银邓世昆韩月阳
- 关键词:树结构MAPREDUCEXMLHADOOP