钟华
- 作品数:5 被引量:59H指数:4
- 供职机构:北京城市学院更多>>
- 发文基金:国家高技术研究发展计划国家242信息安全计划北京市教育委员会科技发展计划面上项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于htmlparser的搜索引擎信息抽取系统设计与实现
- 信息抽取是搜索引擎中的核心组成部分,发挥着举足轻重的作用。伴随着互联网信息的爆炸式发展,传统的搜索引擎已经不能满足人们的需要。大量有针对性作用的搜索引擎应运而生。Htmlparser是一个对html解析的库,主要用于改造...
- 孟红钟华
- 关键词:信息抽取搜索引擎HTMLPARSER数据过滤排序
- 文献传递
- 网络论坛中发帖行为复杂性研究被引量:12
- 2009年
- 网络论坛是我国互联网舆论形成的重要力量之一,正引起社会各方的广泛关注.通过对大量实际数据的统计分析,发现网络论坛发帖量满足:幂次定律、自相似性、1/f噪声和捷夫定律.说明网络论坛是一个复杂的自组织临界态系统.应用自组织临界理论可以分析网络突发事件和舆论形成中的诸多现象.最后提出一种评价网络论坛舆论的定量指标.实验表明,该指标能有效发现网络论坛突发事件.
- 程葳钟华孙娇华
- 关键词:自相似性网络论坛
- 层次化话题发现与跟踪方法及系统实现被引量:15
- 2007年
- 自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。
- 邱立坤龙志祎钟华程葳
- 基于数据挖掘的网络论坛话题热度趋势预报被引量:24
- 2007年
- 利用小波分析和神经网络相结合的方法进行网络论坛话题热度趋势的预报。该方法主要是对由帖子的点击数(或回复数)所形成的原始时间序列进行小波多尺度分析,产生一系列子序列并进行评价,并通过BP神经网络进行类别训练,找出使得类内距离最小、类间距离最大的若干系数作为特征系数。对于未知类别的时间序列,把其特征系数送入神经网络进行预测。实验结果表明,将该方法用于网络论坛话题的热度趋势预测,可得出良好的预测精度。
- 张虹钟华赵兵
- 关键词:时间序列小波分析神经网络
- 基于小波多尺度的网络论坛话题热度趋势预测被引量:12
- 2009年
- 文中基于小波多尺度分析进行网络论坛话题热度趋势的预报。该方法主要是对由帖子的点击数(或回复数)所形成的原始时间序列进行小波分解与重构,得到一个低频信号和多个不同尺度的高频信号;对具有近似平稳特征的低频信号建立ARIMA预测模型;对变化较多的各高频信号分别建立神经网络预测模型;然后分别对各信号进行一步预测并组合预测结果,获得网络论坛话题热度的最终预测。实验表明:将本方法用于网络论坛话题的热度趋势预测,可得出良好的预测精度。
- 张虹赵兵钟华
- 关键词:时间序列ARIMA模型神经网络