北京市教育委员会科技发展计划面上项目(KM200600006002)
- 作品数:3 被引量:24H指数:2
- 相关作者:程葳龙志祎钟华邱立坤更多>>
- 相关机构:北京城市学院更多>>
- 发文基金:北京市教育委员会科技发展计划面上项目国家高技术研究发展计划国家242信息安全计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向互联网新闻的在线话题检测算法被引量:9
- 2009年
- 针对互联网新闻报道冗余多、议题发散、易漂移等特点,提出一种面向互联网的在线话题检测算法。该算法针对冗余问题提出子话题概念,针对议题发散问题建立双层检测结构,针对话题漂移问题提出基于滑动窗口的跟踪策略。应用该算法建立网上话题检测系统,通过来源于互联网的真实数据进行测试。结果表明,算法性能优于传统的单路径聚类算法,其最小错误代价率低于0.14。
- 程葳龙志祎
- 关键词:话题检测与跟踪文本聚类
- 利用Hurst指数预测网络话题热度被引量:1
- 2012年
- 面向大规模真实数据,应用聚合方差法、周期图和重标极差法对互联网信息发布数据进行研究,发现网民发布信息具有自相似和长相关特性。通过对各序列的Hurst指数估计,揭示了网络论坛日发帖量未来变化与历史的变化趋势一致;网民发帖量低发帖量网民与高发帖量网民的变化趋势一致;以及每日网民发帖量后发帖网民与先发帖网民的变化趋势一致等特性。这些性质对深入认识网络论坛规律、预测网络突发事件等具有一定参考价值。提出一种评价网络论坛舆论的定量指标。实验表明,该指标能有效发现网络突发事件。
- 程葳
- 关键词:分形HURST指数长相关性自相似性
- 层次化话题发现与跟踪方法及系统实现被引量:15
- 2007年
- 自1996年话题发现与跟踪评测启动以来,该研究受到普遍关注,取得巨大进步,也遇到诸多困难。通过分析大量话题数据,提出层次化话题与层次聚类的区别在于话题的层次是由事件的构成决定的,层次化话题应当分为三层,即微类、中类和上类。原因在于计算机自动分析产生的层次化话题必须与现实世界有客观的联系。据此提出一个面向大规模真实数据的有充分理论依据的层次化话题发现与跟踪方法,并在集群系统上予以实现。
- 邱立坤龙志祎钟华程葳
- 单音节名词(缀)的释义模式与三音节名词的语义结构关系
- 文章以2+1式三音节复合名词及其核心后字为主要分析对象。首先提取充当核心字的单音节名词或名词缀, 之后对单音节名词的释义模式进行分析。文章认为,定中式复合名词所表达的概念是核心字的下位概念,即两者之间是下位类与上位类的关...
- 邱立坤
- 关键词:释义模式复合名词
- 文献传递
- 关于双语语块规范的几个问题
- 目前语块库的构建越来越受到重视,但对语块标注和部分句法分析的研究还比较少,对双语语块的研究则更少。这样,在构建双语语块的过程中,势必会遇到一些问题,这些问题很难用一个简单的规范来解决。本文在亲自标注两万句汉英语块的基础上...
- 宋慧曼程葳
- 关键词:习语歧义
- 文献传递