您的位置: 专家智库 > >

国家自然科学基金(61171159)

作品数:14 被引量:88H指数:6
相关作者:吕学强肖诗斌施水才都云程房祥更多>>
相关机构:北京信息科技大学北京拓尔思信息技术股份有限公司更多>>
发文基金:国家自然科学基金北京市教委科技发展计划国家科技支撑计划更多>>
相关领域:自动化与计算机技术文化科学自然科学总论更多>>

文献类型

  • 14篇中文期刊文章

领域

  • 13篇自动化与计算...
  • 1篇文化科学
  • 1篇自然科学总论

主题

  • 4篇用户
  • 3篇搜索
  • 3篇聚类
  • 2篇用户行为
  • 2篇日志
  • 2篇搜索日志
  • 2篇图像
  • 2篇中文
  • 2篇相似度
  • 1篇迭代
  • 1篇迭代算法
  • 1篇依存句法分析
  • 1篇引擎
  • 1篇用户兴趣
  • 1篇用户行为分析
  • 1篇噪声
  • 1篇噪声估计
  • 1篇增益
  • 1篇支持向量
  • 1篇支持向量机

机构

  • 14篇北京信息科技...
  • 11篇北京拓尔思信...

作者

  • 10篇吕学强
  • 4篇施水才
  • 4篇肖诗斌
  • 3篇都云程
  • 2篇裴超
  • 2篇杨梅
  • 2篇房祥
  • 1篇李卓
  • 1篇吴瑞红
  • 1篇卢献华
  • 1篇郑略省
  • 1篇徐川
  • 1篇林进
  • 1篇郭跇秀
  • 1篇王勇
  • 1篇刘坤
  • 1篇董志安
  • 1篇刘占兵
  • 1篇张策
  • 1篇李琳

传媒

  • 3篇计算机应用与...
  • 3篇现代图书情报...
  • 3篇计算机工程与...
  • 1篇北京大学学报...
  • 1篇计算机应用
  • 1篇情报理论与实...
  • 1篇吉林大学学报...
  • 1篇北京信息科技...

年份

  • 2篇2016
  • 2篇2015
  • 3篇2014
  • 7篇2013
14 条 记 录,以下是 1-10
排序方式:
汉语并列关系的识别研究被引量:7
2013年
针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较,并列关系的召回率和正确率分别提高了9.1%和13.8%。
郑略省吕学强刘坤林进
关键词:依存句法分析条件随机场角色标注
基于扩展射线法的三维模型检索
2013年
针对原始射线法特征提取时间较长、仅利用三角形面片问题,提出一种基于不相交平面束原理的扩展射线法。从质心均匀散射出一组射线与三角形面片相交,利用射线确定的不相交平面束定位交点;根据交点、顶点到质心的距离,建立检索模型以改善三维模型的检索效果。利用普林斯顿大学三维模型库的10类模型作为实验数据,实验结果表明:与原始射线法对比,扩展射线法不仅提高了特征提取速度,而且提高了检索准确率。
姜阳吕学强李琳施水才
关键词:三维模型检索时间复杂度
中文微博突发事件检测研究被引量:24
2013年
从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
王勇肖诗斌郭跇秀吕学强
关键词:突发事件文本过滤
基于百度搜索日志的用户行为分析被引量:16
2013年
基于大规模搜索日志进行用户行为分析有助提高搜索引擎的各种性能指标。从三个方面对百度开放日志进行详细分析。首先对查询串长度和频次进行统计,发现查询串中存在着长尾效应,前10%最常用查询串的查询次数占总查询次数的70.8%。其次对URL点击深度和频次进行分析,发现有73%的网页只被点击一次,表明互联网中存在着大量低频访问网页。最后对用户使用高级检索情况进行分析,发现有不足0.12%的用户使用高级检索,表明用户更喜爱简单方便的操作。
董志安吕学强
关键词:搜索日志用户行为分析日志分析
基于改进的LDA主题模型的微博用户聚类研究被引量:12
2016年
大规模文档集中潜藏的语义信息一般可以用潜在狄利克雷(LDA)主题模型识别,因为微博短文本语义稀疏,所以在微博短文本聚类中的应用并不理想。利用传统的潜在狄利克雷分布的主题模型来给微博建模,得到的微博用户分布并不直观,通过改进的LDA模型将用户表示为主题概率向量,不仅能够充分地挖掘文本隐藏的语义信息,同时能够直观地呈现用户的主题分布。提出基于密度区域划分的K-means算法对微博用户进行聚类。使用真实的微博数据集进行验证,与传统的K-means聚类方法对比,采用该方法对微博用户的聚类能够有较明显的提高。
裴超肖诗斌江敏
关键词:主题模型文本聚类K均值算法
问答社区问句中多字词表达提取
2014年
基于互动问答社区问句中多字词表达和问句理解的关系,提出针对互动问答社区问句进行多字词表达抽取,并基于互动问答社区问句中多字词表达的特点,提出适用于互动问答社区的多字词表达提取方法.该方法在利用互信息和停用词表的方法从问句中抽取候选多字词表达的基础上,将候选多字词表达分为正确串、残缺串、冗余串和错误串4类,借助搜索引擎对查询串的优化和候选多字词表达在互联网上的检索结果,设计候选多字词表达校正方法,实现对多字词表达的提取.以新浪爱问知识人问题库中的问句进行实验,结果表明,多字词表达抽取的准确率、召回率和F值分别达到84%,52%和0.64,验证了该方法的有效性.
吴瑞红吕学强李卓舒燕
关键词:互信息搜索引擎
采用URL特征的Hub网页识别方法研究被引量:2
2016年
【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。
张策都云程梁然
关键词:支持向量机
基于专利搜索日志的同义词挖掘被引量:1
2013年
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度。对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82。该方法可用于专利搜索引擎中提高专利检索的效率。
王颖都云程卢献华吕学强
一种噪声无关的图像复原算法研究被引量:1
2014年
目前获取数字图像的方法存在使图像质量明显下降的问题,迫切需要图像复原的方法,对图像进行重建。在已知点扩散函数的情况下,通过摒弃传统的依赖噪声求出增益矩阵的过程,从修复增益矩阵出发,使复原后的图像更接近原始图像。新方法在递推过程中矫正增益滤波偏大或偏小的现象,从而减少因为缺少噪声信息而产生的误差,而且相较于其他迭代算法,该方法时间复杂度较低。实验结果表明新方法可以有效地保证复原图像质量,并提高效率。
杨梅吕学强马信龙施水才
关键词:卡尔曼滤波噪声估计迭代算法噪声
基于模板匹配及曲线拟合的视频字幕细化研究
2014年
在视频字幕识别过程中,由于字幕像素比较低,使得二值化后,汉字边缘出现不规整的锯齿。针对该类汉字的细化,提出基于模板匹配及曲线拟合的方法。用角度为0°、45°、90°、135°的线段作为模板,分别匹配汉字中"横"、"撇"、"竖"、"捺"笔划,实现笔划提取;用二次Bezier曲线拟合"撇"、"捺"笔划,实现笔划重绘。对比实验表明,该方法对视频字幕的细化是有效的,且结果可以更好地被识别。
李钦瑞都云程刘坤吕学强
关键词:笔划
共2页<12>
聚类工具0