杨宁 作品数:51 被引量:239 H指数:8 供职机构: 中国科学院文献情报中心成都分馆 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 中国科学院西部之光基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 电子电信 更多>>
基于流信息距离的多文本流热点挖掘 被引量:5 2011年 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 杨宁 唐常杰 王悦 陈瑜 郑皎凌 李红军关键词:冗余信息 在不确定数据集上挖掘优化的概率干预策略 被引量:6 2011年 提出了不确定干预分析模型,主要工作包括:(1)建立了用于多维不确定数据分析的不确定监测点模型(uncertain surveillance);(2)建立了基于不确定监测点的不确定干预策略及挖掘评价算法;(3)在真实数据及仿真数据上对所提出的两种算法作了大量实验比较,验证了所提出的干预策略评价优化算法具有较高精度,效率比朴素方法高出3个数量级,适合在实际系统中处理海量干预评价. 王悦 唐常杰 杨宁 张悦 李红军 郑皎凌 朱军关键词:不确定数据 数据挖掘 海量数据分析 结合计量分析和内容分析的科学数据集使用特征研究 被引量:5 2022年 [目的/意义]从计量分析和内容分析两个视角对科学数据集的使用特征进行研究,定量化评估科学数据集对学科发展的影响,为科学数据管理服务及政策研究提供参考。[方法/过程]综合运用文本挖掘和文献计量方法对PubMed Central的全文文献进行分析,从时间分布、使用强度等7个方面全面考察科学数据集的使用情况,并在此基础上评估科学数据集对学科发展产生的实际影响。[结果/结论]研究结果表明,科学数据集对生物医学领域科研产生的影响力与日俱增,数据出版和高水平期刊促进了科学数据集的开放和共享,科学数据集的使用集中在论文的后半部分且正式引用较少,相应的标准规范还有待进一步加强。 杨宁 张志强基于基因表达式编程的进化模式定理 被引量:11 2009年 基因表达式编程(GEP)从提出迄今尚无完整的理论体系,严重阻碍了GEP的发展。为解决该问题,首先从理论上深入地研究了GEP计算模型:定义了GEP基因模式及相关的概念,采用概率办法详细分析了单基因GEP应用实例在进化过程中各算子的作用,根据分析结果推导出GEP模式定理,通过实验验证了GEP模式定理的正确性。GEP模式定理的提出,为GEP算法改进评估提供了量化的依据。 王悦 唐常杰 杨宁 陈瑜 徐开阔关键词:基因表达式编程 基于伪属性语义匹配的Deep web信息抽取 被引量:5 2009年 已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。 郑皎凌 唐常杰 姜玥 杨宁 李红军关键词:DEEP WEB 信息抽取 语义匹配 基于轨迹时空关联语义和时态熵的移动对象社会角色发现 被引量:8 2012年 现有轨迹相似性度量缺乏对时空语义和时间随机性的考虑,不能有效地区分移动对象的社会角色.为解决这一问题,做了如下工作:1)提出了时空关联语义(spatial-temporal associated semantics,STAS)的概念,解释了轨迹的语义相似性规律,即两条轨迹的语义相似性与其在某时段内经过同类型区域的概率正相关;2)提出了时态熵(temporal entropy)的概念,度量了轨迹经过同一类型区域的时间随机性;3)基于STAS和时态熵,给出轨迹语义相似性度量(trajectory semantic similarity,TSS),刻画了轨迹所属移动对象的社会角色的时空特征;4)提出了移动对象社会角色发现算法(social roles discovering algorithm,SRDA),该算法基于TSS实现轨迹聚类,其中一个聚簇代表一种社会角色.真实数据和仿真数据上的实验表明,SRDA在准确率上比现有方法平均提高了18%,同时具有线性时间复杂度,从而验证了算法的有效性和性能. 马宇驰 杨宁 谢琳 李川 唐常杰基于谱聚类的多数据流演化事件挖掘 被引量:8 2010年 为解决从多数据流挖掘演化事件这一难题,提出了一种多数据流上的谱聚类算法SCAM(spectral clustering algorithm of multi-streams),其相似矩阵基于耦合度构造,而耦合度衡量了两个数据流的动态相似性.提出了算法EEMA(evolutionary events mining algorithm),该算法基于聚类模型的演变挖掘多数据流的演化事件.定义了聚类模型凝聚度,用以衡量聚类的紧凑程度,并证明了凝聚度的上界.基于到上界的距离和规范化相似矩阵的特征间隙,定义了聚类模型质量,并作为EEMA的优化目标自动地确定聚簇数k.设计了O-EEMA作为EEMA的优化实现,其时间复杂度为O(cn2/2).在合成和真实数据集上的实验结果表明,EEMA和O-EEMA是有效的、可行的. 杨宁 唐常杰 王悦 陈瑜 郑皎凌关键词:多数据流 面向TRIZ的领域专利技术挖掘系统设计与实践 被引量:15 2017年 [目的 /意义]针对面向TRIZ的专利技术深度、精准挖掘的需求,设计并开发一套领域专利技术挖掘系统。[方法 /过程]首先,归纳面向TRIZ的专利技术挖掘的具体需求,分析现有工具的不足。其次,提出领域专利技术挖掘系统的体系结构,总结其关键技术及解决方案。最后,开发一套面向TRIZ的领域专利技术挖掘原型系统,并进行大口径光学元件(LAOE)领域专利技术挖掘实践。[结果 /结论]该系统基于SAO(subject-action-object)三元组与简单知识对象,集成文本挖掘技术构建细粒度、多维度的领域技术索引,实现领域知识棱镜、面向TRIZ的语义检索与专利可视化分析功能,可以支持深度、精准的专利技术挖掘应用。 胡正银 刘春江 隗玲 杨宁 徐源 许海云 文奕基于特征子图的异构信息网络节点相似性度量 被引量:4 2014年 为解决异构信息网络相似性度量的问题,提出了基于节点特征子图的节点相似性度量算法,通过节点特征子图的最大公共子图与最小公共超图之间的差异性,进行节点间的相似性度量。该算法以图理论为基础,根据连边的不同类型设定不同权值,在考虑节点信息相似的同时,加入节点在网络中的结构信息,最大程度地利用了异构信息网络所富含的信息。实验结果表明,提出的算法具有较好的性能和有效性。 张彪 李川 李川 李艳梅 徐洪宇 李艳梅在线图处理:面向信息网络的在线分析处理 被引量:3 2012年 对信息网络数据集进行面向主题、多维、多层次的在线分析处理(on-line analytical processing,OLAP)面临数据规模爆炸,问题复杂性剧增等技术难题,传统OLAP技术不再适用。提出了面向信息网络的在线图处理(on-line graphic processing,OLGP)模型,OLGP包含节点集合、边集合、信息维集合,每个节点包含拓扑维集合;设计并实现了OLGP模型的核心操作(信息维上卷、拓扑维上卷、异步上卷)算法。对含有17431位作者的12499篇ACM论文的真实合作者网络数据集进行了相关分析处理,结果表明,信息维上卷仅需要113ms,拓扑维上卷仅需要61ms。 徐洪宇 李川 唐常杰 李洋涛 代术成 杨宁关键词:信息网络