左万利 作品数:158 被引量:837 H指数:16 供职机构: 吉林大学 更多>> 发文基金: 国家自然科学基金 吉林省科技发展计划基金 中央级公益性科研院所基本科研业务费专项 更多>> 相关领域: 自动化与计算机技术 文化科学 自然科学总论 一般工业技术 更多>>
利用超链接信息改进网页爬行器的搜索策略 被引量:14 2005年 网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。为此,给出了利用超链接信息改进网页爬行器搜索策略的算法。该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行。实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%。 赫枫龄 左万利关键词:爬行器 网络搜索引擎 宽度优先搜索 超链接 用有向图法解决网页爬行中循环链接问题 被引量:10 2004年 提出网页构成的有向回路问题,描述了由网页构成有向图的形式定义,并给出了用有向图法发现网页构成的有向回路算法.所给定的算法能使网页爬行器避免掉入由已爬行过的网页构成的有向回路陷阱. 赫枫龄 左万利关键词:爬行器 网络搜索引擎 超链接 有向图 一种基于离群点信息的新型无监督聚类方法 被引量:1 2004年 在图像检索领域 ,聚类分析技术有着广泛应用。因为在对图像进行聚类分析时 ,通常缺少可资利用的先验知识 ,所以需要采用无监督的聚类算法。为了适应图像检索的需要 ,提出了一种新型的无监督聚类方法 ,即根据离群点信息来自动确定聚类算法的终止时机。此方法还弥补了现有聚类算法在离群点识别、使用上的缺欠。为验证其可行性 ,用其改进了 CU RE和 ROCK两个经典算法。实验表明 ,改进后的两个算法都能自动终止 ,并能取得优于以往的聚类效果。 吕天阳 王钲旋 左万利关键词:无监督聚类 离群点 聚类算法 图像检索 先验知识 类方 基于BERT-GCN的因果关系抽取 被引量:2 2023年 针对自然语言处理中传统因果关系抽取主要用基于模式匹配的方法或机器学习算法进行抽取,结果准确率较低,且只能抽取带有因果提示词的显性因果关系问题,提出一种使用大规模的预训练模型结合图卷积神经网络的算法BERT-GCN.首先,使用BERT(bidirectional encoder representation from transformers)对语料进行编码,生成词向量;然后,将生成的词向量放入图卷积神经网络中进行训练;最后,放入Softmax层中完成对因果关系的抽取.实验结果表明,该模型在数据集SEDR-CE上获得了较好的结果,且针对隐式的因果关系效果也较好. 李岳泽 左祥麟 左万利 梁世宁 张一嘉 朱媛关键词:自然语言处理 使用分类器自动发现特定领域的深度网入口(英文) 被引量:28 2008年 在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口. 王辉 刘艳威 左万利关键词:深度网 深度网 动态自我验证的软件水印防篡改技术 被引量:1 2007年 提出一种与特定语言无关的动态自我验证的软件水印防篡改技术。利用线性哈希函数对水印结构进行分块计算,既包含了结点顺序信息,又包含了结点数量信息,同时采用常量迁移技术使完整性检查隐藏在程序本身正常的逻辑判断语句中。由于水印结构的验证码是自包含的,对其篡改会导致应用程序功能错误。分析结果表明,本算法能够抵御多种形式的攻击,具有很强的保护能力。 张雪松 李昕 崔维力 赫枫龄 左万利关键词:计算机应用 软件水印 动态图 基于无监督聚类的PU文本分类方法 以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传... 张长利 左万利 彭涛 赫枫龄 彭钊 邵慧勇关键词:无监督聚类 PU 支持向量机 文本分类 文献传递 一种基于质心与本体的文本分类方法 针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发式规则用于获取根集文档的质心向量.通过计算文档与质心之间的相似度进行文本... 王辉 左万利 袁华关键词:质心 文本分类 主题爬行 本体 文献传递 主题爬行中的隧道穿越技术 被引量:11 2010年 由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页,即隧道穿越.将隧道穿越分为灰色隧道穿越和黑色隧道穿越.对于灰色隧道,在爬行过程中,将一个多主题Web页面分割成数量不多的内容块分别处理来避免由于网页整体主题不相关给该块所带来的影响.对于黑色隧道的穿越,将隧道中主题不相关网页根据其父亲页面的主题相关性赋予一个深度值,然后根据其深度值的大小进行取舍,来达到扩展主题爬行区域的目的.实验结果显示,这两种方法都达到了预期效果,所以方法是有效、稳健和实用的. 彭涛 孟宇 左万利 王英 胡亮关键词:主题爬行 网页分块 TARGET LENGTH 基于可视布局信息的网页噪音去除算法 被引量:41 2004年 主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音. 荆涛 左万利关键词:网页