李晓戈
- 作品数:25 被引量:143H指数:7
- 供职机构:西安邮电大学更多>>
- 发文基金:国家自然科学基金陕西省普通高等学校重点学科专项资金建设项目陕西省工业科技攻关项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于信息抽取技术的问答系统被引量:8
- 2017年
- 通过分析实体关系和命名实体,提出基于层次的答案提取方法。在将问题分为实体关系型、实体型和关键词型3类的基础上,按照实体关系层、实体层、关键词层得到答案集,利用基础特征、命名实体匹配和实体关系匹配进行特征排序提取答案。基于NLPCCEVAL2015的测试结果表明,在考虑命名实体和实体关系的情况下,准确率比仅使用基础特征的情形提高了6.1%,达到54.05%。
- 于根李晓戈刘睿范贤杜丽萍
- 关键词:问答系统信息抽取
- 大数据、云计算与用户行为经验分析被引量:2
- 2018年
- 大数据与云计算是目前计算机信息技术领域内的两大研究热点,同时也是目前互联网应用的重要发展方向。本文就针对大数据与云计算在用户行为分析方面所面临的机遇与挑战,并进一步探讨了机遇大数据和云计算背景下的用户行为,主要包括了信息组织规范、信息资源整合、分布式数据挖掘等三方面的内容。
- 陈硕李晓戈
- 关键词:大数据云计算用户行为分析
- 一种日志数据的知识图谱构建方法
- 本发明公开了一种日志数据的知识图谱构建方法,包括:S1、获取指定时间窗口内的日志数据;S2、对所述日志数据进行预处理,并转换为结构化的日志数据;以及依据模板树建立策略建立模板树;S3、基于建立的模板树,获取日志模板;S4...
- 李晓戈邱连涛胡飞雄胡立坤于智洋张东
- 文献传递
- 技术服务信息的推荐方法
- 本公开实施例涉及一种技术服务信息的推荐方法,该方法包括:针对技术服务需求信息,采用Bert预训练模型处理获得第一类句向量;针对技术服务自荐信息,确定技术服务自荐信息中每一属性数据内每一子项的概要信息,获取每一概要信息对应...
- 李晓戈田俊鹏马鲜艳刘洋
- 一种日志数据的知识图谱构建方法
- 本发明公开了一种日志数据的知识图谱构建方法,包括:S1、获取指定时间窗口内的日志数据;S2、对所述日志数据进行预处理,并转换为结构化的日志数据;以及依据模板树建立策略建立模板树;S3、基于建立的模板树,获取日志模板;S4...
- 李晓戈邱连涛胡飞雄胡立坤于智洋张东
- 互信息改进方法在术语抽取中的应用被引量:19
- 2015年
- 为了确定改进互信息(PMIk)方法的参数k取何值时能够克服互信息(PMI)方法过高估计两个低频且总是一起出现的字串间结合强度的缺点,解决术语抽取系统采用经过分词的语料库时由于分词错误导致的某些术语无法抽取的问题,以及改善术语抽取系统的可移植性,提出了一种结合PMIk和两个基本过滤规则从未经过分词的语料库中进行术语抽取的算法。首先,利用PMIk方法计算两个字之间的结合强度,确定2元待扩展种子;其次,利用PMIk方法计算2元待扩展种子分别和其左边、右边的字的结合强度,确定2元是否能扩展为3元,如此迭代扩展出多元的候选术语;最后,利用两个基本过滤规则过滤候选术语中的垃圾串,得到最终结果。理论分析表明,当k≥3(k∈N+)时,PMIk方法能克服PMI方法的缺点。在1 GB的新浪财经博客语料库和300 MB百度贴吧语料库上的实验验证了理论分析的正确性,且PMIk方法获得了比PMI方法更高的精度,算法有良好的可移植性。
- 杜丽萍李晓戈周元哲邵春昌
- 关键词:术语抽取知识获取互信息
- 日志异常检测方法及装置
- 本申请属于数据处理技术领域,具体涉及一种日志异常检测方法和装置。其中的方法包括:获取多条原始日志记录,作为待检测日志序列;基于预先建立的日志模板库,提取所述待检测日志序列的变量特征、窗口特征、顺序特征;基于所述变量特征,...
- 李晓戈邱连涛胡飞雄胡立坤张东晨于智洋
- 文献传递
- 面向信息抽取的指代消解探究被引量:1
- 2015年
- 指代消解是自然语言处理中的重点难点,对信息抽取具有重要意义.指代分有三种形式:代词指代,名词指代及零形回指.其中代词指代和名词指代是汉语中最基础的指代形式,以上两种指代的消解是指代消解研究的基础.为解决这一基本问题,使用决策树方法同时对两种形式指代进行处理.实验结果显示,所提出方法在不牺牲指代消解准确率的基础上,较大提高了指代消解的召回率.
- 许永良周晓辉李晓戈
- 关键词:信息抽取指代消解决策树有限状态机
- 基于日志多特征融合的无监督异常检测算法
- 2023年
- 日志是一种记录系统运行过程中重要信息的文本文件,而有效的日志异常检测可以帮助运维人员快速定位并解决问题,保证系统的快速恢复,从而减少经济损失.系统日志内容通常包含着丰富的系统信息(时间,序列,参数等),本文提出了一种基于预训练的日志多特征融合的异常检测方法Log Multi-Feature Fusion(LMFF).首先,基于预训练模型对日志的事件模板进行语义信息提取,将系统日志建模为自然语言序列;然后,利用特征提取器分别对日志的事件序列,计数序列和时间序列进行特征提取融合,通过Tranformer和LSTM神经网络学习正常日志的特征信息.最后,对日志进行分析,并能够检测出潜在模式偏离正常日志序列的异常.通过在Hadoop日志文件系统(HDFS)数据的F1值达到约96%和在OpenStack数据的F1值达到约99%的结果表明,本文所提的异常检测方法与其它的日志异常检测算法Deeplog、LogAnomaly和基于主成分分析(PCA)的方法相比有较好的表现.
- 程思强李晓戈李晓戈
- 关键词:日志分析
- 网页正文的自动抽取方法及装置
- 本申请属于计算机技术领域,具体涉及一种网页正文的自动抽取方法及装置。其中的方法包括:通过关键字搜索得到目标网站,从目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;通过预先训练的卷积神经网络将网页分为文章网...
- 李晓戈秦龙马鲜艳穆诤辉韩保民颜吏
- 文献传递