公共文化服务平台

基于Pre-RoBERTa-MTL的中文机器阅读理解模型被引量：2: 2020年; 机器阅读理解(MRC)是指让计算机像人类一样阅读文本,提炼文本信息并回答相关问题。传统的基于深度学习的方法利用双向循环神经网络或者卷积神经网络来对文本进行编码,但这种方法无法有效地捕获文本中的长距离依赖。最新发布的神经网络模型RoBERTa能够更好地捕获文本中的长距离依赖特征,并在几种不同的自然语言处理任务中都取得了好成绩。然而,RoBERTa模型针对英文语言而设计,无法有效地处理中文文本。针对中文语言的特点,提出一种新的阅读理解模型Pre-RoBERTa-MTL。该模型首先利用RoBERTa对问题与段落进行编码,然后通过一个交互层捕获问题与段落中蕴涵的语义模式,最后输出可能的答案。实验结果表明,该方法在大规模阅读理解测试集DuReader上的Rouge-L和BLEU-4分数分别达到了59.35%和56.22%,大大优于大部分已有的阅读理解模型。; 代寒静涂新辉

中文维基百科的结构化信息抽取及词语相关度计算方法被引量：24: 2012年; 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。; 涂新辉张红春周琨峰何婷婷; 关键词：语义相关度结构化信息

中文信息处理工具软件: 何婷婷王萌王辉张勇任涵李晶涂新辉; 该套软件包括文本自动分词、自动文摘、自动分类、术语自动提取、全文检索、基于因特网的语料自动下载、语料库管理与维护等功能。应用领域和技术特点：该软件适应于数字图书馆、网站建设、信息检索、电子政务、电子商务、中文信息处理、语...; 关键词：; 关键词：中文信息处理软件包文本信息处理

面向稠密检索的伪相关反馈方法: 2023年; 伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能。但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高。针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法 Dense-PRF。首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果。在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点。实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度。; 胡文浩罗景涂新辉; 关键词：查询扩展信息检索

基于主题词对的文档重排方法被引量：2: 2007年; 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。; 何婷婷许婷瞿国忠涂新辉

概率潜在语义检索模型中中文索引技术的比较研究: 2007年; 概率潜在语义检索模型使用统计的方法建立“文档—潜在语义—词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。; 罗景涂新辉; 关键词：信息检索概率潜在语义分析

一种基于知识图谱的古诗智能问答方法及系统: 本发明技术方案提供一种基于知识图谱的古诗智能问答方法及系统，构建古诗知识图谱TPKG；使用古诗与译文结合的预训练策略，基于基础模型ChineseBERT进行训练，得到面向古诗的预训练语言模型CP‑ChineseBERT；...; 何婷婷洪婕张淼章哲铭戴汝锋涂新辉董明

基于相关术语群的中文查询扩展被引量：1: 2008年; 查询词语和文档中词语的不匹配是影响文本信息检索效果的一个关键因素。查询扩展技术可以在一定程度上解决这种词的不匹配问题,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索精度。利用自动构建的相关术语群来进行查询扩展以提高中文检索的效果。在NTCIR中文信息检索测试集上进行的实验表明,相对于传统的查询扩展方法,在检索效果上取得了平均24.5%的提高。; 涂新辉罗景; 关键词：中文信息检索查询扩展术语抽取

基于排序学习的文本概念标注方法研究被引量：2: 2013年; 提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。; 涂新辉何婷婷何婷婷王建文; 关键词：维基百科

一种基于大规模主题建模的文档模型扩展方法: 本发明涉及信息检索模型领域，提供一种基于大规模主题建模的文档模型扩展方法，包括以下步骤：利用基于LightLDA的分布式主题建模技术，构建主题数目为十万或百万级别的大规模主题建模，捕获微博文本中丰富的语义信息，特别是长尾...; 涂新辉刘子健余生许舸; 文献传递

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

涂新辉