公共文化服务平台

王东波: 作品数：236 被引量：1,493H指数：22; 供职机构：南京农业大学更多>>; 发文基金：国家社会科学基金国家自然科学基金江苏省社会科学基金更多>>; 相关领域：文化科学自动化与计算机技术语言文字文学更多>>

合作作者

数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例被引量：46: 2020年; 在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。; 李斌王璐陈小荷王东波; 关键词：《左传》

第一届古代汉语分词和词性标注国际评测被引量：6: 2023年; 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。; 李斌袁义国芦靖雅冯敏萱许超曲维光王东波; 关键词：古汉语评测自动分词词性标注

命名实体识别研究综述被引量：158: 2018年; 命名实体识别一直以来都是信息抽取、自然语言处理等领域中重要的研究任务,随着机器学习技术的新发展,数字人文研究的兴起,事件知识和实体知识变得越发重要,命名实体识别焕发出新的发展动力。本文详细梳理了命名实体识别从提出至今的发展脉络,从实体的定义、重要的评测会议、主流的研究方法研究的应用价值等角度,全面考察了该领域的研究现状,并分析了命名实体识别未来的发展趋势。; 刘浏刘浏; 关键词：命名实体识别信息抽取

采用连续词袋模型(CBOW)的领域术语自动抽取研究被引量：22: 2016年; 【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用Page Rank算法计算候选词汇的领域代表性并排序,通过阈值的设定,抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW模型完成术语的抽取工作是一个较为合理、可行的方法。; 姜霖王东波; 关键词：术语抽取神经网络

《春秋》三传女性人物的人文计算研究被引量：12: 2020年; [目的/意义]基于古籍数字化和古文智能处理的古籍人文计算研究,是近年来古文信息处理的新焦点,而以数据为基础的量化分析方法能为古籍相关的传统研究问题带来新的视角和思路。[方法/过程]以《春秋》三传中女性人物为研究对象,以多角度的女性人物知识标注为数据来源,进行了包括女性人物"姓、国、氏"、排行、谥号、尊称和年份分布的女性人物知识量化分析,以及以女性人物知识为线索的以联姻参与度为主的诸侯国联姻关系量化分析。[结果/结论]对《春秋》三传女性人物进行了新角度的解读,提供了一种可度量、可视化的研究思路,为相关研究提供了可信的数据验证。; 刘浏黄水清孟凯李斌王东波苏新宁; 关键词：女性人物

计算人文教育的回顾和探讨被引量：2: 2024年; [目的/意义]随着计算人文近年来的迅猛发展,计算人文教育的必要性和迫切性日益凸显,以价值需求的多样性以及技术方法的创新性为特点,计算人文教育的定位、体系建构和未来发展等问题已经无法回避。[方法/过程]文章梳理了计算人文教育的发展历程,指出了计算人文教育区别于其他学科教育的特点,讨论了计算人文教育中的核心问题,分析了计算人文教育的各项要素,阐明了计算人文教育实施的可行方法。[结果/结论]多样的学科背景,多类型的教育形式,计算与人文兼顾的教学内容,以及面向数字文化战略的培养目标,是计算人文教育的主要特点。在此基础上,“计算X”既提供了构建完整计算人文学科体系的思路,也为计算人文教育的开展提供了有益的模式。; 黄水清刘浏王东波; 关键词：学科教育

基于大语言模型技术的古籍限定域关系抽取及应用研究: 2025年; 古籍文本中的细粒度知识单元的自动抽取和结构化能够为群体传记、历史地图等古籍数字人文研究提供数据基础。基于判别式模型的抽取方法严重受制于古汉语本身语义的复杂性和训练样本的缺失,抽取效果和领域迁移的效果受到影响,相关研究亟待生成式人工智能技术的赋能。本研究探索了基于大语言模型的古籍领域限定域关系抽取方法和高质量训练语料自动生成方法。通过比较不同提示模板对模型抽取性能的影响,证明了微调方法对模型性能提升具有显著价值。基于ChatGPT4的API服务,结合自指令、思维链与人类反馈合成古籍限定域关系抽取数据集,在数据增强后于两种古籍关系抽取数据集上分别取得56.07%和30.50%的F1值,迁移能力较两种使用全部数据训练的模型均取得了显著提升。本研究还探索了协同使用自指令模型和自动评价模型合成训练语料和评价信息,并基于合成数据训练模型,有效缓解了训练数据不足的问题。研究结果表明,使用大语言模型抽取关系三元组与合成训练数据,能够显著降低过往限定域关系抽取的人力成本,有助于提升古籍领域知识图谱的构建效率。; 刘畅张琪王东波沈思吴梦成刘浏苏雨诗

基于UniLM模型的古文到现代文机器翻译词汇共享研究被引量：1: 2024年; [目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。; 许乾坤王东波刘禹彤吴梦成黄水清; 关键词：古文翻译机器翻译

新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评被引量：15: 2019年; [目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。; 黄水清王东波; 关键词：人民日报自动分词条件随机场模型语料库

面向文本挖掘的植物生长发育实体识别研究被引量：1: 2014年; 【目的】研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取。【应用背景】PDSE从本质上来说是一种命名实体。目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中。【方法】采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试。【结果】实验表明本文提出的混合策略能取得较高的准确率和召回率。【结论】本研究对生物学文本抽取具有一定的借鉴意义。; 汪润何琳王东波黄水清范远标; 关键词：命名实体识别条件随机场

王东波

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

王东波

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈