王东波 作品数:217 被引量:1,222 H指数:20 供职机构: 南京农业大学 更多>> 发文基金: 国家社会科学基金 国家自然科学基金 江苏省社会科学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 语言文字 哲学宗教 更多>>
数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例 被引量:34 2020年 在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。 李斌 王璐 陈小荷 王东波关键词:《左传》 第一届古代汉语分词和词性标注国际评测 被引量:4 2023年 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 李斌 袁义国 芦靖雅 冯敏萱 许超 曲维光 王东波关键词:古汉语 评测 自动分词 词性标注 命名实体识别研究综述 被引量:141 2018年 命名实体识别一直以来都是信息抽取、自然语言处理等领域中重要的研究任务,随着机器学习技术的新发展,数字人文研究的兴起,事件知识和实体知识变得越发重要,命名实体识别焕发出新的发展动力。本文详细梳理了命名实体识别从提出至今的发展脉络,从实体的定义、重要的评测会议、主流的研究方法研究的应用价值等角度,全面考察了该领域的研究现状,并分析了命名实体识别未来的发展趋势。 刘浏 刘浏关键词:命名实体识别 信息抽取 采用连续词袋模型(CBOW)的领域术语自动抽取研究 被引量:20 2016年 【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用Page Rank算法计算候选词汇的领域代表性并排序,通过阈值的设定,抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW模型完成术语的抽取工作是一个较为合理、可行的方法。 姜霖 王东波关键词:术语抽取 神经网络 《春秋》三传女性人物的人文计算研究 被引量:6 2020年 [目的/意义]基于古籍数字化和古文智能处理的古籍人文计算研究,是近年来古文信息处理的新焦点,而以数据为基础的量化分析方法能为古籍相关的传统研究问题带来新的视角和思路。[方法/过程]以《春秋》三传中女性人物为研究对象,以多角度的女性人物知识标注为数据来源,进行了包括女性人物"姓、国、氏"、排行、谥号、尊称和年份分布的女性人物知识量化分析,以及以女性人物知识为线索的以联姻参与度为主的诸侯国联姻关系量化分析。[结果/结论]对《春秋》三传女性人物进行了新角度的解读,提供了一种可度量、可视化的研究思路,为相关研究提供了可信的数据验证。 刘浏 黄水清 孟凯 李斌 王东波 苏新宁关键词:女性人物 计算人文教育的回顾和探讨 2024年 [目的/意义]随着计算人文近年来的迅猛发展,计算人文教育的必要性和迫切性日益凸显,以价值需求的多样性以及技术方法的创新性为特点,计算人文教育的定位、体系建构和未来发展等问题已经无法回避。[方法/过程]文章梳理了计算人文教育的发展历程,指出了计算人文教育区别于其他学科教育的特点,讨论了计算人文教育中的核心问题,分析了计算人文教育的各项要素,阐明了计算人文教育实施的可行方法。[结果/结论]多样的学科背景,多类型的教育形式,计算与人文兼顾的教学内容,以及面向数字文化战略的培养目标,是计算人文教育的主要特点。在此基础上,“计算X”既提供了构建完整计算人文学科体系的思路,也为计算人文教育的开展提供了有益的模式。 黄水清 刘浏 王东波关键词:学科教育 基于UniLM模型的古文到现代文机器翻译词汇共享研究 2024年 [目的/意义]从古文到现代文的机器翻译过程中,由于古文与现代文之间在词汇构成、句法以及词类活用等方面的显著差异,并且缺少公开的古文分词数据,使得机器翻译系统对古文的理解和处理能力存在偏差,一定程度上影响了翻译的质量。[方法/过程]文章提出无监督词库构建的方法,在UniLM模型的基础上,分别与BERT、RoBERTa、RoFormer和RoFormerV2预训练模型相结合并对模型进行微调,借助UniLM模型融合古文领域知识特征将源语言和目标语言之间的语言关系生成中间的语言表示,利用预训练模型学习上下文相关的语言表示,增加语义之间的关联性,从而提升古现机器翻译的性能。[结果/结论]实验结果表明,融合古文领域知识特征的古文机器翻译在BERT、RoBERTa、RoFormer和RoFormerV2预训练模型上的BLEU值分别提高了0.27到1.12,证明了提出方法的有效性。 许乾坤 王东波 刘禹彤 吴梦成 黄水清关键词:古文翻译 机器翻译 新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评 被引量:15 2019年 [目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。 黄水清 王东波关键词:人民日报 自动分词 条件随机场模型 语料库 面向文本挖掘的植物生长发育实体识别研究 被引量:1 2014年 【目的】研究从文本中识别植物生长发育实体(Plant Growth and Development Stage Named Entity,PDSE)的抽取。【应用背景】PDSE从本质上来说是一种命名实体。目前有关命名实体的识别已经成为自然语言处理领域最有价值的基础技术之一,被广泛应用于多种自然语言处理系统中。【方法】采用基于条件随机场和规则的混合策略,提出并实现针对PDSE特征的CRF特征模板、特征函数以及抽取规则的方法,并利用PubMed数据库收录的论文进行抽取效果测试。【结果】实验表明本文提出的混合策略能取得较高的准确率和召回率。【结论】本研究对生物学文本抽取具有一定的借鉴意义。 汪润 何琳 王东波 黄水清 范远标关键词:命名实体识别 条件随机场 引用内容分析研究综述 被引量:20 2017年 引用内容分析的提出,是为了获取引文中的语义信息。如今引用内容分析已成为引文分析领域一个重要的研究方向。本文详细梳理了引用内容分析从提出至今的发展脉络,从研究对象、研究内容(引用位置、引用动机和引用主题)和研究的应用角度考察了该领域的研究现状,并分析了引用内容分析未来的发展趋势。 刘浏 王东波关键词:引文分析