许超
- 作品数:18 被引量:92H指数:5
- 供职机构:南京师范大学文学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金江苏省教育厅哲学社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文学文化科学更多>>
- 面向中文自动分词的可扩展式电子词典研究被引量:3
- 2008年
- 在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。
- 贺胜曲维光许超
- 关键词:词典结构自动分词HASH
- 一种古汉语文本的一体化自动词法分析方法及系统
- 本发明公开了一种古汉语文本的一体化自动词法分析方法,包括以下步骤:采用Word2Vec模型预训练得到具有语义特征的古汉语的字向量;将历朝历代文献中出现过的信息数据加入到古籍专名数据库中形成若干专有名词词条;调整Bi‑LS...
- 李斌程宁葛四嘉李成名郝星月冯敏萱许超
- 文献传递
- “漂泊与成长”——班马儿童文学中“少年出走”母题探究
- 2021年
- 儿童文学作家班马以其强烈的个人风格,在上世纪八九十年代的儿童文学界掀起了一股"班马风潮",尤其是他笔下独具一格的"漂泊式"少年形象令人记忆犹新。本文旨在以90年代盛行的"成长小说"中"少年出走"的传统母题为切入点,来具体分析班马作品中这一类母题的具体表现特征。其次,结合班马对"漂泊少年"艺术形象的塑造,着力探讨班马儿童文学中"少年出走"这一类母题书写中所存在的缺失,以期促进当下儿童文学中漂泊形象的全新建构。
- 许超
- 语言网络小世界性的讨论被引量:1
- 2018年
- 许多现实中的网络具有小世界性,许多语言网络也具有小世界性。本文以《左传》和白话左传的语言网络、多个类型的语言网络、多种语言的语言网络为对象,以语言学理论为指导,比较分析了各种语言网络的小世界性及其语言学意义,得出观点:语言网络具有小世界性虽然是一种普遍现象,但现象背后的机制却有很大不同;小世界性呈现孤立语>屈折语>黏着语的关系;《左传》的词汇系统比白话左传更为致密,小世界性更强。
- 许超陈小荷
- 关键词:语言网络社会网络分析
- 汉英双语网页资源中相同事件文本对的提取
- 本文首先分析了汉英双语网页中的平行语料资源,提出通过提取相同事件文本对(SETP)来帮助研究者大规模高效率的获取平行语料资源。在分析汉英SETP的特点基础上,认为命名实体能够很好的代表文本主题,可以通过命名实体的对应度计...
- 许超
- 关键词:平行语料
- 文献传递
- 第一届古代汉语分词和词性标注国际评测被引量:4
- 2023年
- 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。
- 李斌袁义国芦靖雅冯敏萱许超曲维光王东波
- 关键词:古汉语评测自动分词词性标注
- 《左传》及白话左传语言网络中的模体探查
- 2015年
- 本文以网络科学的视角研究《左传》及白话左传。在构建《左传》及白话左传的语言网络的基础上,探查其中存在的模体,并进一步分析两个语料中模体的差异,最后探讨了这种差异的语言学意义。
- 许超
- 关键词:网络科学语言网络《左传》
- 《左传》中的春秋社会网络分析被引量:20
- 2014年
- 在《左传》中提取的人物、事件,使用社会网络分析软件Pajek,建立起春秋时期社会网络,定性、定量的对这一时期的历史社会网络做探索性研究。
- 许超陈小荷
- 关键词:社会网络分析《左传》
- 面向多领域先秦典籍的分词词性一体化自动标注模型构建被引量:21
- 2021年
- 【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。
- 张琪江川纪有书冯敏萱李斌许超刘浏
- 关键词:先秦典籍分词词性标注
- 面向海量典籍文本的深度学习自动断句与标点平台构建研究被引量:11
- 2021年
- 【目的】促进数字化古汉语的组织与利用,通过建立标注体系并构建层叠深度学习模型实现古汉语自动断句与标点,从而推动人文社科领域的发展。【方法】以《四库全书》构成海量典籍的语料库,将自动断句与标点作为序列标注问题研究,确定层叠式的思路。通过构建BERT-LSTM-CRF模型得到未断句古文的自动断句结果,并将该结果作为新的特征,输入到多特征LSTM-CRF模型,迭代学习,最终给出标点标记。利用训练出的模型,在Django框架下搭建相应的应用平台。【结果】实验结果表明,在大规模语料下,本文方法针对经、史、子、集4部自动断句与标点的调和平均值分别为86.41%与90.84%。【局限】对于标点体系的处理有待细化。【结论】所利用的模型显著提升任务效果,所搭建的应用平台实现是数字人文工程化的体现。
- 王倩王东波李斌许超
- 关键词:古汉语