朱靖波
- 作品数:62 被引量:419H指数:13
- 供职机构:东北大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于DOP技术实现英汉机译
- 2003年
- 本文以DOP理论作为语言现象的描述基础,以英汉机译为背景,对面向数据的英汉机译方法进行深入研究。其中,不仅提出一种基于DOP技术的源语组合分析模式,而且建立了相对应的目标语生成机制。前者以DOP技术作为基本框架,通过源语语句片段组合形式的获取以及基于相似的概率评估,完成整个分析过程。而后者基于传统上主要应用于分析过程的DOP技术,通过对分析结果进行线性化操作,最终生成目标语译文。实验表明,目标语译文质量比较令人满意,可成功实现英汉机译。
- 张玥杰朱靖波姚天顺
- 关键词:机器翻译自然语言处理DOP语言学汉语
- 基于SMLE的介词短语修饰消歧处理
- 2000年
- 从本质上说,机器翻译过程是一个多层次消歧过程。介词短语修饰歧义是导致机器翻译中结构歧义的典型原因之一。本文构造了一个基于类似最大似然估计的介词短语修饰消歧模型。该模型利用了词汇的下位词性、语义分类和短语结构信息,同时考虑了低概率事件。利用关于汽车配件的真实语料进行训练该模型,真实训练语料库包括大约 100000个句子,其中构造了大约 3000个测试例子,测试结果获得了 93%的准确率。该消歧技术应用在汽车配件真实受控文本机器翻译系统中,取得了很好的效果。
- 李帆朱靖波
- 关键词:机器翻译
- 基于相似性评估的近似实例求解策略被引量:2
- 1999年
- 提出在基于实例的英汉机译中,一种基于相似性评估的近似实例求解策略·首先,对知识源进行预处理,包括树库、片段库及片段组合库的构建;其次,对输入句子进行预处理,包括句法分析树的建立,合法片段的抽取及片段组合形式的转换;最后,测量片段至句子的相似性,依据相似性阀值获取输入句子的所有近似实例·实验结果表明。
- 张玥杰朱靖波张跃姚天顺
- 关键词:翻译系统
- 一种新型的面向数据的语言处理技术
- 1999年
- 1.引言在过去几年中,一种新型的语言处理技术开始出现,并以各种名称为人们所知,如“面向数据的句法分析(Data-Oriented Parsing,DOP)”,“基于语料库的解释”,及“树库文法”等等,统称为面向数据的语言处理或DOP方法。该方法由Scha[1990]提出,并由Bod[1992-1995]发展,是一种概率的分析策略,其中体现一种假设,即人类对语言的理解与创造,依赖于以往具体的语言经验,而不是抽象的语言学规则。因此,在实现这种方法的模型中,保留以往出现言语语言学表示的大语料库。当处理一个新的输入言语时,通过组合来自语料库的片段构造该言语的分析。其中片段的出现频率用于估计最可能的分析。
- 张玥杰朱靖波姚天顺
- 关键词:语言处理面向数据语料库句法分析人工智能
- 中文信息自动抽取被引量:42
- 1998年
- 论述了信息抽取与信息检索的区别,信息抽取与深入的自然语言处理的区别,中文信息自动抽取的目的、任务和基本模型;然后介绍了一些国外的IE系统;讨论了关于中文信息自动抽取的一些问题和正在开展的中文信息抽取研究工作.
- 朱靖波姚天顺
- 关键词:中文信息信息检索信息处理信息抽取
- 面向TDT的主题相似性计算模型
- TDT的研究内容可以分为五个技术任务,本文主要研究第五个技术任务Linking,即面向TDT的事件主题相似性分析技术。研究目的在于力求寻求一种有效的分析技术,针对不同两个文档,识别文档内容所涉及到的事件主题是否一致。分析...
- 朱靖波陈文亮姚天顺
- 关键词:TDT
- 文献传递
- 基于增益的隐马尔科夫模型的文本组块分析被引量:14
- 2004年
- 本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程,只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示,该方法在文本组块分析方面是有效的。
- 李珩杨峰朱靖波姚天顺
- 关键词:中文信息处理隐马尔科夫模型支持向量机
- 基于Bootstrapping的领域多词串自动获取
- 在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器...
- 郑妍肖桐朱靖波
- 关键词:文字处理
- 文献传递
- 基于Stacking算法的组合分类器及其应用于中文组块分析被引量:26
- 2005年
- 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.
- 李珩朱靖波姚天顺
- 关键词:叠加式多分类器