陈丽江
- 作品数:10 被引量:5H指数:2
- 供职机构:南京师范大学图书馆更多>>
- 发文基金:国家社会科学基金江苏省普通高校研究生科研创新计划项目更多>>
- 相关领域:语言文字自动化与计算机技术文化科学更多>>
- 统计和规则结合识别动词的跨分句论元
- 2009年
- 与印欧语言不同,汉语的句子往往是由多个分句组成的复句。但目前的中文语义角色的标注语料和标注系统并没有对现代汉语的这个特点给予充分的重视。由于数据稀疏的问题,对于与动词跨分句的论元还没有一个有效的识别方法,直接影响了汉语真实文本语义角色标注的研究。运用统计和规则结合的方法,对与动词跨分句的论元进行识别。先用一条基本的规则识别出大部分的动词的论元,再找到规则识别的薄弱点,运用统计决策树融合多种特征构造模型,以进一步提高识别的准确率。实验结果表明,对于与动词的跨分句的论元,仅仅规则识别的F值就达到了65.3%,使用决策树后,F值提高到67.2%。
- 陈丽江陈小荷
- 关键词:语义角色标注论元
- 统计机器翻译基于赫夫曼编码的解码算法
- 2011年
- 赫夫曼树编码是信息论中重要的数据编码方式。根据赫夫曼编码的算法构造最优二叉树,可以得到总长最短的二进制编码。本文首次依据赫夫曼编码的思想设计机器翻译中的解码算法,基本思想是:在栈解码的基础上,不再是在原有结点上扩展新的假设,而是合并原有的假设,最后构造一棵完整的二叉树。这种方法开辟了机器翻译解码的新途径,有望提高机器翻译解码的效率,节约存储空间。
- 陈丽江陈小荷
- 关键词:统计机器翻译解码赫夫曼编码二叉树
- 在特定类型的二字词组合型歧义消解过程中保证分词的一致性
- 2006年
- 在汉语的自动分词过程中,组合型歧义和分词不一致常常交织在一起,严重影响了切分结果的质量。本文试通过对熟语料库中“v+a”和“m+q”结构类型的二字词进行分类,每一类确定不同的方法来消解组合型歧义,以保证分词过程中的一致性。
- 陈丽江
- 关键词:组合型歧义结构类型
- VN结构识别的一种概率分布模型
- 2009年
- 正确识别汉语里的VN结构等基本名词短语可以帮助提高句法分析的准确率。提出并验证了如果动名组合的上下文词语的分布类似,那么它们的结构也类似的假设。结合动词、名词本身,构造了一种基于概率分布的结构向量空间模型,用于VN结构的识别。实验结果表明,虽然没有使用其他外部资源,该方法仍取得了理想的识别效果,精确率和召回率分别达到了95.2%和93.0%。
- 陈丽江陈小荷
- 关键词:自然语言处理向量空间模型上下文
- 高校图书馆提高读者服务质量方法研究
- 2012年
- 高校图书馆的书库是为读者服务的一个重要部门。本文分析了开架书库管理面临的困难,提出了一系列科学管理书库的方法,以提高管理水平和服务质量。
- 陈丽江
- 关键词:书库
- 改进汉英统计机器翻译模型的教学方法研究
- 统计机器翻译方法经历了从传统的规则到噪声信道模型,再到对数线性模型的转变。在诸多统计机器翻译技术中,基于短语的最小错误率训练是一种被广泛采用的统计翻译方法。本文依据数学原理,提出三种改进统计机器翻译系统的方法:(1)基于...
- 陈丽江
- 关键词:汉英语言统计机器翻译
- 基于多分类器决策的VN组合自动标注被引量:2
- 2008年
- 汉语里动名词组合常使句法分析产生歧义。该文使用Adaboost算法组合多个贝叶斯分类器,对汉语中常见的动名词组合进行自动标注,分别识别出其中的定中结构和动宾结构。在进行特征选择时,参考词义消歧的方法,利用上下文词语、动词名词本身及其音节数等构造了特征向量。实验结果表明,在不参照其他资源的情况下,该方法识别效果较好,平均精确率和召回率分别达到90.5%和88.2%。
- 陈丽江
- 关键词:语境ADABOOST算法贝叶斯分类
- 从ACL-SIGHAN国际分词竞赛看已知词和未登录词识别的平衡问题被引量:1
- 2005年
- 中文分词一直是大规模语料库加工的基础,它需要能够正确识别出语料中的已知词和未登录词,而各种基于规则和统计的方法在识别已知词和未登录词时各有优劣。本文试分别从已知词和未登录词识别两个方面,对ACL-SIGHAN第一届国际中文分词竞赛中各参赛系统进行比较,指出中文分词既需要提高已知词识别的准确率,还要能够较好地预测语料中出现的未登录词,并处理好它们之间的平衡关系。
- 陈丽江
- 关键词:未登录词
- ACL-SIGHAN第一届国际中文分词竞赛评述
- 2003年在日本札幌举行了第一届ACL-SIGHAN国际中文分词竞赛。这次竞赛指定专门的训练语料与测试语料,统一用一个Perl语言编写的程序进行分词系统评测,整个评测过程是完全自动化且公平的。本文试在各参赛队提交的系统分...
- 陈丽江
- 关键词:未登录词评测
- 文献传递
- 汉语真实文本的语义角色标注
- 语义角色标注在机器翻译、文本理解等自然语言处理系统中是一项必需的任务,它需要自动识别出句子中的谓词所关涉的论元结构。目前英语的语义角色标注系统很多,但汉语的相关研究还比较少见。汉语语义角色的确定有其自身的特点,不应该照搬...
- 陈丽江
- 关键词:机器翻译自然语言处理语义角色标注句法结构汉语语义
- 文献传递