河南省高等学校青年骨干教师资助计划项目(2009GGJS-108)
- 作品数:7 被引量:15H指数:2
- 相关作者:于江德余正涛樊孝忠王希杰周宏宇更多>>
- 相关机构:安阳师范学院昆明理工大学北京理工大学更多>>
- 发文基金:河南省高等学校青年骨干教师资助计划项目国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于条件随机场的汉语词性标注被引量:6
- 2011年
- 近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.
- 于江德葛彦强余正涛
- 关键词:汉语词性标注条件随机场上下文
- 字标注汉语词法分析中上文和下文孰重孰轻被引量:3
- 2012年
- 汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计方法中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要呢?为克服仅凭主观经验给出猜测结果的不足,对基于字标注汉语词法分析的分词、词性标注、命名实体识别这3项子任务进行了深入研究,对比了上文和下文对各个任务性能的影响;在国际汉语语言处理评测Bakeoff多种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验。结果表明,在字标注框架下,下文对汉语词法分析性能的贡献比上文的贡献高出6个百分点以上。
- 于江德王希杰樊孝忠
- 关键词:汉语词法分析上下文分词词性标注命名实体识别
- 汉语词性标注的特征工程
- 2011年
- 上下文特征对汉语词性标注性能有重要影响。为了提高标注性能,采用最大熵模型探讨了汉语词性标注的特征工程,对其中的两个关键问题:特征窗口大小和特征模板集的设定,本文作者进行了深入研究。在Bake-off2007的PKU、NCC、CTB 3种语料上进行了封闭测试,通过对"5词语"和"3词语"不同大小的特征窗口,以及单词语、双词语和两者混合的不同特征模板集进行汉语词性标注的训练过程和标注精度的对比实验,实验结果表明:3词特征窗口训练情况和标注性能均优于5词窗口;单词语特征模板集比双词语特征模板集标注性能高出10%。这说明汉语词性标注中特征窗口开设的大小以3词窗口为宜,单词语特征模板集标注性能更好。
- 于江德周宏宇余正涛
- 关键词:汉语词性标注最大熵模型
- 汉语分词中上文和下文重要性比较被引量:2
- 2011年
- 上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。
- 于江德王希杰樊孝忠
- 关键词:汉语分词上下文条件随机场词位标注
- 基于双层条件随机场的汉语词性标注方法研究被引量:1
- 2016年
- 针对汉语词性标注中词性类别划分较细、类别较多的问题,提出一种利用双层条件随机场进行汉语词性标注的方法,该方法将汉语词性标注分为两个阶段,每个阶段采用一层条件随机场建模实现。第一阶段底层条件随机场根据上下文产生每个词语的词性粗分结果;第二阶段高层条件随机场将词语及其粗分结果作为上下文特征对每个词语的词性进一步细分,产生最终词性标记。利用CRF++0.53工具包,在国际汉语分词评测Bakeoff2007(国际汉语分词评测)的NCC和CTB语料上进行了实验,结果表明该方法可行且可以获得较好的标注结果。
- 王艺帆王希杰
- 关键词:汉语词性标注
- 汉语词法分析中上文和下文孰重孰轻
- 汉语诃法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题。上下文是统计语言学中获取语言知以和解决自然语言处理中多种实际应用问题必须依靠的资源和基...
- 于江德王希杰樊孝忠
- 关键词:汉语词法分析上下文分词词性标注命名实体识别
- 文献传递