江苏省自然科学基金(BK2008160)
- 作品数:38 被引量:250H指数:10
- 相关作者:李培峰朱巧明周国栋李军辉王中卿更多>>
- 相关机构:苏州大学江苏省计算机信息处理技术重点实验室江苏信息职业技术学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 细粒度科技论文摘要句子分类方法被引量:3
- 2012年
- 以科技论文摘要句子为研究对象,提出一种两阶段的细粒度句子分类方法,通过结合摘要内各个句子的位置、关键词和上下文信息,选择部分易于分辨语境类型的句子,将其作为种子样本训练获得分类模型。利用机器学习的方法对摘要句子的背景知识、论文主题、研究方法和实验结果进行自动分类。实验结果表明,该方法中的F度量值比其他细粒度分类方法平均高3%~5%。
- 华秀丽徐凡王中卿李培峰
- 关键词:细粒度语境
- 基于合一句法和实体语义树的中文语义关系抽取被引量:19
- 2010年
- 该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。
- 虞欢欢钱龙华周国栋朱巧明
- 领域语言模型及其在中文输入系统中的应用
- 2012年
- 提出一种构建领域语言模型的策略,并基于余弦相似度提出一种模型融合的方法,以便将领域语言模型融入动态自学习语言模型,该语言模型可应用于中文输入系统。实验表明,加载了领域语言模型的中文输入系统不仅降低了平均码长,而且显著提高了首字命中率。
- 孙晓李培峰
- 关键词:相似度中文输入系统
- 基于依存句法分析的中文语义角色标注
- 依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。本文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使...
- 王步康王红玲袁晓虹周国栋
- 关键词:语义角色标注最大熵分类器
- 文献传递
- 基于可信度模型的中文人名识别研究被引量:6
- 2011年
- 该文根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征,通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度,对文本中人名进行识别或对已识别的人名进行纠正。该文将可信度检测模块嵌入到一个简易的命名实体平台中,在MSRA的语料上进行测试,实验结果说明可信度模型使得平台的人名识别F值提高了2.27%,整个系统的人名识别F值达到了91.72%。
- 倪吉孔芳朱巧明李培峰
- 关键词:人名识别内聚度
- 基于树核函数的中文语义角色分类研究被引量:3
- 2011年
- 该文探索了基于树核函数的中文语义角色分类,重点研究如何获取有效的结构化信息特征。在最小句法树结构的基础上,根据语义角色分类的特点,进一步定义了三种不同的句法结构,并使用复合核将基于树核和基于特征的方法结合。在中文PropBank语料上的结果表明,基于树核函数的方法在中文语义角色分类任务中能够取得较好的结果,精确率达到91.79%。同时,与基于特征方法的结合,基于树核函数的方法能够进一步提高前者性能,精确率达到94.28%,优于同类系统。
- 吴方磊李军辉朱巧明李培峰
- 关键词:语义角色标注树核
- 基于不平衡数据的中文情感分类
- 近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。本文收集四个产品领域的中文评论文本,发现正类样本的数目...
- 王中卿李寿山朱巧明李培峰周国栋
- 关键词:中文信息处理情感分类
- 文献传递
- Linux平台下基于SCIM的中文输入法设计与实现被引量:1
- 2011年
- 分析Linux平台下的XIM(X Input Method)协议的缺陷,介绍新一代输入法框架SCIM(Smart Common Input Method)的设计结构和工作原理,给出基于SCIM的中文输入法的设计方案,并以纵横输入法为例介绍其实现过程。
- 邓光喜李培峰
- 关键词:SCIMLINUX输入法本地化
- 一种改进的中文层次句法分析模型研究
- 首先提出了层次句法分析模型,该模型先对输入句子进行词性标注和基本组块识别,紧接着循环多次进行复杂组块识别直至得到根结点。该方法本质上属于一种基于移进-归约序列的句法分析模型,因此具有此类模型的各类优点;然后,本文分析了移...
- 李军辉周国栋朱巧明钱培德
- 文献传递
- 一种基于改进的K-means算法的人名消歧系统的设计与实现被引量:5
- 2010年
- 人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。
- 杨欣欣李培峰朱巧明王英帅
- 关键词:人名消歧聚类