2025年4月4日
星期五
|
欢迎来到南京江宁区图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
秦文
作品数:
1
被引量:46
H指数:1
供职机构:
清华大学信息科学技术学院计算机科学与技术系
更多>>
发文基金:
国家自然科学基金
国家重点基础研究发展计划
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
苑春法
清华大学信息科学技术学院计算机...
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
登录
1篇
语言处理
1篇
数据挖掘
1篇
自然语言
1篇
自然语言处理
1篇
未登录词
1篇
未登录词识别
1篇
决策树
1篇
汉语
1篇
C4.5算法
机构
1篇
清华大学
作者
1篇
苑春法
1篇
秦文
传媒
1篇
中文信息学报
年份
1篇
2004
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于决策树的汉语未登录词识别
被引量:46
2004年
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。
秦文
苑春法
关键词:
自然语言处理
未登录词识别
数据挖掘
决策树
C4.5算法
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张