您的位置: 专家智库 > >

国家自然科学基金(69433010)

作品数:2 被引量:221H指数:2
相关作者:左正平黄昌宁孙茂松刘定强更多>>
相关机构:清华大学北京信息工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:语言文字自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇会议论文

领域

  • 3篇语言文字
  • 2篇自动化与计算...

主题

  • 2篇中文
  • 1篇信息处理
  • 1篇语料
  • 1篇语料库
  • 1篇中文版面
  • 1篇中文版面分析
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇自底向上
  • 1篇自动分词
  • 1篇组件
  • 1篇基于组件
  • 1篇汉语自动分词
  • 1篇汉字识别
  • 1篇分词
  • 1篇版面分析
  • 1篇OCR技术

机构

  • 1篇北京语言大学
  • 1篇北京信息工程...
  • 1篇清华大学

作者

  • 1篇刘定强
  • 1篇孙茂松
  • 1篇黄昌宁
  • 1篇左正平
  • 1篇张普

传媒

  • 2篇中文信息学报
  • 1篇第二届全国语...

年份

  • 2篇2000
  • 1篇1999
2 条 记 录,以下是 1-3
排序方式:
汉语自动分词词典机制的实验研究被引量:209
2000年
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
孙茂松左正平黄昌宁
关键词:中文信息处理汉语自动分词
关于大规模真实文本语料库的几点理论思考
一关于语料库建设我国的语料库建设始于20世纪80年代初期。那时的语料库叫语言资料库,建设的主要目的是为了给字词典的编纂提供例句或者给语言学家研究语言提供第一手资料。而信息处理领域的专家由于信息处理的需要,也差不多同时开始...
张普
文献传递
基于组件的中文版面分析被引量:12
2000年
本文提出基于组件的中文版面分析方法。本方法是以自底向上为主 ,同时结合了自顶向下和基于组件的思想。基于组件的思想使得算法结构清晰、图象扫描次数被尽可能地减少 ;以自底向上为主、同时结合自顶向下的方法具有效率高、准确性高、文档适应性广的特点。二维有序树型结构的文档及其组件的组织形式 ,提高了频繁的查找操作速度 ,同时为版面描述和分析结果的应用提供了方便。
刘定强张炘中
关键词:版面分析自底向上组件汉字识别OCR技术
共1页<1>
聚类工具0