您的位置: 专家智库 > >

陈龙刚

作品数:1 被引量:0H指数:0
供职机构:西安电子科技大学计算机学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇索引
  • 1篇熵压缩
  • 1篇高阶
  • 1篇大数据

机构

  • 1篇西安电子科技...

作者

  • 1篇霍红卫
  • 1篇于强
  • 1篇陈晓阳
  • 1篇陈龙刚

传媒

  • 1篇计算机学报

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
高阶熵压缩的全文自索引
2016年
大数据集正在以前所未有的速度产生,研制大数据集的实用压缩全文自索引是目前的挑战问题之一.该文提出了一种高阶熵压缩的全文自索引.对于长为n的文本T以及任意k≤clog_σn-1和c<1,该压缩索引占用2nH_k(T)+n+o(n)位的空间,其中Hk(T)表示文本T的k阶经验熵,σ为字符表的大小.此外,该压缩索引可在线性时间O(n)内构造.在此基础上,该文还给出了上述压缩索引的一种实用改进.这种改进引入了混合编码方法,额外的空间开销为o(n)位.对于Pizza&Chili Corpus上的三类典型数据的实验表明:该文的压缩索引较之主流压缩索引在压缩率和查询时间上具有显著的优势.该文所述的压缩索引软件可在GitHub上访问.
霍红卫陈晓阳陈龙刚于强
关键词:大数据
共1页<1>
聚类工具0