首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏PostgreSQL研究与原理解析

    列式存储引擎-内核机制-Parquet格式

    Parquet中有:Plain、RLE/bit-packing、Delta编码。 3.1 Plain编码 对数据没有压缩和其他处理。所有类型均可使用。 int32以4个字节存储,下图显示了0到3数字如何以plain编码方式进行存储: 3.2 RLE编码 Run-Length encoding算法,针对连续重复的数据,记录重复次数及对应值: 3.3 Bit-packing 因此,不将这些值存储在他们的全部范围中,bit-packing将多个值打包到一个空间中。从数值的最低有效位开始压缩。最低有效位的意思,就是数值从二进制表示的值是 1 的最低的位置。从右边开始。 当然可以和上述的RLE/bit-packing结合。 3.5 Delta 可以用在整数和字节数组。

    1.2K30编辑于 2023-09-07
  • 来自专栏设计模式

    OceanBase 历史数据归档方案技术原理解读

    这时数据库可以直接在用户数据字段上建立字典,来实现更高的压缩率; 当数据按时序插入数据库,这些插入的数据行中的时间相关字段、自增序列等数据的值域会相对较小,也会有单调递增等特性,利用这些特性,数据库可以更方便地为这些数据做 bit-packing OceanBase 根据实际业务场景需求实现了单列数据的 bit-packing 编码、字符串 HEX 编码、字典编码、 RLE 编码、常量编码、数值差值编码、定长字符串差值编码,同时,创新地引入了列间等值编码和列间子串编码 降低存储的位宽:Bit-packing 和 HEX 编码 Bit-packing 和 HEX 编码类似,都是在压缩数据的基数较小时,通过更小位宽的编码来表示原数据。 而且这两种编码可以与其他编码叠加,对于其他编码产生的数值或字符串数据,都可以再通过 bit-packing 或 HEX 编码进一步去除冗余。 (bit-packing) ( HEX 编码) 单列数据去重:字典编码和 RLE 编码等 字典编码则可以通过在数据块内建立字典,来对低基数的数据进行压缩。

    60900编辑于 2024-05-27
  • 来自专栏后台技术底层理解

    lucene的高效数据查询

    Lucene 中用到的一项技术就是位压缩(bit-packing).这意味着整型数组的类型从固定大小 (8,16,32,64 位)4 种类型,扩展到了[1-64]位共 64 种类型。

    1.2K10发布于 2020-08-04
  • 来自专栏腾讯大数据的专栏

    实时湖仓一体规模化实践:腾讯广告日志平台

    对于Repetition Level/Definition Level都采用的是RLE(Run Length Encoding / Bit-Packing Hybrid )编码。 Bit-Packing编码就是用更少的Bit来表示当前的Value,比如人的年龄,采用7个bit来存储就足够了。

    1.7K30编辑于 2022-09-20
  • 来自专栏机器之心

    比Python还好用的Go语言要出2.0了,你想怎么设计?

    此外允许多态定义的专有化实现也不是目标,例如使用比特包装(bit-packing)定义一个通用的 vector<T> 和特定的 vector<bool>。

    1K10发布于 2018-09-20
  • 来自专栏大数据-BigData

    实时湖仓一体规模化实践:腾讯广告日志平台

    对于Repetition Level/Definition Level都采用的是RLE(Run Length Encoding / Bit-Packing Hybrid )编码。 Bit-Packing编码就是用更少的Bit来表示当前的Value,比如人的年龄,采用7个bit来存储就足够了。

    1.3K10编辑于 2022-12-02
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 AngelFL 联邦学习平台揭秘

    研发团队采用 bit-packing 的方法压缩了密文的体积,从而较少网络传输量。

    4K30发布于 2020-03-19
  • 来自专栏腾讯大数据的专栏

    对话腾讯大数据团队:自研联邦学习系统的技术实践和难点

    研发团队采用 bit-packing 的方法压缩了密文的体积,从而较少网络传输量。 跨网传输消息拥塞。

    1.4K30发布于 2020-03-19
  • 来自专栏音视频技术

    Netflix如何通过重构视频Gatekeeper提升内容运营效率?

    ● 高密度:采用编码、位打包(bit-packing)和复制数据删除(deduplication techniques)技术来优化数据集的内存占用率。

    82320发布于 2019-08-23
  • 来自专栏大数据架构师成长之路

    架构师成长之路系列(二)

    C-Store 论文中对于是否排序、NDV (Number of Distince Values) 区分度,这 4 种排列组合,给出了一些方案,例如数值类型,无序且 NDV 小的,转成 bitmap,然后 bit-packing

    1.2K40发布于 2020-09-29
  • 来自专栏数据社

    建议收藏!浅谈OLAP系统核心技术点

    减少数据体积,在C-Store论文中对于是否排序、NDV(Number of Distince Values)区分度,这4种排列组合,给出了一些方案,例如数值类型,无序且NDV小的,转成bitmap,然后bit-packing

    1.6K20发布于 2020-08-27
领券