壓縮算法的比較

各算法壓縮行數(shù)與壓縮比例的比較
聲明

壓縮對(duì)象是一個(gè)大小為1.7M的csv文件,總共6829行,每行74列,即一行大小為261byte
使用全Double類(lèi)型(一個(gè)Double為8字節(jié))保存一行數(shù)據(jù)的話(huà),一行為592byte
使用更適合的數(shù)據(jù)類(lèi)型時(shí)(-125-124用Byte保存,浮點(diǎn)型用Float保存,其余用short保存,各別較大的整數(shù)用int保存),一行為143byte

以下圖分別是使用Double類(lèi)型時(shí)的壓縮算法各項(xiàng)比較
各算法壓縮行數(shù)與壓縮比例的比較
image.png

由上圖可知當(dāng)壓縮行數(shù)為40行時(shí),bzip壓縮比例達(dá)到11,gzip壓縮比例達(dá)到9

壓縮算法比較圖3.png

由上圖知,當(dāng)壓縮行數(shù)為150時(shí),gzip壓縮比例為10并收斂,而bzip壓縮比例在行數(shù)為500時(shí)達(dá)到18(行數(shù)為1000時(shí)壓縮比例為20,此處不畫(huà)出)

各算法壓縮行數(shù)與壓縮時(shí)間的比較
壓縮時(shí)間比較.png

由上圖知,除bzip外,其余算法壓縮時(shí)間變化不大,且遠(yuǎn)下于bzip,bzip算法隨著壓縮行數(shù)增加,壓縮時(shí)間減少但仍然高于gzip

各算法壓縮行數(shù)與壓縮性?xún)r(jià)比(性?xún)r(jià)比:壓縮時(shí)間/壓縮比例),性?xún)r(jià)比越低越好
壓縮性?xún)r(jià)比.png
壓縮性?xún)r(jià)比圖2.png

根據(jù)數(shù)據(jù)以及以上兩圖,gzip的壓縮性?xún)r(jià)比最好,bzip隨著壓縮行數(shù)增加,性?xún)r(jià)比提高,但仍比gzip差

通過(guò)上面比較可知,

壓縮能力Bzip > Gzip ≈ Snappy ≈ Lz4 ≈ Lzo
耗費(fèi)時(shí)間 Bzip > Gzip ≈ Snappy ≈ Lz4 ≈ Lzo
壓縮性?xún)r(jià)比 Gzip > Snappy ≈Lz4 ≈ Lzo >Bzip

使用更好的數(shù)據(jù)類(lèi)型再進(jìn)行一次比較(只比較Snappy、Bzip、Gzip)

壓縮行數(shù)與壓縮比例的比較
更好數(shù)據(jù)類(lèi)型壓縮算法(比例).png

由上圖可知,bzip壓縮比例最好,在500行時(shí)達(dá)到5(不會(huì)再變化),gzip次之,在30行時(shí)達(dá)到3并收斂

壓縮行數(shù)與壓縮時(shí)間
更好數(shù)據(jù)類(lèi)型壓縮時(shí)間.png

由上圖可知,bzip壓縮耗時(shí)最多,并隨著壓縮行數(shù)增加而減少,但仍高于gzip

壓縮行數(shù)與壓縮性?xún)r(jià)比
更好數(shù)據(jù)類(lèi)型性?xún)r(jià)比.png

由上圖可知,gzip與snappy壓縮性?xún)r(jià)比相近,而bzip壓縮性?xún)r(jià)比在行數(shù)達(dá)到150時(shí)接近bzip并收斂

總結(jié),當(dāng)使用Double類(lèi)型時(shí),因?yàn)樵S多孔空間是浪費(fèi)或者重復(fù)的,所以壓縮比例可以達(dá)到很高,其中g(shù)zip壓縮性?xún)r(jià)比最好,但bzip可達(dá)到20的比例

當(dāng)使用更好的數(shù)據(jù)類(lèi)型時(shí),壓縮比例教差,其中g(shù)zip壓縮性?xún)r(jià)比最好,但bzip隨著行數(shù)增加,壓縮性?xún)r(jià)比也會(huì)提高

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 各算法壓縮行數(shù)與壓縮比例的比較 聲明 壓縮對(duì)象是一個(gè)大小為1.7M的csv文件,總共6829行,每行74列,即一行...
    澤林唄閱讀 1,220評(píng)論 0 0
  • HADOOP與HDFS數(shù)據(jù)壓縮格式 1、cloudera 數(shù)據(jù)壓縮的一般準(zhǔn)則 一般準(zhǔn)則 是否壓縮數(shù)據(jù)以及使用何種壓...
    VentLam閱讀 8,037評(píng)論 0 8
  • 單機(jī)存儲(chǔ)引擎就是哈希表、B樹(shù)等數(shù)據(jù)結(jié)構(gòu)在機(jī)械磁盤(pán)、SSD等持久化介質(zhì)上的實(shí)現(xiàn)。單機(jī)存儲(chǔ)系統(tǒng)是單機(jī)存儲(chǔ)引擎的一種封裝...
    olostin閱讀 2,931評(píng)論 0 5
  • 為什么要整理一下Linux下的打包和壓縮工具呢?原因很簡(jiǎn)單,因?yàn)橛龅絾?wèn)題了:游戲服務(wù)器可執(zhí)行文件、配置和各種資源文...
    davidpp閱讀 10,204評(píng)論 0 18
  • 當(dāng)大片連續(xù)區(qū)域進(jìn)行數(shù)據(jù)存儲(chǔ)并且存儲(chǔ)區(qū)域中數(shù)據(jù)重復(fù)性高的狀況下,數(shù)據(jù)適合進(jìn)行壓縮。數(shù)組或者對(duì)象序列化后的數(shù)據(jù)塊可以考...
    堯字節(jié)閱讀 2,103評(píng)論 0 1

友情鏈接更多精彩內(nèi)容