最近想替東家找一個靠譜的倉庫,用來把業(yè)務上跑出來的數(shù)據(jù)匯聚起來,做一些業(yè)務洞察。先前租用的clickhouse,據(jù)說只存了幾個G的數(shù)據(jù),卻連續(xù)幾天出現(xiàn)OOM,只能重啟實例續(xù)命。
經(jīng)過一搜索,看到兩則關于TPC數(shù)據(jù)庫公開測試集的報導,一則是ali屠榜,一則是databrick挫敗ali。以下是個人的一番探究:
TPC何方神圣?
TPC:事務處理性能委員會( Transaction Processing Performance Council ),是由數(shù)10家會員公司創(chuàng)建的非盈利組織,總部設在美國。
官方網(wǎng)站是https://www.tpc.org/,從域名可以看出,這是個協(xié)會組織,不是商業(yè)機構。從其外觀風格也可以看出,已經(jīng)是舊時王謝堂前。
榜單靠譜嗎?
應該說有一定的代表性,畢竟數(shù)據(jù)集和測試方法是公開的,有本事的都可以來跑分。另外,專門設了個性價比的指標,驅(qū)逐了堆硬件狂魔。
當然,有些世外高人根本不屑于上臺比武,也在情理之中。
- 打個比方:
在小型機(minicomputer)構成企業(yè)用戶的主要基礎設施的年代,如果要標榜自家服務器的強悍實力,一般就會列舉自己的TPCC成績。相當于:不服跑個分時,這就是大家認可的跑分標準。

-
都有哪些玩家?
陳容還是相當豪橫的,組織成員名單在十年前應該是歐美的天下,比如oracle、IBM、DELL。當然還有美國的……富士、日立。如今華為、阿里、信通院、清華也入群了。
換句話說,十年前是IOE的天下,如:IBM、Oracle、EMC(被DELL收購了);信創(chuàng)時代,阿里們?nèi)OE,順手把紅旗插上了這個山頭。
如今TPC的成員
領先多少?

阿里云上給出詳細的測評環(huán)境、跑分結(jié)果,可以看這個鏈接:
https://help.aliyun.com/document_detail/155980.html
結(jié)論:處理百億條甚至更多量級的數(shù)據(jù)時實現(xiàn)毫秒級計算。
配置旗鼓相當
7節(jié)點、72核、440G內(nèi)存

基于標準測試集的測試
這部分拼的是SQL查詢。把aliyun官方的結(jié)果表格簡化一下,只保留總時間是這樣的:
| 測試樣本 | AnalyticDB MySQL版 | Presto | 執(zhí)行時間增加倍數(shù) | Spark | 執(zhí)行時間增加倍數(shù) |
|---|---|---|---|---|---|
| 總時長(s) | 260.8 | 614.6 | 1.357 | 1243.93 | 3.77 |
可以認為名為AnalyticDB的數(shù)據(jù)庫,速度是presto、spark的1.357倍、3.77倍。
總體還是領先了一個身位吧。
講沒講武德?
對于測試過程的公平性,有兩點疑慮,我也試圖求證了一下:
(1)有沒有特殊的優(yōu)化存在?比方說某些索引、分片策略可以使查詢速度出現(xiàn)巨大的差異;有時候PK對象上缺少必要的調(diào)優(yōu),也可能導致其性能塌方??次闹袑Υ擞姓f明:AnalyticDB 無優(yōu)化、presto和spark都有部分優(yōu)化(但我感覺在配置中,內(nèi)存可能未被充分應用,未仔細推敲)。
(2)PK對象版本夠新嗎?
看了一下,presto只有0.274(https://github.com/prestodb/presto),不清楚報告里提到的Presto3.3.1是怎么獲得的。
而對于spark所用的版本,寫了兩個presto,我相信筆誤了,后一個2.4.5應該是指的spark的版本。但“本次性能測試時間為2020年12月”,為什么不用當時已經(jīng)發(fā)布的spark3.0.1或者spark2.4.7呢?

貴不貴?
-
價目表算有點復雜,這很有某云的風格
image.png
官方舉例:
包年包月模式下,地域選擇華東1(杭州),購買彈性模式集群版(新版)。根據(jù)業(yè)務情況估算出需要的計算資源為64核256 GB(相當于4個計算節(jié)點,每個節(jié)點為16核64 GB),共計需要使用6個月。
預付費的基礎計算資源費用:2717.5元/節(jié)點/月×4個節(jié)點×6個月=65220元。
這個配置,低于打榜的配置,一年12萬。如果升級到跑分打榜的配置,一年應該20左右吧(沒有具體核過)。
寫在最后
最初看到榜單被屠,內(nèi)心非常振奮:洋廠在數(shù)據(jù)庫領域一手遮天的時代,俱往矣!
冷靜下來看,橫掃的對象可能已經(jīng)有點老朽,勝之不武。
最遺憾的是,這性價比對于一眾小破廠來說,還是有點雞肋。

