數(shù)據(jù)庫獨(dú)角獸SingleStore:沒有HTAP,機(jī)器學(xué)習(xí)和人工智能都是不切實(shí)際的

SingleStore(前身 MemSQL)是一個為數(shù)據(jù)密集型應(yīng)用設(shè)計(jì)的云原生數(shù)據(jù)庫。它是一個分布式的關(guān)系型 SQL 數(shù)據(jù)庫管理系統(tǒng)(RDBMS),具有 ANSI SQL 支持,它以數(shù)據(jù)攝入、交易處理和查詢處理的速度而聞名。SingleStore 主要存儲關(guān)系型數(shù)據(jù),但也可以存儲 JSON 數(shù)據(jù)、圖形數(shù)據(jù)和時間序列數(shù)據(jù)。它支持混合工作負(fù)載,也就是我們常說的 HTAP ,以及更傳統(tǒng)的 OLTP 和 OLAP 用例。對于查詢,它將結(jié)構(gòu)化查詢語言(SQL)編譯成機(jī)器代碼。SingleStore 數(shù)據(jù)庫引擎可以在各種 Linux 環(huán)境中運(yùn)行,包括企業(yè)內(nèi)部安裝(on-premises)、公共和私有云供應(yīng)商、通過 Kubernetes 運(yùn)營商在容器中運(yùn)行,或者使用 SingleStore 自有的托管云服務(wù)。

今天我們主要來聊一聊數(shù)據(jù)庫獨(dú)角獸公司 SingleStore 對 HTAP 的認(rèn)知。

SingleStore,HTAP 界的融資寵兒

說起 SingleStore,一些同學(xué)可能不太了解,但是提到 MemSQL,相信研究過HTAP 數(shù)據(jù)庫發(fā)展脈絡(luò)的同學(xué)就很熟悉了,也可以回顧一下這篇文章《深度干貨!一篇Paper帶您讀懂HTAP》,我們在第一節(jié)中介紹了 HTAP 數(shù)據(jù)庫的發(fā)展歷史,其中 MemSQL 就是最早的一波提出行列混存+內(nèi)存計(jì)算的數(shù)據(jù)庫,也是在 2014 年要發(fā)力 HTAP 的,恰巧和 Gartner 正式提出 HTAP 概念是同一年。不過后來在 2020 年 10 月,MemSQL 正式宣布改名為 SingleStore 了。

關(guān)于改名的原因,官方是說是為了更好地描述組織的廣泛價值主張。官方表示,盡管 MemSQL 在數(shù)據(jù)架構(gòu)師和性能工程師中廣為人知,但該公司的旗艦數(shù)據(jù)管理產(chǎn)品已擴(kuò)展到包括開發(fā)人員功能,所以 MemSQL 已不能再反映他們當(dāng)前功能和產(chǎn)品愿景的廣度和深度。

其進(jìn)行品牌重塑的目的在于,向外界反映 MemSQL 不僅僅是一個內(nèi)存數(shù)據(jù)庫,而是一個可以實(shí)現(xiàn)企業(yè)所有數(shù)據(jù)的平臺。SingleStore 將為交易和分析提供一個數(shù)據(jù)平臺,能夠處理結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

SingleStore 首席產(chǎn)品官 Jordan Jigani 還透露了團(tuán)隊(duì)的新愿景,即計(jì)劃提供對位于 SingleStore 以外任何地方的數(shù)據(jù)的訪問權(quán)限。這項(xiàng)新功能將為跨多云環(huán)境的數(shù)據(jù)提供一個全局命名空間,使 SingleStore 可以提供一個 API,無論數(shù)據(jù)位于何處,都可以通過該 API 對數(shù)據(jù)進(jìn)行操作。用戶可以從擁有 SingleStore 計(jì)算群集的任何位置訪問 SingleStore 數(shù)據(jù)庫,同時遵守訪問權(quán)限和主權(quán)限制。

不得不說,SingleStore 對市場的敏銳度還是很高的,像 HTAP、云原生、分布式、一體化、平臺化、實(shí)時分析處理、數(shù)據(jù)庫 API 化、DBaas 這些,人家玩得很溜,把這些偉大的愿景拋出去又加上技術(shù)確實(shí)不錯,自然很受資本市場的歡迎,從其融資歷史就可以窺知一二:

融資輪次 融資時間 融資金額($) 領(lǐng)投機(jī)構(gòu)
種子輪 2011 年 7 月 210萬 Y Combinator等
A輪 2013 年 1 月 500萬 DCVC等
B輪 2014 年 1 月 3500萬 Accel等
B+輪 2014 年 9 月 未披露 In-Q-Tel等
C輪 2016 年 4 月 3600萬 Caffeinated Capital 和 REV等
D輪 2018 年 5 月 3000萬 Glynn Capital Management 和 GV等
債務(wù)投資 2020 年 5 月 5000萬 Hercules Capital獨(dú)家
E輪 2020 年 12 月 8000萬 Insight Partners(領(lǐng)投)、Accel、GV、Dell Technologies Capital、Hercules Capital等
F輪 2021 年 9 月 8000萬 Insight Partners等
F+輪 2022 年 7 月 1.16億 Goldman Sachs等
F++輪 2022 年 10 月 3000萬 Goldman Sachs 和 Prosperity7 Ventures等

截止目前,SingleStore 的總?cè)谫Y額達(dá)到 4.12 億美元,估值超過了 13 億美金,當(dāng)然,可能一些經(jīng)常看 VC 圈子的小同學(xué)覺得這個估值對于數(shù)據(jù)庫企業(yè)來說不算特別高,也不是很明白,為啥有這么多投資機(jī)構(gòu)給它投錢,因?yàn)樵跀?shù)據(jù)庫這個賽道上確實(shí)太多卷王了。SingleStore 雖然面臨著與 Imply、Oracle、Snowflake 和 MongoDB 等企業(yè)的競爭,但要知道,SingleStore 現(xiàn)在只有近 400 名員工,卻已經(jīng)擁有大約 300 名客戶,估值還高于 10 億美元,相信明眼人都能看出來,SingleStore 的潛力無限,正如 CMU 的 Andy Pavlo 教授在去年預(yù)測的那樣,這家公司離 IPO 不遠(yuǎn)了。

此外,Gartner 預(yù)測,到 2022 年,75% 的數(shù)據(jù)庫將遷移到云服務(wù)。一項(xiàng)調(diào)查顯示,每年在大數(shù)據(jù)和人工智能計(jì)劃上投資超過 5000 萬美元的公司數(shù)量在 2019 年上升至 33.9%。

如果沒有 HTAP,機(jī)器學(xué)習(xí)和人工智能都是不切實(shí)際的

下面是一篇來自 SingleStore 的博客,推薦給大家閱讀。

HTAP,即混合交易/分析處理,將交易(如更新數(shù)據(jù)庫)與分析(如尋找可能的銷售線索)相結(jié)合。HTAP 數(shù)據(jù)庫在一個數(shù)據(jù)庫中支持這兩種工作負(fù)載,提供速度和簡單性。今天,“云原生 HTAP”的概念很流行,用戶希望 HTAP 數(shù)據(jù)庫能夠與 Kafka、Spark 和其他技術(shù)在云中順利混合和匹配。使用的場景案例包括預(yù)防欺詐、電子商務(wù)的推薦引擎、智能電網(wǎng)和人工智能等等。

HTAP 數(shù)據(jù)庫在某種程度上是為集成流數(shù)據(jù)源(如 Kafka )和用于高級分析、人工智能和機(jī)器學(xué)習(xí)(如 Spark)的消息系統(tǒng)而設(shè)計(jì)的。它們?yōu)槎鄠€分析客戶端提供服務(wù),從輸入SQL查詢的業(yè)務(wù)分析師,到BI工具、應(yīng)用程序和機(jī)器學(xué)習(xí)模型,這些客戶端每秒生成數(shù)十個或數(shù)千個查詢。

HTAP之前--OLTP 和 OLAP 分離

HTAP 將不同類型的數(shù)據(jù)處理組合成一個連貫的整體。這兩種處理方式差別很大。事務(wù)處理(OLTP)——在數(shù)據(jù)庫中添加和更新記錄——對單個記錄操作要求非常高的可靠性,以及準(zhǔn)確性和速度?!案耂andy Brown的當(dāng)前地址”就是事務(wù)性更新的一個例子。

另一方面,分析處理意味著非??焖俚卦谝粋€或多個數(shù)據(jù)庫表中查找單個記錄、多個記錄或一種類型的記錄的總數(shù)?!皫臀艺业剿凶≡诳屏_拉多州并擁有自己房子的訂戶”就是一個分析請求的例子。

第一批有效的數(shù)據(jù)庫是面向事務(wù)的,最初廣泛應(yīng)用于20世紀(jì)70年代和80年代。它們被稱為在線事務(wù)處理(OLTP)系統(tǒng)。OLTP系統(tǒng)經(jīng)過優(yōu)化,可以在低功率、硬盤較小的計(jì)算機(jī)上工作——當(dāng)然,按照今天的標(biāo)準(zhǔn)。唯一的分析是通過打印的報(bào)告,這些報(bào)告可能根據(jù)不同的關(guān)鍵字段進(jìn)行分類排序,比如按州或郵政編碼。

當(dāng)后來加入分析時,事務(wù)系統(tǒng)已經(jīng)很忙了,所以數(shù)據(jù)被復(fù)制到另一臺運(yùn)行不同軟件的計(jì)算機(jī)上。這些數(shù)據(jù)庫稱為在線分析處理(OLAP)數(shù)據(jù)庫。數(shù)據(jù)倉庫和數(shù)據(jù)集市是專門的 OLAP 數(shù)據(jù)庫,存放用于分析的非操作數(shù)據(jù)。

使用多種語言對 OLAP 系統(tǒng)上的數(shù)據(jù)進(jìn)行查詢,這些語言結(jié)合了結(jié)構(gòu)化查詢語言(SQL)。一開始,分析查詢是由個別分析師直接輸入的;最后,使用商業(yè)智能(BI)程序來簡化查詢。到最近,軟件應(yīng)用程序已經(jīng)可以自己生成查詢了,通常以每秒數(shù)千個的速度生成。

這創(chuàng)建了名為提取、轉(zhuǎn)換和加載(Extract、Transform和Load, ETL)的整個過程和規(guī)程,只是為了將數(shù)據(jù)從 OLTP 移動到 OLAP。作為ETL過程的一部分,數(shù)據(jù)所有者可以混合使用他們自己的不同數(shù)據(jù)庫、外部購買的數(shù)據(jù)、社會信號和其他有用的信息。然而,使用三個不同的筒倉意味著OLAP數(shù)據(jù)庫中的數(shù)據(jù)總是過時的--往往是一天到一周的數(shù)據(jù)。

向 HTAP 變遷

OLTP/ETL/OLAP結(jié)構(gòu)今天仍然被廣泛使用。然而,隨著時間的推移,OLAP和OLTP數(shù)據(jù)庫(速度較慢)都獲得了以分布式方式工作的能力。也就是說,單個數(shù)據(jù)表現(xiàn)在可以分布在多臺計(jì)算機(jī)上。

跨多個服務(wù)器分布允許數(shù)據(jù)表變得更大。分布式數(shù)據(jù)表可以隨時提高性能,只需添加更多的服務(wù)器來處理更多的事務(wù)或回復(fù)更多的查詢。一個數(shù)據(jù)庫——一個或多個數(shù)據(jù)表,在重疊的數(shù)據(jù)上提供相關(guān)功能——現(xiàn)在可以在靈活大小的機(jī)器陣列上運(yùn)行,可以在本地運(yùn)行,也可以在云中運(yùn)行。

隨著這些功能的增加,在單個數(shù)據(jù)庫中混合 OLTP 和 OLAP 功能的令人興奮的可能性已經(jīng)實(shí)現(xiàn)。使這成為可能的數(shù)據(jù)庫軟件在 2014 年被 Gartner 命名為混合事務(wù)和分析處理(HTAP)。

這種能力是如此的新,以至于它有許多名稱,包括混合操作分析處理(HOAP)和translytical數(shù)據(jù)庫(它結(jié)合了trans_actions和ana_lytical函數(shù))。HTAP、HOAP 和 translytical 數(shù)據(jù)庫也被描述為執(zhí)行操作分析——“使用SLA的分析”,或者必須提供接近實(shí)時響應(yīng)的分析。Gartner 還提出了增強(qiáng)事務(wù)處理(ATP),它描述了 HTAP 工作負(fù)載的一個子集,包括操作 AI 和機(jī)器學(xué)習(xí)。

HTAP 的優(yōu)勢

HTAP有很多好處。HTAP創(chuàng)建了一個更簡單的體系結(jié)構(gòu),因?yàn)閮煞N不同類型的數(shù)據(jù)庫以及ETL流程都被單個數(shù)據(jù)庫所取代。而且,數(shù)據(jù)拷貝也被消除了。數(shù)據(jù)不是先存儲在OLTP數(shù)據(jù)庫中(用于事務(wù)),然后再被復(fù)制到 OLAP 中(可能是多次復(fù)制,用于分析),而是作為單一來源數(shù)據(jù)駐留在HTAP數(shù)據(jù)庫中(A single source of truth resides in the HTAP database)。

這些根本性的改變帶來了額外的好處:操作要簡單得多,因?yàn)橹挥幸粋€系統(tǒng)在運(yùn)行,而不是幾個。確保單個數(shù)據(jù)庫的安全比在不同系統(tǒng)上進(jìn)行多個數(shù)據(jù)拷貝要容易。而且數(shù)據(jù)可以是新鮮的——一旦數(shù)據(jù)被處理,它也可以用于分析。不再需要等待數(shù)小時或數(shù)天(有時更長時間),也不要再讓數(shù)據(jù)通過 OLTP 和 ETL 才能進(jìn)行分析。

HTAP 可以實(shí)現(xiàn)非常大的成本效益,同時還可以增加相關(guān)的收入和降低成本。架構(gòu)和操作的簡單性大大節(jié)省了成本,更高的性能使現(xiàn)有的創(chuàng)收功能更具生產(chǎn)力,并使新的功能實(shí)現(xiàn)成為可能。

物聯(lián)網(wǎng)(IoT)從HTAP中獲益匪淺。如果你正在運(yùn)行一個智能電網(wǎng),你需要根據(jù)最新的數(shù)據(jù)快速運(yùn)行。分析師、儀表盤和應(yīng)用程序都需要一次性訪問相同的、最新的數(shù)據(jù)。

沒有 HTAP,機(jī)器學(xué)習(xí)和人工智能實(shí)際上是不切實(shí)際的。如果不能從當(dāng)前和歷史數(shù)據(jù)中學(xué)習(xí),那么運(yùn)行機(jī)器學(xué)習(xí)算法就沒有多大意義。沒有人想運(yùn)行一個預(yù)測性維護(hù)程序——假如這個程序告訴你:你公司的油井可能在一周前需要緊急維護(hù),或者昨天有幾個有趣的旅行便宜貨。我相信你該明白,這絲毫沒有意義。

OK,今天的分享就到這里,歡迎大家關(guān)注 StoneDB

StoneDB 2.0 云原生分布式實(shí)時 HTAP 架構(gòu)詳細(xì)設(shè)計(jì)以 RFC 形式持續(xù)進(jìn)行,歡迎大家關(guān)注我們最新進(jìn)展,更歡迎給我們開源協(xié)作的模式和方法提出改進(jìn)意見,一起通過開源的方式共建 StoneDB ~

https://github.com/stoneatom/stonedb/issues/436

  • StoneDB 代碼已完全在 Github 開源:

https://github.com/stoneatom/stonedb

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容