在線模型部署選型

業(yè)界已有的解決方法

模型部署.png

各種方法分析

RServer

基本上我們用Rserver方式,針對一次1000條或者更少請求的預(yù)測,可以控制95%的結(jié)果在100ms內(nèi)返回結(jié)果,100ms可以滿足工程上的實踐要求。更大的數(shù)據(jù)量,比如10000/次,100000/次的預(yù)測,我們目前評估下來滿足不了100ms的要求,建議分批進行調(diào)用或者采用多線程請求的方式來實現(xiàn)。

機器學(xué)習(xí)算法線上部署方法 https://zhuanlan.zhihu.com/p/23382412

PFA

PFA太新,開源支持太少

PMML

PCA,歸一化可以封裝成preprocess轉(zhuǎn)換成PMML

特征處理支持比較少

mleap

優(yōu)點:使用Spark和Scikit-learn, 如果不希望在API堆棧中使用Python,很難將ML /數(shù)據(jù) pipeline模型部署到生產(chǎn)API服務(wù)。 MLeap提供簡單的接口來執(zhí)行整個ML pipeline,從特征變換到分類,回歸,聚類算法和神經(jīng)網(wǎng)絡(luò)。

http://mleap-docs.combust.ml/core-concepts/mleap-bundles.html#bundle-structure

H2O

H2O.AI ,H2O.ai,提供了MOJO和POJO的方式;

H2O是一個完全開源的分布式內(nèi)存機器學(xué)習(xí)平臺,具有線性可擴展性。 H2O支持最廣泛使用的統(tǒng)計和機器學(xué)習(xí)算法,包括梯度增強機器,廣義線性模型,深度學(xué)習(xí)等。 H2O還具有業(yè)界領(lǐng)先的AutoML功能,可自動運行所有算法及其超參數(shù),以生成最佳模型的排行榜。 H2O平臺被全球14,000多家組織使用,并且在R&Python社區(qū)中非常受歡迎。

優(yōu)點:使用Java(POJO)和二進制格式(MOJO)快速輕松地將模型部署到生產(chǎn)中。滿足了pipeline部署到生產(chǎn)環(huán)境

缺點:離線訓(xùn)練需要基于H2O的分布式系統(tǒng)、學(xué)習(xí)維護成本比較高。

preditionIO

preditionIO,Welcome to Apache PredictionIO?!,可以基于spark和hbase來提供相應(yīng)的API服務(wù),還是很方便的

缺點:與Apache Spark,MLlib,HBase,Spray和Elasticsearch捆綁在一起,不能單獨部署,不夠靈活

結(jié)合我們現(xiàn)在的技術(shù)棧,綜合下來采用MLeap是個不錯的選擇,相對于我們現(xiàn)在的框架優(yōu)點明顯,隨后對MLeap進行一些基礎(chǔ)測試。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容