對(duì)于大數(shù)據(jù)的一些思考

不知道大家會(huì)不會(huì)覺得大數(shù)據(jù)這個(gè)詞越來越普遍,各種平臺(tái),企業(yè)營(yíng)銷上幾乎都會(huì)談及大數(shù)據(jù)。因此到底什么是大數(shù)據(jù),大數(shù)據(jù)如何應(yīng)用以及有何弊端我覺得特別值得我們了解了解。因此最近我看了兩本大數(shù)據(jù)相關(guān)的書,一本是《大數(shù)據(jù)時(shí)代》一本是《大數(shù)據(jù)營(yíng)銷》。就此我想談?wù)勎业母惺堋?/p>

數(shù)據(jù)安全方面:

如今對(duì)于數(shù)據(jù)保護(hù)的政策方面還不完善。很多軟件、平臺(tái)對(duì)于數(shù)據(jù)的使用方面主要只是在第一次使用前作為告知,當(dāng)你許可后什么時(shí)候他們?cè)诤笈_(tái)使用便不知曉。因此,在日常生活中對(duì)于自己的一些隱私數(shù)據(jù)要有一定的保護(hù)意識(shí),特別是自己長(zhǎng)用的手機(jī)號(hào)碼,以及一些證件號(hào)。不要隨隨便便就告訴他人或者是放到網(wǎng)絡(luò)中。如果有條件,也可以準(zhǔn)備多個(gè)手機(jī)號(hào)碼,一個(gè)設(shè)為自己平常用的號(hào)碼,一個(gè)用來專門和各種平臺(tái)綁定以及收聽中介等的電話。


大數(shù)據(jù)學(xué)習(xí)方面:

數(shù)據(jù)工具:SQL,python, ETL

商業(yè)智能工具:Tableau, Cognos

數(shù)據(jù)挖掘工具:sas,? spss, matlab

大數(shù)據(jù)工具:R,? spark, Hadoop

我覺得至少粗略掌握幾種數(shù)據(jù)工具,如sql,python 和tableau就是不錯(cuò)的選擇


大數(shù)據(jù)思維:

注重相關(guān)關(guān)系

通過數(shù)據(jù)之間的相關(guān)關(guān)系來研究導(dǎo)致這個(gè)相關(guān)關(guān)系的原因,并直接把這個(gè)相關(guān)關(guān)系應(yīng)用起來。就像是沃爾瑪發(fā)現(xiàn)消費(fèi)者購(gòu)買嬰兒尿褲的同時(shí)還會(huì)購(gòu)買啤酒。因此他們便把尿褲和啤酒放在一起售賣,結(jié)果銷量很好。

注重效率,而不是精確度

這就好比是一個(gè)產(chǎn)品,兩家公司都在做,那么哪一家公司能夠率先做出來,占領(lǐng)市場(chǎng),哪家公司就先把握住了先機(jī)。至于精確度上,可以后面慢慢去改善。

在數(shù)據(jù)的獲取上,沒有必要保證所有數(shù)據(jù)來源的精確度,需要把重點(diǎn)放在獲取數(shù)據(jù)的效率,并迅速用所獲取的數(shù)據(jù)預(yù)測(cè)出或者是分析出一些問題和現(xiàn)象。

要全體不要抽樣

隨著數(shù)據(jù)的普及,以及獲取的容易度在不斷降低。大多數(shù)公司已經(jīng)不滿足與抽樣數(shù)據(jù),畢竟抽樣數(shù)據(jù)涵蓋了太多的bias(偏見)。因此,如今的數(shù)據(jù)獲取更多是一次性使用所有數(shù)據(jù),在排除有問題的數(shù)據(jù)后進(jìn)行分析。

數(shù)據(jù)創(chuàng)意比數(shù)據(jù)處理能力更值錢

數(shù)據(jù)創(chuàng)意主要是指如何從現(xiàn)有數(shù)據(jù)中創(chuàng)造一些新的方法來挖掘信息。單單會(huì)數(shù)據(jù)處理,就只是一個(gè)普通的操作工,雖然也可以用常用的方法模板,分析出不少內(nèi)容,但這個(gè)的門檻還是較低的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容