不知道大家會(huì)不會(huì)覺得大數(shù)據(jù)這個(gè)詞越來越普遍,各種平臺(tái),企業(yè)營(yíng)銷上幾乎都會(huì)談及大數(shù)據(jù)。因此到底什么是大數(shù)據(jù),大數(shù)據(jù)如何應(yīng)用以及有何弊端我覺得特別值得我們了解了解。因此最近我看了兩本大數(shù)據(jù)相關(guān)的書,一本是《大數(shù)據(jù)時(shí)代》一本是《大數(shù)據(jù)營(yíng)銷》。就此我想談?wù)勎业母惺堋?/p>
數(shù)據(jù)安全方面:
如今對(duì)于數(shù)據(jù)保護(hù)的政策方面還不完善。很多軟件、平臺(tái)對(duì)于數(shù)據(jù)的使用方面主要只是在第一次使用前作為告知,當(dāng)你許可后什么時(shí)候他們?cè)诤笈_(tái)使用便不知曉。因此,在日常生活中對(duì)于自己的一些隱私數(shù)據(jù)要有一定的保護(hù)意識(shí),特別是自己長(zhǎng)用的手機(jī)號(hào)碼,以及一些證件號(hào)。不要隨隨便便就告訴他人或者是放到網(wǎng)絡(luò)中。如果有條件,也可以準(zhǔn)備多個(gè)手機(jī)號(hào)碼,一個(gè)設(shè)為自己平常用的號(hào)碼,一個(gè)用來專門和各種平臺(tái)綁定以及收聽中介等的電話。
大數(shù)據(jù)學(xué)習(xí)方面:
數(shù)據(jù)工具:SQL,python, ETL
商業(yè)智能工具:Tableau, Cognos
數(shù)據(jù)挖掘工具:sas,? spss, matlab
大數(shù)據(jù)工具:R,? spark, Hadoop
我覺得至少粗略掌握幾種數(shù)據(jù)工具,如sql,python 和tableau就是不錯(cuò)的選擇
大數(shù)據(jù)思維:
注重相關(guān)關(guān)系
通過數(shù)據(jù)之間的相關(guān)關(guān)系來研究導(dǎo)致這個(gè)相關(guān)關(guān)系的原因,并直接把這個(gè)相關(guān)關(guān)系應(yīng)用起來。就像是沃爾瑪發(fā)現(xiàn)消費(fèi)者購(gòu)買嬰兒尿褲的同時(shí)還會(huì)購(gòu)買啤酒。因此他們便把尿褲和啤酒放在一起售賣,結(jié)果銷量很好。
注重效率,而不是精確度
這就好比是一個(gè)產(chǎn)品,兩家公司都在做,那么哪一家公司能夠率先做出來,占領(lǐng)市場(chǎng),哪家公司就先把握住了先機(jī)。至于精確度上,可以后面慢慢去改善。
在數(shù)據(jù)的獲取上,沒有必要保證所有數(shù)據(jù)來源的精確度,需要把重點(diǎn)放在獲取數(shù)據(jù)的效率,并迅速用所獲取的數(shù)據(jù)預(yù)測(cè)出或者是分析出一些問題和現(xiàn)象。
要全體不要抽樣
隨著數(shù)據(jù)的普及,以及獲取的容易度在不斷降低。大多數(shù)公司已經(jīng)不滿足與抽樣數(shù)據(jù),畢竟抽樣數(shù)據(jù)涵蓋了太多的bias(偏見)。因此,如今的數(shù)據(jù)獲取更多是一次性使用所有數(shù)據(jù),在排除有問題的數(shù)據(jù)后進(jìn)行分析。
數(shù)據(jù)創(chuàng)意比數(shù)據(jù)處理能力更值錢
數(shù)據(jù)創(chuàng)意主要是指如何從現(xiàn)有數(shù)據(jù)中創(chuàng)造一些新的方法來挖掘信息。單單會(huì)數(shù)據(jù)處理,就只是一個(gè)普通的操作工,雖然也可以用常用的方法模板,分析出不少內(nèi)容,但這個(gè)的門檻還是較低的。