這個(gè)時(shí)代,一個(gè)企業(yè)家,出去聊天都是左手大數(shù)據(jù),右手云計(jì)算,不懂這些的很多圈子都融入不進(jìn)去吧,更不談是普通人了吧,一個(gè)街邊賣菜的都能說(shuō)幾句大數(shù)據(jù),時(shí)代的進(jìn)步就是大抵是這樣吧,一些新的理念上來(lái)了,大家懂或是不懂,都接受了,然后慢慢更多這樣的話題,說(shuō)著說(shuō)著,就會(huì)有些理念的碰撞,然后不停的迭代,好了,慢慢形成了一個(gè)金字塔,有些特別懂的成了專家,帶動(dòng)一個(gè)行業(yè)的發(fā)展。
誠(chéng)然,大數(shù)據(jù)時(shí)代,不管你你喜不喜歡,它就是來(lái)了。不用擔(dān)心他會(huì)給你帶來(lái)什么惡劣的影響,因?yàn)槿硕际勤吚芎Φ?,所謂制度,就是約束事情往好的方向發(fā)展,因而,慢慢發(fā)展就有相應(yīng)的制度跟上。
大數(shù)據(jù)背后的底層算法是什么,數(shù)據(jù)分析。簡(jiǎn)單的來(lái)說(shuō),就是一堆數(shù)據(jù)放在你面前,你如何去找到其中的規(guī)律,進(jìn)而對(duì)這件事產(chǎn)生影響。
如何去做數(shù)據(jù)分析呢?分為以下四步
- 定義分析目標(biāo):首先分析前得知道你要分析的目標(biāo)是什么,是分析某個(gè)參數(shù)的分布規(guī)律還是分析兩個(gè)參數(shù)之間的關(guān)聯(lián)性。不能盲目分析
- 采集數(shù)據(jù):不管是線上的爬蟲(chóng)還是工廠里一些計(jì)量數(shù)據(jù),手工報(bào)告的數(shù)據(jù),我們第二部就是要進(jìn)行數(shù)據(jù)的采集,這里要注意有個(gè)一手信息的概念,即我們采集的信息要是一手的,未經(jīng)過(guò)轉(zhuǎn)化的,比如我們?cè)谧龉S內(nèi)數(shù)據(jù)分析的時(shí)候,就會(huì)盡量避免選擇一些手工數(shù)據(jù)
- 數(shù)據(jù)整理:收集好的數(shù)據(jù),要做好整理,比如去除異常值,修改空值等,還有一些分類、轉(zhuǎn)化的工作要做,這一步也是為整個(gè)過(guò)程中最復(fù)雜,最讓人頭疼的一步,因?yàn)橥ǔ5臅r(shí)候數(shù)據(jù)不是那么格式規(guī)范,結(jié)構(gòu)清晰,因此需要花大量的時(shí)間進(jìn)行數(shù)據(jù)的整理工作。因此學(xué)一些編程還是比較重要的,比如python,在數(shù)據(jù)清洗時(shí)就很友好。
- 數(shù)據(jù)分析:這一個(gè)基本時(shí)水到渠成的事,一般數(shù)據(jù)整理好了,用一些工具就能直接看出來(lái)了,比如通常使用直方圖看單變量分布,用折線圖看趨勢(shì),用散點(diǎn)圖看兩個(gè)變量之間的關(guān)系
- 展示:我們分析出來(lái)的結(jié)果要展示出來(lái)才有意義,才能使實(shí)際事物發(fā)生變化,這里有個(gè)原則,叫字不如表,表不如圖。
這些就是我們做數(shù)據(jù)分析的過(guò)程,數(shù)據(jù)分析也會(huì)是將來(lái)很多工作的必備技能,未來(lái)已來(lái),擁抱其。