最近在研究大數據


大數據行業中一直存在著一個悖論:

最重要的往往被認為是最簡單的,於是最容易被忽略

而這就是數據清理無論是各類教材還是專業培訓給出的技能樹

還是高大上諮詢公司的專業顧問或者公司內部的

資深大數據專家給出的戰略規劃和專業建議

都會忽略數據清理這一環節(有些公司真的很誇張,只相信管顧的話)

 

這就有點像做一頓大餐的大廚,不管菜譜,搭配

原料採集和粗加工等一系列過程,只負責將設計好,搭配好

採購好和處理好的原材料放進鍋裡炒那麼幾下

不是說最後煎炒那幾下不重要,而是說煎炒前面的各種過程太重要了

 

由此極端得認為,一個大數據項目

應該花超過50%以上的時間和精力來做好數據清理數據清理包括:

臟數據清洗,數據結構化,數據定義,數據統計方法確定以及未來的擴展等等

甚至更極端的觀點,會把是否將數據清理作為核心工作當成了重要判斷標準

評估某人在大數據方面的經驗和水平

 

因為凡是真正經歷過幾場大數據實戰的人都會明白

把不同時間節點,不同各種維度以及不同來源的數據全部按照統一規則結構化

還要拼接在一起供各種同比環比以及更高階的分析

最後還要兼容未來數據的增長,是多麼一件有挑戰的事情

如果不信,可以看看海外名校那些博士的日常工作

只要涉及到實證研究的,不少時間就是在收集數據和清理數據

本文章發表於:科技

加入28

鼓勵作者

目前持有 Blink Coin: Loading..

選擇禮物


愛心

(Coin 10)

幫高調

(Coin 20)

咖啡

(Coin 30)

掌聲鼓勵

(Coin 40)

崇拜眼神

(Coin 50)

驚呆了

(Coin 60)

神人4ni

(Coin 70)

花束

(Coin 100)

鑽石

(Coin 300)

紅寶石

(Coin 500)

藍寶石

(Coin 1000)

黃寶石

(Coin 3000)


送出鼓勵



發表匿名文章不會出現你的大頭圖與名稱,你可暢所欲言,但文章內容務必遵守「佈告欄使用規範」!


回應

送出回應


11 則回應

匿名

2018-02-24 #1

鼓勵了作者

0

波本

2018-02-24 #2

中肯

0

發霉的青春

2018-02-24 #3

0

匿名

2018-02-24 #4

同感

0

匿名

2018-02-25 #5

鼓勵了作者

0

匿名

2018-02-25 #6

鼓勵了作者

0

匿名

2018-02-25 #7

鼓勵了作者

0

匿名

2018-02-26 #8

鼓勵了作者

0

匿名

2018-02-27 #9

鼓勵了作者

0

匿名

2018-03-01 #10

鼓勵了作者

0

匿名

2018-03-04 #11

鼓勵了作者

0

想回應這篇文章嗎?也想發表文章嗎?
馬上登入來發表文章、追蹤作者、收藏文章或回應文章吧!

註冊 登入