我感受到企業的"大數據"迷思

1.管理階層最近幾年被"大數據"迷的暈頭轉向,認為只要公司裡面資料很多很多就是大數據,但卻不知道跟某些產業的資料量比起來簡直是小巫見大巫。

2.高層一直被啤酒跟尿布的陳年破事(我相信做Data Mining的鄉民都聽得很煩了吧)洗腦,認為只要有資料就可以做出一樣的結果,期待分析人員開始分析之後也可以有這麼驚喜的發現。

3.不去管是不是真的需要一個分散式運算的架構,大家都有我們公司怎麼可以沒有,來人啊,建一個! 我明天要去跟隔壁王董說我們也大數據了。

4.只要提到數據二個字通通改成大數據

5.建立跟管理分散式運算的架構是一批人,數據分析應該是另外一批人,但是要養一個可以架系統的已經很貴了,於是就順便叫他也要會Data Mining跟分析

6.會分析的人找到了! 可是我們要分析什麼? 不好意思啊,你自己研究,我要啤酒跟尿布那種效果(又來了)

7.挖掘出有商業應用的資訊需要時間,老闆通常等不及,或是團隊發現的事實是早就知道的Business know-how (老闆承受得了這種打擊嗎)

8.我認為Data Mining的重點在於最後千垂百鍊的模型,並且已經開發成一個運算核心,這個模型也要時常重新訓練,但是台灣老闆好像不覺得這是重點,分析團隊大部份做出的是一個封測的結果,像寫論文那樣,但是然後呢?

9.發現很多公司認為買了BI = 有大數據

10.市場上號稱自己會Data Mining的人素質參差不齊,我認為自己還要再努力,遇過做DM已經好幾年的 但連分群跟分類都搞不清楚,還很肯定的看著我說 分群跟分類是一樣的,我至今感到很震驚 ,然後不管用什麼演算法只要二個變數相關性很高就說有共線性的問題,而且不止一二位 我認為這是統計系出身的人應該要有的基本觀念 如果以後有機會面試DM的伙伴一定問這二個問題先

留言

張貼留言

這個網誌中的熱門文章

R中Try and Catch的寫法

如何將DSM(NAS)變成Mail Server

如何安裝.tgz的檔案至Ubuntu