先從概念上來說,大數據是什么?其實數據處理從人類誕生時期就有了,古人結繩記事就是基本的統計,統計自己吃了幾頓飯打了幾次獵等等;再往近說,皇帝每晚翻嬪妃的牌子也是數據處理,在翻牌子之前,要從一大堆牌子里分析“方便”、“熱度高”、“新鮮度”等指標;更近的說,數據倉庫早在大數據這個詞出現前就已經成熟發展了好幾十年了。所以說,大數據并不新鮮,只是某些技術如Hadoop、MR、Storm、Spark發展到一定階段,順應這些技術炒出來的概念,但是這些概念都基于一個基本的理念“開源”,這個理念是之前任何階段都沒有過,可以節省費用提高效率,所以大家才都往這個行業里扔火柴(話說現在很多人跟風亂吵,個人認為也不是壞事)。
誤區一:只有搞大數據技術開發的,才是真正“圈內人”。
筆者曾經參加過若干會議,70%是偏技術的,在場的都是國內各個數據相關項目經理和技術帶頭人,大家討論的話題都是在升級CDH版本的時候有什么問題,在處理Hive作業的時候哪種方式更好,在Storm、Kafka匹配時如何效率更高,在Spark應用時內存如何釋放這些問題。參會者都一個態度:不懂大數據技術的人沒資格評論大數據,您要不懂Hadoop 2.0中的資源配置,不懂Spark在內存的駐留時間調優,不懂Kafka采集就別參加這個會!對了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?
在這里我想說,技術的進步都是由業務驅動的,某寶去了IOE才能叫大數據嗎,我作為一個聾啞人按摩師用結繩記事完成了對于不同體型的人,用什么按摩手法進行全流程治療,就不叫大數據分析了嗎?技術發展到什么程度,只有一小部分是由科學家追求極致的精神驅動,大部分原因是因為業務發展到一定程度,要求技術必須做出進步才能達成目標的。