巨量資料:整體大於部分的總和

大數據博客來OKAPI2013 年六月選書大數據》推薦文)

如果要用一句話來說明巨量資料(big data)的價值,那就是「整體大於部分的總和」。單獨看來覺得瑣碎平凡的資料,匯總起來經過各種演算法的分析,可以展現從資料的任一部分都看不出來的高價值面貌。

先舉個不巨量、但發生在你自己身上的例子:知覺。在下圖中,你可以約略看到一個圓。但是當你單獨檢視那三個棕色的區域,你是看不到圓形的。那個圓,只在整體的層次可以看到。

Gestalt

再舉個真正巨量、也發生在你自己身上的例子:人腦。人腦由一百億個神經元與一百兆個連結組成。每個神經元就做一件簡單的事:激發或不激發。一百億個簡單的 0 與 1 狀態由一百兆個連結組織起來,展現出各種複雜的認知與情感能力。這些能力是在個別神經元或連結上看不到的。

巨量資料的應用也展現出同樣的特性。利用現代資訊技術將單獨的資料點匯總成為規模超大的資料庫,再藉由人工智慧演算法的分析,讓人們可以發現只能在整體層次看到的規律性、相關性與改變趨勢。

這樣的預測力不會只存在於整體層次。只要透過設計,還可以回到個體層次,帶來更能夠滿足人們需求的產品、服務、環境與政策,改善使用者經驗,提升人們的生活品質。

如果你想搞懂什麼是巨量資料,《大數據》是很好的入門書。第一章快速介紹現況。第二到四章談方法學的典範轉移:從研究樣本到研究母體,從執著資料品質到擁抱不確定性,從追求因果關係到充分利用相關性。第五到七章談的是研究過程,著重巨量資料的基礎建設、運用方式與價值鏈。第八到十章則分別談風險、管控與未來。

美中不足之處是分析巨量資料的演算法在這本書中還是個黑箱。我學過人工智慧,也做過語料庫語言學與自然語言處理的研究,有些地方大約可以猜測是怎麼分析的。但如果作者能以一兩個例子解說能夠做到這些了不起的事情的演算法有什麼特性,會更滿足我的好奇心,也更能促進一般讀者的理解。

最後,回到你的身上。如果你能把一生中每分每秒所聽所見所做鉅細靡遺記錄下來,也是一種巨量資料。你的大腦做不到(記憶瑣碎且無關聯的細節不是大腦的強項),但科技做得到。以現代的科技來看,儲存空間不是大問題。關鍵同樣在分析的方式。

七十九歲的微軟研究員 Gordon Bell 就把他長達十餘年的親身實驗經驗寫成《數位記憶革命》一書,包括記錄與分析的工具,算是個人巨量資料的開端。相信再過不久,每個人都能擁有完整的數位記憶,而分析這些巨量資料則可以幫助我們更了解自己是一個什麼樣的人,非常可能比我們自以為了解的更準確。


Comments are closed.