大數據有著無限的發展潛力。讓我們來了解一下什麼是大數據以及它在 2010 年才開始流行的三個原因。


某個時候,我們開始透過各種媒體遇到「大數據」這個陌生的字眼。這些詞流行起來才幾年時間。然而,最近它被媒體過度使用,以至於「利用大數據進行行銷」這樣的說法現在讓我們感到無聊。那麼大數據和資料探勘為何如此受歡迎呢?

大數據字面意思是龐大的資料集。任何可以儲存在儲存媒體中的數據,從簡單的數字到複雜的閉路電視影像,透過將它們聚集在一起形成一個集合,都可以成為大數據,無論其格式如何。也就是說,從數據的形式來看,以前的數據和大數據並沒有什麼差別。然而,如果大數據只是簡單的大數據,那麼在20世紀90年代末和2000年代初,當電腦技術迅速發展時,它應該像現在一樣流行。然而,大數據在2010年代才開始流行的原因有三:

首先,最大的原因是CPU開發範式的轉變。 CPU(中央處理單元)是電腦的大腦,執行計算任務。過去,發展速度如此之快,以至於CPU性能每18個月翻一番的摩爾定律被廣泛接受。然而,2004年,CPU的發展達到了一個被稱為「4GHz牆」的極限。先前,CPU的發展方向是透過增加一個核心(計算單元)中插入的電晶體(計算元件)的數量來提高一個處理單元的速度。然而,這種方法存在嚴重的散熱問題,因為隨著電晶體集成度的增加,每個電晶體的散熱面積減少。 CPU廠商最終沒能解決這個發熱問題。結果,電晶體整合度沒有超過一定水平,一個核心的運行速度保持在4GHz左右。然而,CPU 製造商並沒有增加核心中電晶體的數量,而是找到了其他方法來解決熱量問題。透過開發在CPU內包含多個核心的多核心CPU,找到了新的突破。現有的單核心CPU由一個核心按順序處理多個任務,而多核心CPU透過在多個核心上劃分和並行處理多個任務並同時處理它們來提高處理速度。這些多核心CPU變得越來越流行,同時處理資料的平行運算技術也得到了發展。因此,現在可以更快速、更輕鬆地處理以前由於計算速度限製而無法處理的大量資料。

不僅是多核心CPU的普及,儲存媒體的發展也為開啟大數據時代扮演了很大的角色。對於代表性儲存媒體硬碟來說,資料儲存在稱為盤片的金屬板上。諸如改進的磁記錄整合和用於將多個碟片插入一個硬碟的多核心CPU等技術已經被開發出來。受此影響,儲存容量爆發式成長,2023 年代儲存空間達到 8TB 的產品開始流行,而 90 年代儲存空間僅為 1GB。此外,與相對較慢的硬碟不同,SSD(固態硬碟)等新型高速儲存媒體已經出現。以前因儲存空間不足而無法儲存或即使儲存也因讀寫速度慢而難以處理的大量資料變得更容易利用。

CPU 和儲存媒體的進步使得利用以前無法計算或儲存的大量資料成為可能。然而,今天的大數據與過去的大數據的根本區別在於數據的收集方式。智慧型設備和 SNS 在 2010 年代迅速流行,改變了資料收集的範式。直接或間接連接到網路的智慧型裝置透過攝影機、GPS(全球定位系統)和NFC(近場通訊)等各種感測器收集使用者資料。而這些數據不斷被上傳到網路上。此外,Facebook和Twitter等SNS用戶不斷地將自己的各種個人資訊上傳到網路上。過去,資料收集只是為了獲取資料收集主體認為重要的特定目標資料。然而,目前的數據收集透過智慧型設備和SNS不加區別地收集流經網路的大量數據。另外,隨著網路技術的逐漸發展,連接到網路的物件的種類也越來越多。換句話說,隨著物聯網(IOT)的出現,資料收集的領域正在進一步擴大。

就這樣,多核心CPU的發展、儲存媒體的發展、資料採集範圍的擴大的和諧結合,大數據的概念應運而生。目前,許多企業、政府等團體都在挖掘自己收集到的大數據來尋找寶藏,各種媒體也都在強調大數據的重要性。但最重要的是,關於大數據我們需要考慮的是,目前的大數據只是一個開始。未來,多核心CPU將發展為能夠同時執行更快的運算,儲存媒體將發展為能夠更快儲存更多資料。越來越多的事物將連接到網路並將它們收集的數據發送到網路。我們目前認為的大數據,在即將到來的大數據時代,可能根本不大。