概念速讀之“什么是大數據”(2)
上篇咱們聊了大數據作為”大量的數據“意義時,具體的含義。
那咱們就來順藤摸瓜的聊聊什么叫大數據處理技術,簡稱大數據技術或大數據。
無論是創業公司還是上市公司,想要賺錢肯定從兩方面著手:開源、節流。
開源屬于公司業務層面的事情,而節流則是公司內部的硬件成本、人力成本的控制,所以作為商業活動為導向的公司,定希望自己的成本可以進一步下降,針對“大量的數據”得出的企業窘境,大數據技術的誕生是全球所有互聯網公司的一支強心劑,因為它完美實現了“低成本、高性能”的需求,來看看到底是什么玩意叭。
大數據處理技術,是區別于傳統數據處理技術(Excel、Txt、Csv ···)的大批量數據處理技術,它基本由兩部分組成:分布式硬件集群系統、分布式數據處理框架。

分布式硬件集群系統,就是指我們看得見,摸得著的那些機器。無論是內存、CPU還是交換機、網線等,把這些現實世界物理意義上存在的東西集合在一起,統稱為硬件系統。
而為什么要加一個集群呢?單個機器你可以理解為一個人,而集群就是一群人,這群人是一個團隊,在明確的法律法規作為規則的前提下有序的處理問題。
什么?又問我為啥要集群?害!你一個人干活終究干不過一群人啊,是不是?
就像咱們之前說過的,一個人不吃不喝不拉不撒要近125年才能處理完128GB的數據,那如果有128個人去處理這同樣的數據,處理的速度肯定是坍塌式縮小,人多力量大嘛。
那為什么要加分布式呢?因為整個團體里,張三就是張三,不是李四,雖然他們在共同完成一件事,但是張三可以在家里處理分配給自己的那一塊數據,李四可以在公司,如果有溝通需要可以利用互聯網進行溝通,完全不會影響嘛,最后大家處理完各自的數據了,把結果通過互聯網給團隊Leader匯總,就完美完成這樣的任務了。

然后再講講什么叫分布式數據處理框架。
這個就更簡單清晰了,剛剛我們說到分布式硬件集群系統像一群人要去完成共同目標的一件事,那處理框架就是教你如何去處理這樣的事情,比如有這樣一段數據:
“張三是一個24歲的雄性大數據程序猿,喜歡唱歌跳舞,每個月收入23k,師從段海濤,現在在阿里巴巴杭州研發中心上班”
需要將張三的個人信息提取出來,完成以后是這樣的:
姓名 | 性別 | 愛好 | 收入 | 關系 | 公司 | 地址 | 職業 |
---|---|---|---|---|---|---|---|
張三 | 男 | 唱歌跳舞 | 23K | 老師:段海濤 | 阿里巴巴 | 杭州 | 大數據程序員 |
我們的處理框架,就是教每一個人(機器)把關鍵的數據內容(字段)按一一對應的關系(K-V)處理出來并存為相應的文件。
而分布式數據處理框架的分布式三字,就是將一個任務拆分為團隊空閑人員數量的小塊,比如128G的數據,[0-1024]MB交給一號處理員,(1024-2048]MB交給二號處理員 ····· 以此類推,每一個人都有1GB的數據處理,這樣我們這個團隊一年時間就可以完成128G數據的處理了,這樣的能力叫做并發能力。
那傳統數據處理技術,就屬于吃獨食,覺得自己做了很多,但事實上那件事一個人根本完成不了,等他把數據處理完,公司都沒了,所以這就體現出,無論是人還是機器,團隊很重要,要有團隊精神。
那傳統數據處理技術和大數據處理技術,兩者有怎樣的不同呢?請看下表:
對比點 | 傳統數據處理技術 | 大數據處理技術(分布式數據處理框架) |
---|---|---|
硬件需求 | 高-需要性能強大的服務器集群 | 低·購置大批量的低性能服務器搭建集群即可 |
資金需求 | 大-每一臺高性能單機都及其昂貴 | 小-可能一個集群還不到一臺高性能單機價格 |
技術要求 | 低-一般是用程序分詞提取處理 | 高-需要搭配大數據集群框架進行運算 |
大文件處理速度 | 低-并發能力低 | 高-并發能力強 |
小文件處理速度 | 高-單核處理速度快 | 低-單核處理速度慢 |
等集群數量 數據安全性 | 低-高安全性需要購置更多機器 | 高-一份文件自動備份2份以上,避免數據丟失 |
可以看到大數據處理技術在處理文件方面,力克傳統型處理技術,在成本方面,又大幅度降低,這就完美的契合了互聯網公司們想在能及時處理數據的基礎上降低成本,從而進行節流的終極需求。
大數據行業是時代發展的必然產物,也是最靠前沿的技術梯隊之一。大數據處理技術又是大數據行業的核心命脈,沒有之一。男怕選錯行、女怕嫁錯郎,選擇如此有潛力的行業,將是你未來職業規劃上最為濃墨重彩至關重要的一筆,選擇培訓六個月,幫學員進入潛力巨大的大數據行業,是大數據培訓行業的共同目標。
在這其中多易大數據就是站在整個行業Leader的位置上,帶領整個行業向前走的頭部公司。
多易一直在主導制定行業內一條條要求極高的行業標準,力求讓整個行業培訓出的學員都能學到真才實學,而不是糊弄了事。多易只希望做到每一位想進入大數據行業而參加培訓的學員,無論是不是零基礎,都要用最深入淺出的授課方式詳解最新最前沿的大數據技術,不但教授,還一定要讓學員牢牢掌握。
選擇多易,助你成神!