零基礎大數據就業班

超強教學陣營
無與倫比雙師陣型
所有就業型的培訓班,多易教育都配備超強雙師陣營;
首先,是學校的名師所組成的教學陣營,負責整個課程體系全程的教學實施和管理;
然后,是由企業在職大數據高級工程師組成的就業導師陣營,提供企業最真實工作經驗指導,以及無與倫比的一對一就業輔導助攻
領銜名師配置
根據課程模塊劃分,每個班配備5至6名專職名師
頁面空間有限,只進行部分展示
濤哥

星哥

行哥

企業導師配置
為每個學員配備一對一的企業導師,全程助學和就業助攻
企業導師都是各名企在崗工程師,為保護隱私,不展示頭像

唯堆砌內容卻不懂取舍,則百害而無一利矣
課程結構戰力爆表
隨著企業對大數據開發崗的要求變化,以及技術的更新迭代及流行程度變化,課程設計也隨之吐故納新,迭代升級,始終與前沿技術、最新需求保持同步
階段1:編程基礎
為大數據學習而設計的基礎階段,主要包含java語言,mysql數據庫,sql語法,linux操作等.
階段2:離線技術
大數據離線批處理系統的核心技術生態,主要包含hadoop,hive,scala,spark等.
階段3:實時技術
大數據實時流式計算系統的核心技術生態,主要包含kafka,canal,flink等.
這個階段怎么說呢,任何軟件開發領域都是從編程語言開始,初次接觸難免生疏,一旦開竅,則一通百通
主要學習內容:
計算機基本操作 | 數組的認識與使用 | IO流工具體系 |
軟件基本原理 | 面向對象編程概念 | 文件讀寫實戰 |
Java語言特性 | Java的類與對象 | 序列化原理深入 |
Java跨平臺原理 | 類的繼承與多臺 | 網絡編程基礎 |
Java語言應用領域 | 接口與抽象類 | 網絡IO工具體系 |
Java數據類型 | 類的構造過程詳解 | 進程與線程 |
Java變量使用 | 常用工具類的使用 | Java并發編程基礎 |
邏輯分支語句 | 集合類的使用 | Java并發編程高級 |
循環控制語句 | 集合底層數據結構 |
本課程模塊,學習時長約1個月.
mysql是一種數據庫軟件,基本上所有后端開發(javaee、大數據等)都離不開數據庫的支撐,而sql語法,更是數據開發最重要的一門語言
主要學習內容:
數據庫基本原理 | MySQL DML進階 | MySQL底層數據結構 |
數據庫常見種類 | MySQL DML常用函數 | MySQL執行計劃 |
MySQL基礎概念 | MySQL自定義函數 | JDBC基礎概念 |
MySQL基礎架構 | MySQL觸發器 | JDBC編程規范 |
MySQL安裝部署 | MySQL存儲過程 | JDBC連接池 |
MySQL DDL語法 | MySQL索引機制 | JDBC連接池框架 |
MySQL DML基礎 | MySQL索引原理 | JDBC案例實戰 |
本課程模塊,學習時長約1周.
maven是一個項目管理工具,可以大大節省項目開發時的依賴管理,項目編譯打包,工程結構配置等編碼以外的工作量
主要學習內容:
Maven基礎概念 | 項目生命周期管理 | Maven父子工程管理 |
Maven基本原理 | 依賴管理詳解 | Maven依賴沖突解決 |
Maven快速上手 | Maven常用插件 | Maven實操進階 |
Maven工程結構 | Maven父子工程結構 |
本課程模塊,學習時長為2天.
實際開發中,一個項目都是由一個團隊來協作開發,而git就是一個協作開發和版本管理的工具,它簡單易學,但必不可缺
主要學習內容:
項目協同開發概念 | Git架構原理 | Git分支管理 |
版本管理發展歷史 | Git快速上手 | Git沖突管理 |
SVN快速上手 | Git核心操作詳解 | Git權限管理 |
新一代版本管理Git介紹 | Git ignore配置 | Git密鑰配置 |
本課程模塊,學習時長約1天.
桌面電腦用windows,而服務器上的操作系統則最流行linux,它穩定堅固功能強大,絕大部分的企業后端系統(包括大數據系統),都是部屬在linux服務器上
主要學習內容:
Linux操作系統概述 | 虛擬機軟件介紹 | Linux系統安裝 |
Linux文件系統 | Linux基本操作 | Linux用戶管理 |
Linux權限管理 | Linux網絡管理 | Linux服務配置 |
Linux進程管理 | Linux文本處理 | Linux遠程連接 |
Shell編程基礎概念 | Shell編程變量與數據 | Shell編程運算符 |
Shell編程邏輯控制 | Shell編程函數定義 | Shell編程高階語法 |
本課程模塊,學習時長約4天.
hadoop平臺,絕對的大數據基石,其HDFS組件至今依舊是大數據平臺的底層文件系統行業標準,其MapReduce框架的設計思想,則是spark等新一代引擎的設計源頭
主要學習內容:
分布式系統概述 | HDFS元數據機制精講 | MAPREDUCE高階調優精講 |
Hadoop套件介紹 | HDFS數據讀寫機制精講 | MAPREDUCE高階編程精講 |
Hadoop核心概念基礎 | HDFS高可用機制精講 | YARN核心概念基礎 |
Hadoop組件介紹 | HDFS高級運維技術精講 | YARN資源配置精講 |
Hadoop安裝部署 | MAPREDUCE核心概念基礎 | YARN調度策略精講 |
Hadoop集群啟動管理 | MAPREDUCE編程上手 | YARN原理架構深入 |
HDFS核心概念基礎 | MAPREDUCE高階API運用 | YARN核心源碼解析 |
HDFS核心操作詳解 | MAPREDUCE原理架構深入 | YARN核心機制精講 |
HDFS常見故障剖析 | MAPREDUCE核心源碼解析 | MAPREDUCE ON YARN精講 |
HDFS原理架構深入 | MAPREDUCE SHUFFLE機制精講 | YARN高階調優精講 |
HDFS核心源碼解析 | MAPREDUCE Task工作機制精講 | YARN高階運維精講 |
本課程模塊,學習時長約8天.
數據處理,首先需要收集數據,flume是一個apache旗下的開源數據收集系統,常用于各類業務日志的采集匯聚
主要學習內容:
數據采集概念基礎 | FLUME SOURCE詳解 | FLUME sink processor |
FLUME概念基礎 | FLUME Channel詳解 | FLUME 自定義組件 |
FLUME組件介紹 | FLUME SINK詳解 | FLUME 事務機制精講 |
FLUME安裝部署 | FLUME channel selector | FLUME 高階調優精講 |
FLUME入門案例 | FLUME 攔截器詳解 | FLUME 高階運維精講 |
本課程模塊,學習時長約3天.
數據處理,首先需要收集數據,sqoop或datax,都可用于從業務系統的數據庫中抽取數據到大數據平臺,是實際開發中必不可缺的工具
主要學習內容:
ETL概念基礎 | SQOOP生成全量快照 | DATAX增量導入 |
業務庫與數據倉庫對比 | SQOOP空值處理 | DATAX生成全量快照 |
SQOOP概念基礎 | SQOOP導出詳解 | DATAX空值處理 |
SQOOP核心組件 | DATAX概念基礎 | DATAX導出詳解 |
SQOOP入門案例 | DATAX核心組件 | DATAX并行度機制詳解 |
SQOOP高階配置詳解 | DATAX入門案例 | DATAX流控機制詳解 |
SQOOP全量導入 | DATAX高階配置詳解 | |
SQOOP增量導入 | DATAX全量導入 |
本課程模塊,學習時長約2天.
hive的橫空出世,把大數據平臺的使用難度瞬間降低,它可以讓用戶通過sql來操作大數據系統的數據,從簡單的數據統計到大型的數據倉庫,它都能勝任;也是課程的重中之重
主要學習內容:
數據倉庫概念基礎 | Hive分區機制 | Hive小文件問題詳解 |
Hive概念基礎 | Hive分桶機制 | Hive執行計劃 |
Hive核心組件 | Hive輸入格式組件 | Hive原理深入精講 |
Hive原理基礎 | Hive輸出格式組件 | Hive高階調優精講 |
Hive安裝部署 | Hive SerDe組件詳解 | Hive索引詳解 |
Hive基本操作 | Hive自定義UDF | Hive事務機制詳解 |
Hive DDL詳解 | Hive自定義UDAF | Hive整合Hbase |
Hive DML詳解 | Hive自定義UDTF | Hive數據抽樣精講 |
Hive常用函數 | Hive數據傾斜詳解 | Hive執行引擎配置 |
Hive窗口函數 | Hive基礎調優精講 | Hive綜合案例實戰 |
本課程模塊,學習時長約8天.
hbase是一個基于HDFS的分布式nosql數據庫,用于解決數據量龐大但查詢邏輯較簡單的場景,比如用于用戶畫像數據的存儲和查詢支撐
主要學習內容:
NoSql數據庫概念基礎 | HBASE客戶端高階編程 | HBASE BlockCache原理深入 |
HBASE概念基礎 | HBASE協處理器詳解 | HBASE數據索引原理深入 |
HBASE核心組件 | HBASE Region機制詳解 | HBASE讀數據機制源碼解析 |
HBASE架構基礎 | HBASE Region分裂深入 | HBASE高階調優精講 |
HBASE安裝部署 | HBASE Region合并深入 | HBASE高階運維精講 |
HBASE基本操作 | HBASE Compact機制深入 | HBASE行事務機制詳解 |
HBASE DDL命令詳解 | HBASE 底層存儲架構深入 | HBASE行鍵設計深入 |
HBASE DML命令詳解 | HBASE Skip-list原理深入 | HBASE熱點問題精講 |
HBASE 運維命令詳解 | HBASE LSM-tree原理深入 | HBASE內存優化精講 |
HBASE客戶端基礎編程 | Hbase MemStore原理深入 | HBASE線上故障案例 |
本課程模塊,學習時長約4天.
數據分析講究實效,如果任何查詢分析都需要借助mr、spark等計算引擎則時效低;為此涌現了一大批的即席查詢系統(olap引擎),多易第一時間引入了dorisdb和clickhouse
主要學習內容:
計算機基本操作 | 數組的認識與使用 | IO流工具體系 |
軟件基本原理 | 面向對象編程概念 | 文件讀寫實戰 |
Java語言特性 | Java的類與對象 | 序列化原理深入 |
Java跨平臺原理 | 類的繼承與多臺 | 網絡編程基礎 |
Java語言應用領域 | 接口與抽象類 | 網絡IO工具體系 |
Java數據類型 | 類的構造過程詳解 | 進程與線程 |
Java變量使用 | 常用工具類的使用 | Java并發編程基礎 |
邏輯分支語句 | 集合類的使用 | Java并發編程高級 |
循環控制語句 | 集合底層數據結構 |
本課程模塊,學習時長約6天.
scala是一門基于jvm的優秀的函數式編程語言,其在數據處理領域有先天優勢,重量級數據處理平臺spark就是基于scala開發,因此,學習scala就是為了spark奠定基礎
主要學習內容:
Scala 基本概念 | Scala Product體系 | Scala 模式匹配 |
Scala 開發環境配置 | Scala 樣例類 | Scala 泛型定義 |
Scala 數據類型 | Scala 高階函數 | Scala 泛型界定 |
Scala 變量定義使用 | Scala 柯里化函數 | Scala 泛型協變 |
Scala 邏輯控制語法 | Scala 傳名調用 | Scala 泛型逆變 |
Scala 函數詳解 | Scala 集合體系 | Scala 文件讀寫 |
Scala 類與對象 | Scala 隱式轉換 | Scala 并發編程 |
Scala 抽象類 | Scala Traverable體系 | |
Scala 特制Trait | Scala Iterable體系 |
本課程模塊,學習時長約6天.
spark平臺,超重磅的大數據計算框架,其優秀的架構設計,強大的編程模型,高效的內存計算,幾乎已成了大數據計算引擎中的公認最佳選擇,課程的重中之重
主要學習內容:
Spark 基礎概念 | Spark Shuffle機制概要 | SparkSQL 編程模型 |
Spark 編程模型 | Spark Shuffle機制源碼深入 | SparkSQL Dataset詳解 |
Spark RDD屬性介紹 | Spark 并行度機制概要 | SparkSQL 輸入格式詳解 |
Spark 開發環境 | Spark 并行度機制源碼深入 | SparkSQL 輸出格式詳解 |
Spark 入門案例 | Spark 運行時架構 | SparkSQL Dataset與RDD轉換 |
Spark RDD轉換算子詳解 | Spark 運行時角色精講 | SparkSQL sql語法詳解 |
Spark RDD行動算子詳解 | Spark Standalone模式詳解 | SparkSQL tableAPI詳解 |
Spark 廣播變量與閉包引用 | Spark Yarn-Client模式詳解 | SparkSQL 抽樣語法 |
Spark 累加器詳解 | Spark Yarn-Cluster模式詳解 | SparkSQL 數據傾斜調優 |
Spark 重分區算子 | Spark 內存管理機制 | SparkSQL 執行計劃詳解 |
Spark RDD原理深入 | Spark 內存配置進階 | SparkSQL 執行計劃深入 |
Spark DAG調度深入 | Spark 綜合案例實戰 | SparkSQL 執行原理源碼解析 |
Spark Task調度核心概念 | SparkSQL 基礎概念 | SparkSQL 綜合實戰案例 |
本課程模塊,學習時長約10天.
kafka名字萌萌噠,但它在大數據系統中的作用可不容小覷,幾乎所有流式處理系統都會用上kafka,它是一個分布式消息緩存系統,它解耦數據源和處理引擎,它幫助削峰填谷
主要學習內容:
消息隊列概念基礎 | Kafka序列化組件 | Kafka高可用機制深入 |
消息隊列常見框架 | Kafka消費偏移量維護 | Kafka數據一致性機制深入 |
Kafka基礎概念 | Kafka生產者編程 | Kafka Controller原理 |
Kafka架構基礎 | Kafka底層存儲結構解析 | Kafka事務機制深入 |
Kafka組件詳解 | Kafka消費者組 | Kafka負載均衡進階 |
Kafka安裝部署 | Kafka消費者組原理 | Kafka吞吐量優化進階 |
Kafka命令操作 | Kafka消費者原理深入 | Kafka線上故障調優 |
Kafka消費者編程 | Kafka生產者原理深入 | Kafka數據高效讀寫原理深入 |
本課程模塊,學習時長約4天.
實時流式處理也經常要針對業務庫中的數據,大數據處理系統實時獲取業務庫的數據的利器則是阿里開源的canal,它監聽mysql的binlog,實時獲取增量數據并寫入kafka
主要學習內容:
canal基本概念 | canal實戰配置 | canal線上調優 |
canal核心機制 | canal數據結構詳解 | canal整合kafka |
canal安裝部署 | canal高級配置 | canal案例實戰 |
本課程模塊,學習時長約1天.
實時流式計算中,經常需要一個存儲系統提供快速查詢和快速寫入,一般數據庫難以滿足需求,而快如閃電的Redis正好適用
主要學習內容:
內存緩存組件概述 | Redis數據結構詳解 | Redis底層存儲機制 |
常見內存緩存組件 | Redis數據結構深入 | Redis數據TTL詳解 |
Redis基礎概念 | Redis高級數據結構 | Redis客戶端編程 |
Redis架構原理 | Redis集群架構 | Redis運維進階 |
Redis安裝部署 | Redis集群模式詳解 | Redis綜合實戰案例 |
Redis基礎操作 | Redis集群模式部署 |
本課程模塊,學習時長約3天.
storm之后的第二代實時流式計算重量級引擎,基于spark-core,以無限的微批次處理來模擬實現流式計算,吞吐量大但實時性不夠,現已基本上被第三代引擎flink所取代,因此sparkstreaming在課程中大大削減內容,僅做了解用于對比即可
主要學習內容:
sparkstreaming基本概念 | sparkstreaming常用算子 | sparkstreaming整合redis |
sparkstreaming核心機制 | sparkstreaming原理深入 | sparkstreaming窗口計算詳解 |
sparkstreaming編程模型 | sparkstreaming整合kafka | sparkstreaming常見調優手段 |
本課程模塊,學習時長約1天.
實時流式處理中的超級重磅框架,它的橫空出世瞬間引爆了實時流式計算平臺的興起,而且成為當下實時流式計算的唯一選擇,它靈活高效,事件驅動,時間語義豐富,能實現端到端一致性,優點太多,課程的重中之重
主要學習內容:
Flink基礎概念 | Flink時間語義 | Flink Checkpoint詳解 |
Flink核心架構介紹 | Flink窗口計算編程 | Flink Checkpoint深入 |
Flink開發環境 | Flink窗口計算深入 | Flink Savepoint詳解 |
Flink集群部署 | Flink WaterMark詳解 | FlinkSQL基礎概念 |
Flink編程入門 | Flink WaterMark原理深入 | FlinkSQL TableAPI詳解 |
Flink編程模型詳解 | Flink狀態State管理編程 | FlinkSQL常用函數 |
Flink批處理API詳解 | Flink狀態State管理機制詳解 | FlinkSQL自定義標量函數 |
Flink流處理API詳解 | Flink底層高階process API | FlinkSQL自定義聚合函數 |
Flink并行度詳解 | Flink容錯機制詳解 | FlinkSQL自定義表生成函數 |
Flink并行度深入 | Flink狀態一致性機制 | FLinkSQL自定義表聚合函數 |
本課程模塊,學習時長約12天.