課程詳情
離線數據分析平臺Hadoop
課程內容:
1、初識Hadoop以及Hadoop生態系統、Hadoop的發展史、Hadoop的優缺點、Hadoop的核心組件、Hadoop發行版的選擇;Hadoop環境搭建,Hadoopshell命令;
2、Hadoop分布式文件系統HDFS、Hadoop的設計目標、架構及副本的腳本,搭建單節點偽分布式HDFS的實驗環境;使用hdfsshell以及JavaAPI的方式操作HDFS文件系統;解析HDFS文件的讀寫流程;
3、分布式計算框架MapReduce;MapReduce應用程序的開發、配置JobHistoryServer;
4、HadoopHA高可用集群搭建和配置;
5、數據倉庫Hive的安裝和使用、分桶作用、創建點擊流數據數據倉庫、點擊流數據分析(HiveSql);
6、Flume分布式日志框架、點擊流日志系統解決方案、點擊流日志系統部署及電商項目集成、Hadoop分布式集群搭建;搭建一個多節點的分布式Hadoop集群環境;Hadoop集成Spring的使用;
7、數據遷移工具Sqoop、HADOOP(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞;
8、HBase基礎、面向列的實時分布式數據庫、HBase與RDBMS的對比、HBase集群及其管理;
9、分布式資源調度YARN;YARN的產生背景、YARN的架構及執行流程;搭建單節點偽分布式YARN的實驗環境;
課程評價
聚劃算