首页>全部课程>大数据基础
大数据基础
东方瑞通资深讲师
大数据基础
报名课程可获赠200.0元助学金,助学金说明 >>
直播面授
时间图标 培训课时 11天(66课时)
标题图标 课程介绍 标题图标

本课程以Java语言为基础,从大数据的概念开始,讲解大数据中常用的组件,HDFS数据存储,MapReduce离线计算框架,yarn, Hbase、ZooKeeper,Hive,Spark大数据实时处理,Flume和sqooq、Kafka,Flink流批一体分布式实时处理引擎,ElasticSearch分布式全文检索,Redis内存数据库

大数据课程体系:

image.png

标题图标 学员基础 标题图标

1.   有Java编程语言基础

2.   有数据库基础

       3.了解计算机基本操作,掌握一般文字输入和处理的基础知识;


标题图标 课程目标 标题图标

l 了解大数据业内最新发展趋势,深入掌握Hadoop的原理,Hadoop生态系统

l 深入学习yarn 框架下的MapReduce,掌握MapReduce研发

l 掌握HDFS 开发

l 了解Hadoop集群规划,应用案例解析

l 列式数据库HBase的基本原理,应用场景,掌握基本的编程技巧

l 掌握主流的实时处理引擎Flink

l 学习掌握 Hive工具 , 分布式协调系统Zookeeper的基本原理,应用场景,掌握基本的编程技

l 深入掌握Spark


标题图标 课程大纲 标题图标

时 间

主要授课内容

 

 

 

第一天

大数据技术基础

内容一:大数据基础

1.什么是大数据

2.大数据技术的产生背景

3.大数据应用场景

4.大数据思维

5.大数据产业链

6.大数据是如何变革各行业的技术架构、商业模式

7.国内外主流的大数据解决方案介绍

8.当前大数据解决方案与传统数据库方案的剖析比较

9.开源的大数据生态系统平台剖析

内容二:Linux集群

1. Linux操作系统知识

2. Linux网络配置管理

3. Linux的x86服务器集群管理

内容三:Hadoop大数据平台

1.Hadoop的发展历程以及产业界的实际应用介绍

2.Hadoop大数据平台架构

3.基于Hadoop平台的PB级大数据存储管理

4.分析处理的工作原理与机制

5.Hadoop的核心组件剖析

 

 

第二天

HDFS

内容一:HDFS

1.分布式文件系统HDFS的简介

2.HDFS系统的主从式平台架构和工作原理

3.HDFS核心组件技术讲解

4.HDFS NameNode的工作机制和元数据管理设计

5.HDFS    DataNode的数据存储机制设计

6.HDFS的副本机制设计

7.HDFS的可靠性机制设计

8.HDFS的I/O存取技术应用

9.基于HDFS的大型存储系统应用开发实战

10.HDFS集群的安装、部署、配置与性能优化实践

11.分布式键值存储系统的平台架构、核心技术以及应用开发

12.PB及大数据存储系统的项目案例分析

 

第三天

MapReduce与Yarn、ZooKeeper

内容一:MapReduce与Yarn技术实践

1.MapReduce并行计算模型

2.MapReduce作业执行与调度技术

3.第二代大数据处理框架Yarn的并行处理实战

4.MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发

5.MapReduceLevel 5编程技巧与性能优化实践

6.MapReduce与Yarn大数据分析处理案例分析

内容二:ZooKeeper分布式协调服务

1.ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署应用实战

2.ZooKeeper集群的原理架构,以及应用配置

3.部署与配置ZooKeeper分布式集群

 

 

第四天

Hbase

内容:Hbase

4.NoSQL数据库与NewSQL数据库技术概述

5.HBase分布式数据库简介

6.HBase分布式数据库集群的主从式平台架构和关键技术剖析

7.HBase伪分布式和物理集群分布式的控制与运行配置

8.HBase的逻辑数据模型,HBase的表、行、列族、列、单元格、版本、row key排序

9.HBase的物理模型,命名空间(表空间)、表模式(Schema)的设计法则

10.HBase 主节点HMaster的工作原理,HMaster的高可用配置,以及性能调优

11.HBase 从节点RegionServer(分区服务节点)的工作原理,表分区及存储I/O高并发配置,以及性能调优

12.HBase的存储引擎工作原理,以及HBase表数据的键值存储结构,以及HFile存储结构

13.HBase表设计与数据操作以及数据管理操作

14.HBase集群安装部署、参数配置和性能优化

15.HBase的元数据管理,以及与ZooKeeper的交互机制

16.HBase集群的运维与监控管理,以及常见故障的解决之道

第五天

大型数据仓库Hive集群平台

内容:Hive

1.数据仓库概述

2.Hive大数据仓库简介以及应用介绍

3.Hive Server的工作原理、机制与应用

4.Hive数据仓库集群的安装部署与配置优化

5.Hive应用开发技巧

6.Hive SQL剖析与应用实践

7.Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

8.Hive数据仓库报表设计

第六天

Scala

内容:Scala应用基础

1.Scala基础语法

2.数据类型

3.变量

4.循环

5.函数

6.数组

7.类和对象

8.模式匹配

文件读写

第七天

Spark大数据实时处理

内容一:Spark大数据实时处理平台剖析

1.Spark的发展历程以及业界的实际应用介绍

2.Spark实时大数据处理平台架构

3.Spark RDD内存弹性分布式数据集的工作原理与机制

4.Spark的核心组件剖析

5.基于Spark的应用实践案例

内容二:Spark应用基础

1.Spark的实时处理基础知识

2.Spark生态系统概述以及发展历程

3.Spark在处理实时数据场景下的优势和处理模式

4.Spark内存计算编程框架

5.Spark Core的基础原理

6.Spark SQL的基础原理

7.Spark Streaming的基础原理

8.Spark在业界的实际应用场景与相关案例简介 

 

第八天

Flume和sqooq

内容一:Flume海量日志聚合

1.Flume简介及架构

2.Flume关键特性介绍

3.Flume应用

内容二:sqooq数据转换

1.sqooq简介

2.sqooq作业管理

3.sqooq应用

内容三:Oozie

4.Oozie简介及架构

5.Oozie工作流

6.Oozie应用

第九天

Kafka

内容:Kafka分布式消息订阅系统

1.Kafka简介

2.Kafka架构与功能

3.Kafka关键流程

4.Kafka应用

第十天

Flink流处理引擎

内容:Flink实时处理

1.Flink原理架构

2.Flink的Time和Window机制

3.Flink的Watermark机制

4.Flink的容错与状态管理

 

 

第十一天

ElasticSearch

和Redis

内容一: ElasticSearch分布式全文检索

1.ElasticSearch简介

2.ElasticSearch系统架构

3.ElasticSearch关键特性

内容二:Redis内存数据库

1.Redis应用场景

2.Redis业务流程

3.Redis特性及数据类型

4.Redis的优化

5.Redis案例应用