java转大数据的学习路线

  • 时间:
  • 浏览:0

9)Python

10)此人 用虚拟机搭建有有一一个多 集群,把所有工具都装上,此人 开发有有一一个多 小demo —150小时

数据存储刚刚,该咋样通过运算快速转化成一致的格式,该咋样快速运算出此人 你会的结果?

Ozzie,azkaban:定时任务调度的工具。

Hue,Zepplin:图形化任务执行管理,结果查看工具。

Scala语言:编写Spark线程池池运行的最佳语言,当然也不我能确定用Python。

Python语言:编写许多脚本一定会用到。

Allluxio,Kylin等:通过对存储的数据进行预处里,加快运算下行速率 的工具。

以上大致就把整个大数据生态里边用到的工具所处里的问题图片列举了一遍,知道了亲们为哪些而总出 肯能说总出 是为了处里哪些问题图片,进行学习的刚刚有的是的放矢了。

Spark core

正文

一、大数据相关工作介绍

数据派发刚刚,该咋样存储?,对应总出 了GFS,HDFS,TFS等分布式文件存储系统。

Hive 基本概念

第二阶段(攻坚阶段)

针对以上主要的有有一一个多 特征亲们都可不可否考虑以下问题图片:

许多(MLlib and GraphX )

Java高级(虚拟机、并发)

Linux 基本操作

Hadoop(HDFS+MapReduce+Yarn )

HBase(JavaAPI操作+Phoenix )

Hive(Hql基本操作和原理理解)

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming )

辅助小工具(Sqoop/Flume/Oozie/Hue等)

都可不可否此人 用VMware搭建4台虚拟机,或者安装以上软件,搭建有有一一个多 小集群(此人 亲测,I7,64位,16G内存,完整都可不可否运行起来)

1)Linux学习(跟鸟哥学就ok了)—–20小时

附上大数据工程师技能图:

为了提高工作下行速率 ,加快运下行速率 ,总出 了许多辅助工具:

四种 主次一般工作中肯能有的是数据挖掘,机器学习一般用都可不可否,都可不可否等到都可不可否用到的刚刚再深入学习。

8)Spark (《Spark 权威指南》)—150小时

Scala概述。

Scala编译器安装。

Scala基础。

数组、映射、元组、集合。

类、对象、继承、特质。

模式匹配和样例类。

了解Scala Actor并发编程。

理解Akka。

理解Scala高阶函数。

理解Scala隐式转换。

Spark SQL概述。

DataFrames。

DataFrame常用操作。

编写Spark SQL查询线程池池运行。

Spark Streaming

普通的MapReduce处里数据都可不可否一批一批趋于稳定理,时间延迟太长,为了实现每输入两根数据就能得到结果,于是总出 了Storm/JStorm那我 的低下行速率 的流式计算框架;

hbase简介。

habse安装。

hbase数据模型。

hbase命令。

hbase开发。

hbase原理。

高阶技能6条

大数据的未来前景可期,入行的人也非常的多,而咋样快速的完成转型,咋样快速的进入大数据领域,就都可不可否转型者、小白去进行深刻的思考。

数据来源广,该咋样派发汇总?,对应总出 了Sqoop,Cammel,Datax等工具。

大数据本质也是数据,或者又有了新的特征,包括数据来源广、数据格式错综复杂(特征化数据、非特征化数据、Excel文件、文本文件等)、数据量大(相当于也是TB级别的、甚至肯能是PB级别)、数据增长下行速率 快等。

4)Hadoop (《Hadoop 权威指南》)—150小时

enter image description here

Hive 中的DDL操作。

在Hive 中咋样实现高效的JOIN查询。

Hive 的内置函数应用。

Hive shell的高级使用措施。

Hive 常用参数配置。

Hive 自定义函数和Transform的使用技巧。

Hive UDF/UDAF开发实例。

Hive 执行过程分析及优化策略

6)HBase(《HBase权威指南》)—20小时

enter image description here

对应的MapReduce那我 的分布式运算框架处里了四种 问题图片;或者写MapReduce都可不可否Java代码量很大,统统总出 了Hive,Pig等将SQL转化成MapReduce的解析引擎;

都可不可否掌握的技能11条

Spark概述。

Spark集群安装。

执行第有有一一个多 Spark案例线程池池运行(求PI)。

RDD

7)Scala(《快学Scala》)–20小时

运行WordCount示例线程池池运行。

了解MapReduce结构的运行机制。

MapReduce线程池池运行运行流程解析。

MapTask并发数的决定机制。

MapReduce中的combiner组件应用。

MapReduce中的序列化框架及应用。

MapReduce中的排序。

MapReduce中的自定义分区实现。

MapReduce的shuffle机制。

MapReduce利用数据压缩进行优化。

MapReduce线程池池运行与YARN之间的关系。

MapReduce参数优化。

MapReduce的Java应用开发

5)Hive(《Hive开发指南》)–20小时

enter image description here

HDFS的概念和特征。

HDFS的shell操作。

HDFS的工作机制。

HDFS的Java应用开发。

MapReduce

RDD概述。

创建RDD。

RDD编程API(Transformation 和 Action Operations)。

RDD的依赖关系

RDD的缓存

DAG(有向无环图)

Spark SQL and DataFrame/DataSet

大数据方向的工作目前主要分为有有一一个多 主要方向:

Hive 应用场景。

Hive 与hadoop的关系。

Hive 与传统数据库对比。

Hive 的数据存储机制。

Hive 基本操作

机器学习算法以及mahout库加MLlib

R语言

Lambda 架构

Kappa架构

Kylin

Alluxio

三、学习路径

enter image description here

第一阶段(基础阶段)

大数据介绍

掌握线程池池池运行。

掌握并发包下的队列。

了解JMS。

掌握JVM技术。

掌握反射和动态代理。

3)Zookeeper学习

Zookeeper分布式协调服务介绍。

Zookeeper集群的安装部署。

Zookeeper数据特征、命令。

Zookeeper的原理以及选举机制。

大数据工程师

数据分析师

大数据科学家

许多(数据挖掘等)

二、大数据工程师的技能要求

Linux操作系统介绍与安装。

Linux常用命令。

Linux常用软件安装。

Linux网络。

防火墙。

Shell编程等。

2)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—150小时

一、大数据相关的工作介绍

二、大数据工程师的技能要求

三、大数据学习规划

假设每天都可不可否抽出一个多小时的有效学习时间,换成周末每天保证10个小时的有效学习时间;

一个多月会有(213+4210)3=423小时的学习时间。

肯能数据增长下行速率 快,数据存储就都可不可否水平扩展。

park Streaming概述。

理解DStream。

DStream相关操作(Transformations 和 Output Operations)。

Structured Streaming

HDFS

enter image description here

或者肯能同時 都可不可否批处里和流处里,按照如上就得搭有有一一个多 集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,统统总出 了Spark那我 的一站式的计算框架,既都可不可否进行批处里,又都可不可否进行流处里(实质上是微批处里)。

而后Lambda架构,Kappa架构的总出 ,又提供了四种 业务处里的通用架构。