大数据学习，学大数据先学什么

很多初学者在学习大数据之前往往都有这样一个疑问，那就是学习多久才能掌握相关的技术，达到就业岗位的要求？

要想知道类似问题的答案需要从多个角度来分析，大数据本身涉及到一系列围绕数据的相关技术，这些技术涉及到大数据平台技术、大数据开发技术、数据分析技术、数据呈现技术、数据采集整理技术等等，这些技术既有区别又有联系，相关技术也都有相对应的岗位，所以作为学习者来说应该选择一个细分方向来学习，而不能简单的说学习大数据。

目前大数据的相关岗位以大数据开发、大数据分析、大数据运维居多，所以就从这几个方面来简单的分析一下需要学习哪些知识，以及一个大致的学习周期。

大数据开发是基于大数据平台进行的功能性开发，学习可以分为三个阶段，分别是编程语言、大数据平台和案例开发。编程语言往往以学习Java、Python和Scala居多，通常情况下编程语言的学习是比较耗费时间的，按照历史经验来看，对于没有编程语言的人来说，入门编程语言大概需要3个月左右的时间。看一下同一个操作采用Python、Scala和Java编写的代码实现过程：大数据学习，学大数据先学什么图1 大数据学习，学大数据先学什么图2 大数据学习，学大数据先学什么图3

接着要学习一下如何搭建基础的大数据平台，这部分知识对于大数据开发人员来说并不是重点，但是基本的搭建过程是应该掌握的，搭建Hadoop平台和Spark平台往往也需要大量的实验，另外还需要掌握大数据平台的体系结构和功能组成，这部分的学习时间大概需要2个月左右。接着就是在大数据平台下进行项目开发了，这部分学习时间可长可短，一般完成一个综合性的大数据开发实验也需要1个月左右的时间，这样算下来，入门大数据开发大概需要6个月左右的时间。

大数据分析需要学习的内容与大数据开发有一定的区别，大数据分析需要学习各种分析算法以及各种数据分析软件的使用。另外，目前采用机器学习的方式进行大数据分析也是一种比较流行的做法。学习大数据分析也需要了解大数据平台的基础知识、算法知识、机器学习等内容，从学习周期上来说与大数据开发差不多，也需要6个月左右。学习数据分析往往需要具备一定的数学基础，否则需要补学的内容比较多，耗费的时间也比较长。

大数据运维则主要是学习大数据平台的搭建、组件部署、平台测试以及维护等方面的内容，大数据运维需要学习大量的软硬件知识，包括计算机网络知识。总的来说，学习的量也是比较大的，在时间上根据不同的基础可长可短，一般在3到6个月基本上能入门。大数据学习，学大数据先学什么图4

大数据是我的主要研究方向之一，目前我也在带大数据方向的研究生，我会陆续在头条写一些关于大数据方面的文章，感兴趣的朋友可以关注我，相信一定会有所收获。

如果有大数据方面的问题，也可以咨询我。

谢谢！

大数据发展速度很快，对技术的需求也在不断更新迭代，从第一代的Hadoop为主，到现在的Hadoop、Spark、Storm、Flink百花齐放，一方面是因为需求的变化，另一方面也是技术生态在不断拓展和完善。

学大数据，都学习哪些内容，这就需要结合市场来考量，市场需求什么，那就需要去掌握相应的技术框架。

下面例举通用层面上，大数据一般需要学习和掌握哪些——

1、数据收集层

主要由关系型和非关系型数据收集组件，分布式消息队列构成。

Sqoop/Canal：关系型数据收集和导入工具。

Flume：非关系型数据收集工具，主要是流式日志数据。

Kafka：分布式消息队列，一般作为数据总线使用。

2、数据存储层

主要由分布式文件系统（面向文件存储）和分布式数据库（面向行/列的存储）构成。

HDFS：Hadoop分布式文件系统。

Hbase：构建在HDFS之上的分布式数据库。

Kudu：分布式列数据库，允许用户存储结构化数据。

3、资源管理与服务协调层

YARN：统一资源管理与调度系统，管理集群中的各种资源。

ZooKeeper：基于简化的Paxos协议实现的服务协调系统。

4、计算引擎层

包括批处理（时间要求低，高吞吐）、交互式处理（时间要求比较高，sql查询）、流式实时处理（时间要求非常高、广告投放等）三种引擎。

MapReduce：经典的批处理计算引擎，具体良好的扩展性与容错性。

Spark：通用的DAG计算引擎，允许用户充分利用内存进行快速的数据挖掘和分析。

Impala/Presto：开源的MPP系统，允许用户使用标准的SQL处理存储在Hadoop中的数据。

Storm/Spark Streaming：分布式流式实时计算引擎，能够高效的处理流式数据。

5、数据分析层

为方便用户解决大数据问题而提供的各种数据分析工具。

Hive/Pig/SparkSQL：在计算引擎之上构建的支撑SQL或者脚本语言的分析系统，大大降低了用户进行大数据分析的门槛。

Mahout/MLib：在计算引擎上构建的机器学习库，实现常用的机器学习和数据挖掘算法。

Apache Beam/Cascading:基于各类计算框架而封装的高级API，方便构建复杂的流水线。

原创文章，作者：普尔小编，如若转载，请注明出处：http://www.puerpx.cn/pxwd/2073.html

大数据学习，学大数据先学什么

相关推荐

发表回复