大数据怎么入门学习好?

大数据学习,入门的话,要看自己本身的基础,基础好入门会更容易,而基础不足,入门阶段如果没做好心里准备,很多人就会从入门到放弃。

从零基础学习来说,大数据入门通常从编程语言着手,大数据根据岗位的不同,涉及到不同程度的编程任务,我们从大数据生态圈来看,目前主要以Hadoop/MapReduce、Spark和Storm等为典型代表,而这些框架都是构建在JVM上,从这个角度来看,Java语言和大数据的关联最为密切。

而Spark框架,除了Java之外,还提供了Python、Scala和R语言的相关接口。入门阶段,建议从Java开始学起,JavaSE部分着重掌握。

其次是大数据主流的框架学习,大致的学习可参考下图:


一、首先要搞清楚一个概念,什么是大数据。

大数据又称巨量资料,就是数据量大、来源广、种类繁多(日志、视频、音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据。

专业的来讲:大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。

二、学习大数据需要什么语言基础?

首先,学习大数据是需要有java,python和R语言的基础。

1)Java学习到什么样的程度才可以学习大数据呢?java需要学会javaSE即可。javaweb,javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。

2)python是最容易学习的,难易程度:pythonjavaScala。python不是比java更直观好理解么,因为会了Python还是要学习java的,你学会了java,再来学习python会很简单的,一周的时间就可以学会python。

3)R语言也可以学习,但是不推荐,因为java用的人最多,大数据的第一个框架Hadoop,底层全是Java写的。就算学会了R还是看不懂handoop。

java在大数据中的作用是构成大数据的语言,大数据的第一个框架Hadoop,底层全是Java写的,所以推荐首选学习java。再给你们举例说明下它们的分工和作用,java注重业务,大数据注重数据,前端是脸(页面显示),java是胳膊(业务),大数据是直男大脑,人工智能,深度学习是有情商的大脑。


大数据开发技术的运用越来越广泛,随之市面上的大数据开发技术岗位越来越多,尤其是在5G网络发展迅速的大数据人工智能时代,企业的发展对大数据开发技术的需求越来越多,更有越来越多的小伙伴想要入门学习大数据开发技术知识,入行大数据行业需要更为系统的学习开发技术。

对于零基础小伙伴来说,学习入门大数据开发技术知识,首先是要选择一个比较适合自己的学习方式,然后在学习过程中找到适合自己的学习方法,养成一个良好的学习习惯,不断培养自身自主学习能力。

对于零基础小伙伴而言,学习大数据开发技术选择一家比较靠谱的大数据培训机构还是比较不错的,毕竟现在大数据开发技术在不断的更新,自学的话很难学习到比较系统的开发技术知识,况且自学对小伙伴的自学能力和自控能力都是有一定要求的,无论小伙伴是通过自学还是大数据培训的方式来学习都是需要找到适合自己的学习方法。

1.基础知识的沉淀学习

大数据开发技术所包含的编程技术知识是比较复杂的,在大数据培训机构学习开发技术知识,有开发实战经验比较丰富的老师带领小伙伴学习,能够学习到比较系统全面的开发技术知识,在不断的学习过程中丰富自身的知识体系。

2.多加练习相关的项目实战案例

大数据开发行业注重的是编程技术和解决问题的能力,无论小伙伴是在学习过程中,还是在就业之后,都是需要多加练习市面上比较新颖的项目实战案例,积累更多的项目实战经验和锻炼项目开发过程中解决问题的能力。

3.交流式学习

零基础小伙伴在大数据培训机构学习开发技术知识的过程中,不要自己闭门造车式的学习,要多和培训机构老师进行多方面的交流,在交流的过程中,小伙伴可以学习到更多的开发技术知识,学习别人好的编程思路,培养自己的编程思维。

小伙伴在学习的时候,要根据大数据培训机构的课程内容制定适合自己的学习计划与路线,这样能够很快的提高自主学习能力,对小伙伴日后提升自身开发技术水平有一定的帮助。

java开发技术学习教程及学习路线

H5全栈前端开发技术学习教程及学习路线

5_video.shtml

大数据开发技术学习教程及学习路线


大数据是眼下非常时髦的热词,同时也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。数据分析师就业前景如何?从20世纪90年代起,欧美国家开始大量培养数据分析师,直到现在,对数据分析师的需求仍然长盛不衰,而且还有扩展之势。根据美国劳工部预测,到2018年,数据分析师的需求量将增长20%。就算你不是数据分析师,但数据分析技能也是未来必不可少的工作技能之一。在数据分析行业发展成熟的国家,90%的市场决策和经营决策都是通过数据分析研究确定的。


在回答题主的问题之前看了一下其他楼主的回答,突然感觉要入门大数据要学习的内容好多好杂,对于一个普通人来说可能至少要话三四年的时间全身心投入才可能入门,不知题主是否也有同样的疑问!难道学习大数据真的是从入门到放弃么?其实我觉得不是。

首先在学习大数据之前应该了解什么是大数据,大数据这个概念又是如何产生的呢?数据这个概念是在有计算机时便诞生了,而现在无非就是加了一个“大”,所谓大即在随着互联网越来越发达,网络传输效率从2G走到现在的5G,从原先的互联网走向现在的物联网时代,每个人每个物产生的数据爆炸式产生,传统的数据库(如:oracle、db2等)已无法满足现有数据的存储开销与计算效率,故而产生了现在的大数据平台(如:MPP架构的华为高斯DB和Hadoop生态)来满足对不断增长的数据存储与计算,也就是说大数据就是海量数据存储与计算,题主可以选择一种架构的大数据平台如针对性学习。

在了解了什么是大数据后题主可以选择一种架构的大数据平台进行学习,比如现在最流行的hadoop平台。

根据题主的问题可以了解到题主应该是想快速入门,那怎么才能快速入门呢?我觉得这才是题主最关心的问题吧!

所谓欲速则不达,门其实就在眼前只是不知如何去敲。那该怎么敲呢?首先得了解大数据平台架构分哪些模块吧!(如hadoop平台基础模块分hdfs、yarn、mapreduce),其次得了解每个模块得功能是什么吧,(如:hdfs是分布式文件存储系统,是用来存储数据的),再就是得明白给个模块之间的联系以及各个模块得实现原理了。

到此为止题主应该算是入门了,如果题主觉得光了解概念及原理还不够可自行搭建开源CDH平台进行学习试炼。结合网上大神们分享的搭建与开发经验找一个小小的案例进行练习,题主就算上道了,至于道上的车速如何,需要题主自己把控!


数据分析师需要的技能大致有这些:Excel、SQL、统计学及SPSS、Python/R等。

建议从Excel开始,因为Excel是使用最多,也是最强大的数据分析工具,入门简单,因为大部分人都接触过Excel。


数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法都可以来对付数据。

从狭义上来,数据科学就是解决三个问题:

1.datapre-processing;(数据预处理)

2.datainterpretation;(数据解读)

3.datamodelingandanalysis.(数据建模与分析)

这也就是我们做数据工作的三个大步骤:

1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;

2、我们想看看数据“长什么样”,有什么特点和规律;

3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。


零基础开始学习大数据:

1、Linux基础

在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。学习Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等

2、Java基础

Java语言基础、HTML、CSS、JavaWeb和数据库等

3、Hadoop

分布式系统概述、hadoop生态圈及各组成部分

4、Scala+Spark

需掌握Spark基础、SparkJob、SparkRDD、sparkjob部署与资源分配、Sparkshuffle、Spark内存管理、Spark广播变量、SparkSQL、SparkStreaming以及SparkML等相关知识。

5、storm

类似Hadoop集群。用来计算数据。

在大数据这一行业,先人一步进入大数据行业,就先人一步掌握大数据技术,在别人纠结犹豫的时候过果断采取行动学习大数据,进入大数据行业。

加米谷大数据开发9月零基础班,已开课可试听;大数据分析10月零基础班,预报名中...

相关:

0基础大数据学习路线及学习书籍推荐

i6713822122222813700/


你先看视频吧,b站,优就业的天天好课都有基础视频。


网络空间安全专业的开设从某种程度上来说,也是大数据、云计算、如联网、人工智能等技术推动的结果,在这些技术的推动下,整个社会的信息化程度越来越高,传统的网络空间与行业实体的界限越来越模糊。在这种情况下,网络安全的边界不仅仅关系到虚拟领域,也关系到实体领域,所以把网络安全上升到更高的层面,也是一种必然。所以,从这个角度来看,网络安全空间专业未来的发展前景还是非常广阔的,人才的需求量也会不断增加。


大数据技术想要入门是比较难的,如果是零基础的学员想要入门大数据的还是不太可能事情,最好是找一家靠谱的大数据培训机构进行系统的学习大数据基础,但是大数据的学习也不是谁都可以的,零基础的最好是本科的学历,因为大数据培训学习需要的逻辑思维分析能力比较强,也涉及到一些大学的数学算法,所以学历要求会高些,如果是有Java基础的哪就另当别论了,大数据技术的培训学习,基本都是以Java为基础铺垫的的,有一些Java基础的话,相对来说就容易一些了,如果是直接想学大数据开发的话,Linux基础要有一些,然后就是大数据相关组件的学习和使用,以及他们之间各个有什么作用,数据采集聚合传输处理,各个组件在什么位置,有什么作用等,一般都是Hadoop+zookeeper+Hive+Flume+Kafka+HBase+Spark+Flink

大数据培训内容:

1、基础部分:JAVA语言和LINUX系统。

2、大数据技术部分:HADOOP、HIVE、OOZIE、WEB、FLUME、PYTHON、HBASE、KAFKA、SCALA、SPARK、SPARK调优等,覆盖前沿技术:Hadoop,Spark,Flink,实时数据处理、离线数据处理、机器学习。

大数据学习是一件值得大家投资自己的事情,也是一件从长远发展来看比较不错的行业,但是咋这里小编还是要体提醒大家在决定大数据学习之前,一定要先对大数据和自己都有一个明确的认知,这样更有利于后期大数据的学习。

2020大数据学习路线


大数据行业如今如此火爆,带来的市场效应就是很多人开始通过学习的方式进入大数据行业,但是,对于零基础的来说想要进入大数据行业发展怎么入门学习大数据是一件需要着重考虑的事情。大数据是一门比较复杂的课程,学习是需要有一个好的学习计划会更好。

目前的大数据相关的一些使用到的组件都是使用的Java做为底层语言开发的,所以,这里也建议零基础的学员可以从家基础进行入门学习比较好,当然,有其它编程语言也是可以的。

现在一般的大数据培训机构的大数据入门课程,都是从Java编程语言开始进行学习的,但是这里大家一定要认清一个问题,Java编程语言并不是真正的大数据技术只是大数据课程需要掌握的一小部分基础内容,如果,是选择大数据培训机构进行学习的,那么,在选择培训机构时,大数据培训的课程很大的一部分都是编程语言或者是没有相关编程语言的话就要留意了,这是不是靠谱的大数据培训课程就要打一个问号了。

对于零基础的学员来说在学习大数据技术之前掌握一些Java编程基础是必要的,所以,如果选择的大数据培训课程中没有相关内容的学习就不要考虑了,还有就是相关编程内容太多几乎是占据了一半以上的大数据课程内容,这样的大部分是以大数据培训为虐头进行的培训。

所以,在我们选择大数据学习是时候一定要了解清楚,大数据都说需要掌握哪些内容,应该怎么入门学习的比较好。


学习大数据技术分这么几个阶段

java基础一定要学,因为大数据底层的编程语言就是java,还是在大数据一些应用功能也需要java开发。

2学一门数据库oracle或mysql,我建议最好是mysql因为后期大数据技术hive语法和mysql很像。

3linux命令一定要熟练掌握,因为大数据是跑在linux操作系统的。

4学习一下hdfsmapreduce原理

学习这些就差不多了。

我是一个有十年大数据开发经验的老兵,大鹏有什么大数据技术问题私信我。


小编发现越来越多的人学习大数据,现如今大数据已经不是新型编程科目了,大数据有平台开发逐渐向大数据应用开发蔓延发展,这也是大数据开发落地实施的必然结果。现在大数据已然被政府重视,在大学也设立了大数据专业,然而大数据专业毕业生也无法满足企业的需求量,有很大一部分大数据开发人才是通过大数据培训输出的。

小伙伴可以通过自学或参加大数据培训班来获得大数据知识。但是小伙伴一定要知道的是大数据是比较复杂且综合性比较强的编程语言,自学大数据的话,相应的得具备java、Python等编程语言基础,才能更容易接受大数据知识,如果是零基础的话,我建议通过大数据培训来系统学习技术知识,那大数据该如何入门学习呢?

1.掌握java、Python等相关编程基础

如果自学大数据,你需要在网上搜罗一些相关java、Python等编程语言视频来了解学习基础知识,能达到初步入门即可;在大数据培训一般都会设有针对零基础的教学模块,等基本掌握了一些编程基础,才开始教学大数据的相关知识。

2.以用为学

小伙伴在学习大数据的时候,可以根据各大招聘网站上企业对大数据人才的技术需求,去着重学习相关技术知识,同时结合实战项目练习,来学习巩固大数据技术编程知识,以用为学,提高学习效率,提升自身职业价值。

3.多交流,多练习

无论小伙伴通过哪种学习方式来获得大数据知识,在学习过程中必不可少的是多交流和勤加练习敲代码,在交流和练习的过程中捋顺自己对编程思维的认知,培养自己的编程思维。

最后,大数据如何入门学习,除了编程基础的学习,还需要小伙伴端正自己的学习态度,不断探索适合自己的学习方法,提高学习效率,成功入行大数据行业。


大数据相比较于Java、Python等编程语言来说,确实是入门比较难的,不过如果想自学也没毛病,只要你了解大数据的学习路线图,跟着学习路线图来学习,不会走偏,那么,想学习还是很容易的哦!

分享给大家一套大数据的学习路线图

学习大数据,也需要一些编程语言要基础,之后还要学习Hadoop、spark等技术栈,在加上一些项目实战,就可以找工作喽!

第一阶段:零基础数据仓库管理

可掌握的核心能力

•掌握企业级ETL平台的kettle

•掌握BI的可视化平台Superset

•掌握KettleETL处理设计思想

•掌握大数据企业开发中最常见的linux的操作

•掌握一款主流数据库客户端工具DataGrip

•掌握企业MySQL的调优方案

•掌握大数据分析中数据全量及增量同步解决方案

•掌握生产环境中数据分析程序的部署解决方案

第二阶段:Java语言编程

可掌握的核心能力

•掌握Java程序基础数据类型

•掌握开发中常用类如集合、IO流、常用类等操作

•掌握Java异常处理机制

•掌握反射、网络编程、多线程开发

•掌握Jsoup的网络爬虫开发

•掌握JDBC操作

•掌握ETL数据处理和BI报表开发

第三阶段:Hadoop技术栈

可掌握的核心能力

•掌握shell编程

•掌握ZooKeeper原理并应用

•掌握HDFS的使用和MapReduce编程

•理解MapReduce原理和调优

•掌握Yarn的原理和调优

•掌握Hive的使用和调优

第四阶段:项目一(在线教育)

可掌握的核心能力

•掌握从需求、设计、研发、测试到落地上线的完整项目流程

•掌握大量教育行业的真实业务逻辑,涉及20多个主题,100多个指标

•掌握海量数据如何调优、使用拉链表、增量数据处理,以及Hive函数的具体应用等

•掌握基于CM的大数据环境部署和管理

•掌握数据仓库的核心概念和应用

•掌握常用离线大数据技术:Oozie、Sqoop、Hive等

•掌握FineReport可视化

第五阶段:数据微服务接口开发

可掌握的核心能力

•掌握SpringBoot整合SpringMVC开发

•掌握SpringBoot整合MyBatis开发

•掌握Eureka搭建

•掌握Feign的使用

第六阶段:实时生态圈

可掌握的核心能力

•掌握Redis原理及架构

•掌握Redis命令操作、及数据结构

•掌握Hbase原理及架构

•掌握HBase命令操作、MapReduce编程

•掌握Phoneix二级索引优化查询

•掌握ELK开发掌握Kafka原理及架构

掌握KafkaStreams开发

掌握基于Flink进行实时和离线数据处理、分析

掌握基于Flink的多流并行处理技术

掌握千万级高速实时采集技术

第七阶段:项目二(证券、物联网任选其一)

可掌握的核心能力

•掌握基于FTP、Flume+Kafka的实时数据采集开发

•掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错

•掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级-秒级-分时等时间维

•掌握基于Kylin的即席快速OLAP开发

•掌握基于FlinkCEP的实时预警监控开发

•掌握基于SpringBoot的数据服务接口开发

第八阶段:Spark技术栈

可掌握的核心能力

•掌握Scala语言基础、数据结构

•掌握Scala语言高阶语法特性

•掌握Spark的RDD、DAG、CheckPoint等设计思想

•掌握SparkSQL结构化数据处理,SparkOnHive整合

•掌握SparkStreaming整合Kafka完成实时数据处理

•掌握SparkStreaming偏移量管理及Checkpoint

•掌握StructuredStreaming整合多数据源完成实时数据处理

第九阶段:项目三

可掌握的核心能力

•掌握Docker环境部署、管理操作

•掌握基于Oracle+MySQL异构数据源数据处理技术

•掌握基于OracleGoldenGate以及Canal的实时采集技术

•掌握Kudu+Spark的快速离线数据处理、分析技术

•掌握Kudu+Impala即席数据分析技术

•掌握基于ClickHouse高性能存储、计算引擎技术

•掌握基于ELK的全文检索技术

•掌握Kudu、Spark的调优能力

•掌握基于SpringCloud的数据微服务接口开发技术

如果想要学习,有免费教程,可以私信我哦


学习大数据首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后.Java大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下。有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。Linux因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。Hadoop这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoopyarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对大数据到底有多大还没有个太清楚的概念,听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。当然别怕处理这么大规模的数据,因为这是你的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。记住学到这里可以作为你学大数据的一个节点。Zookeeper这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。Mysql我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。Sqoop这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。Hive这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。Oozie既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。Hbase这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。Spark它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。会这些东西你就成为一个专业的大数据开发工程师了,月薪2W都是小毛毛雨后续提高:当然还是有很有可以提高的地方,比如学习下python,可以用它来编写网络爬虫。这样我们就可以自己造数据了,网络上的各种数据你高兴都可以下载到你的集群上去处理。最后再学习下推荐、分类等算法的原理这样你能更好的与算法工程师打交通。这样你的公司就更离不开你了,大家都会对你喜欢的不要不要的。


目前的互联网行业发现的很迅速。那是因为现在的人们离不开手机,各种app充斥着我们的生活。

人们输入、搜索什么,想要相对应的反馈,像购物平台也是如此,不会当时购买,但是有这个购买倾向,之后就会被一直推送,这个就大数据行业弄的。

首先大数据和java其实有很多相关之处,首先学习大数据也是要学习java基础的。所以很多相似之处是很多的。

以下是学习的路线图,你可以看看:

入门即入行,入行很难的,加油


大数据入门首先要学习javase,掌握了javase之后,最好再学学javaee,如果不学的话,影响也不是特别大。接下来要学的东西就比较多了,主要是两块,一种是离线计算,以hadoop为主,一种是实时计算,以spark为主,当然大数据不是一两个技术的组合,而是一整套完整的生态系统,所以要学的东西还是很多的,大数据主要解决的是海量数据的存储和计算问题,建议还是把java学好,因为很多大数据的软件都是基于java编写的,所以入门大数据的话,建议先从java入门学习比较好!


大数据的入门学习有多条学习路线,可以根据自身的知识结构进行选择,并不是所有的学习路线都是从学Linux操作系统开始,然后是Java、Hadoop、Spark等,学习大数据也可以从数据分析开始。对于职场人来说,学习数据分析的工具如何使用,远比学习Hadoop更加实际。

大数据的核心是数据价值化,只要围绕这个核心所做的一系列数据价值化的操作都是大数据的分内之事,所以大数据学习的出发点比学习内容本身更重要,如果在学习大数据的初期就能建立数据价值化概念,那么对初学者来说是一个莫大的推动力,如何能快速建立数据价值化概念呢?答案就是从数据分析开始。

数据分析并没有那么复杂,即使是没有多少计算机基础的人也可以入门数据分析,并不是所有的数据分析都需要通过机器学习的方式来完成,有很多工具能够方便的完成数据分析,而这些工具本身并不是特别复杂,比如Excel。Excel是一个功能强大的数据分析工具,在没有大数据概念的年代,Excel就在做数据分析的事情,虽然在大数据时代数据分析更加多样化,但是通过Excel能让入门者快速发现“数据之美”,完全可以通过Excel打开学习大数据的大门。

学习Excel可以从基本的函数开始学起,比如sum、count、Vlookup、sumif、countif、find等,这些函数的使用非常方便且功能强大,通过实验很快就能建立起数据分析的概念。Excel基本上能解决不少普通职场人的数据分析场景,几万条的数据分析使用Excel是没有压力的。

下一步学习就涉及到数据库的使用了,虽然目前大数据领域的非结构化数据占据着大部分的比例,但是目前大量的数据分析还是基于结构化数据进行的,所以学习一个数据库产品的使用就变得很有必要了,推荐学习一下Mysql数据库。掌握数据库之后,数据分析的数量就会有显著的提高,几百万条数据都是毫无压力的,相比于Excel来说,数据分析的量一下就得到了质的提高。

接着可以学习一下SPSS,SPSS是数据分析(统计)领域一个非常强大的工具,分析可以定制化,是一个比较常见的工具。在数据可视化方面可以学习一下Echarts,这是一个开源产品,功能也非常强大,同样可以进行定制化(程序化)。

学习数据分析一个比较麻烦的事情是数据从哪来?要想解决这个问题,就必须进行下个阶段的学习了,那就是Python编程,可以通过Python编写爬虫来爬取互联网上的海量数据,作为自己数据分析的基础。其实学习数据分析到中后期是绕不过编程的,掌握一门编程语言是非常有必要的,而Python就是数据分析最常见的编程语言之一。

数据分析涵盖的内容非常多,按照场景不同也有很多条分析路线,对于初学者来说可以采用递进式学习方式,这样会有更好的学习效果。

大数据是我的主要研究方向之一,目前我也在带大数据方向的研究生,我会陆续写一些关于大数据方面的文章,感兴趣的朋友可以关注我的号,相信一定会有所收获。

如果有大数据方面的问题,也可以咨询我。

谢谢!


原始地址:/resou/42734.html

延伸阅读