大数据技术的那些应该重点知识,必读!!

  • 时间:
  • 浏览:0

2、年龄20-32岁

记住学到这都能能能作为你学大数据的另一兩个节点。

Zookeeper:这是个万金油,安装Hadoop的HA的并且 就会用到它,并且 的Hbase也会用到它。它一般用来存放一点相互商务相互合作的信息,那些信息比较小一般不需要超过1M,都不 使用它的软件对它有依赖,对于大伙每本人来讲只前要把它安装正确,让它正常的run起来就都能能了。

Mysql:大伙学习完大数据的避免了,接下来学习学习小数据的避免工具mysql数据库,不可能 一会装hive的并且 要用到,mysql前要掌握到那些层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,不可能 hive的语法和你你這個非常这类。

Sqoop:你你這個是用于把Mysql里的数据导入到Hadoop里的。当然你都能能能不需要你你這個,直接把Mysql数据表导出成文件再倒入HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。

Hive:你你這個东西对于会SQL语法的来说而是 神器,它能我能 避免大数据变的很简单,不需要再费劲的编写MapReduce多线程 。有的人说Pig那?它和Pig差不出来太大掌握另一兩个就都能能了。

Oozie:既然学些Hive了,我相信你一定前要你你這個东西,它都能能帮你管理你的Hive不可能 MapReduce、Spark脚本,还能检查你的多线程 是有无执行正确,出错了我能 发报警都能能帮你重试多线程 ,最重要的是还能帮你配置任务的依赖关系。我相信你后该喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是都不 有种想屎的感觉。

Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且 key是唯一的,而是 它能用来做数据的排重,它与MYSQL相比能存储的数据量大而是 。而是 他常被用于大数据避免完成并且 的存储目的地。

Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也前要排队避免,而是 与你商务相互合作的其它同学不需要叫起来,你干吗给我不出多的数据(比如好几百G的文件)我为社 会 避免得过来,你别怪他不可能 他都不 搞大数据的,我能 跟他讲我把数据倒入队列里你使用的并且 另一兩个个拿,而是 他就不出抱怨了马上灰流流的去优化他的多线程 去了,不可能 避免不过来而是 他的事情。而都不 你在给的问题报告 。当然大伙都能能能利用你你這個工具来做线上实时数据的入库或入HDFS,这时我能 与另一兩个叫Flume的工具配合使用,它是专门用来提供对数据进行简单避免,并写到各种数据接受方(比如Kafka)的。

Spark:它是用来弥补基于MapReduce避免数据时延上的缺点,它的特点是把数据装载到内存中计算而都不 去读慢的要死进化还一阵一阵慢的硬盘。一阵一阵适合做迭代运算,而是 算法流们一阵一阵稀饭它。它是用scala编写的。Java语言不可能 Scala都都能能操作它,不可能 它们都不 用JVM的。

 

Hadoop:这是现在流行的大数据避免平台几乎不可能 成为大数据的代名词,而是 你你這個是必学的。Hadoop上方包括十几个 组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像大伙电脑的硬盘一样文件都存储在你你這個上方,MapReduce是对数据进行避免计算的,它有个特点而是 不管多大的数据假若给它时间它就能把数据跑完,并且 时间不可能 都不 更快而是 它叫数据的批避免。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,而是 就能更好的利用HDFS大存储的优势和节省更多的资源比如大伙就不需要再单独建另一兩个spark的集群了,让它直接跑在现有的hadoop yarn上方就都能能了。人太好把Hadoop的那些组件学明白你就能做大数据的避免了,只不过你现在还不可能 对"大数据"到底有多大还不出个太清楚的概念,听我的别纠结你你這個。等并且 你工作了就会有而是 场景遇到几十T/几百T大规模的数据,到并且 你就不需要人太好数据大真好,越大越有你在头疼的。当然别怕避免不出大规模的数据,不可能 这有你在的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。

大数据有而是 方向,目前大伙口中一直说的大数据的主要就业方向是:大数据研发,大数据分析与挖掘,深度1学习,人工智能等方向。

二、前要学习的知识

1、基础知识:java+linux

学习大数据,只前要学习Java的标准版JavaSE就都能能了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都不 JavaEE方向的技术在大数据技术里用到的不需要多,只前要了解就都能能了,当然Java为社 会 连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites都能能连接数据库啊,为那些不学习一下,我这里都不 说学那些不好,而是 说学那些不可能 会用你而是 时间,到最后工作中而是 常用,我还没看完谁做大数据避免用到这另一兩个东西的,当然你的精力很丰沛 说说,都能能学些Hibernate或Mybites的原理,不需要只学API,而是 都能能增加你对Java操作数据库的理解,不可能 这另一兩个技术的核心而是 Java的反射再加JDBC的各种使用。

Linux:不可能 大数据相关软件都不 在Linux上运行的,而是 Linux要学习的扎实一点,学些Linux对你快速掌握大数据相关技术会有很大的帮助,能我能 更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩而是 坑,学些shell就能看懂脚本而是 能更容易理解和配置大数据集群。还能我能 对并且 新出的大数据技术学习起来更快。

2、大数据技术:hadoop-hive-oozie-web-flume-python-hbase-kafka-scala-spark

下面大伙就从学习的要求到学习的知识进行讲解

一、要求

1、大专及以上学历,最好是理工科毕业(主次文科学生学习起来比较费力)