当前位置:首页 > 前端设计 > 正文

hadoop框架?hadoop安装详细步骤

hadoop框架?hadoop安装详细步骤

大家好,感谢邀请,今天来为大家分享一下hadoop框架的问题,以及和hadoop安装详细步骤的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望...

大家好,感谢邀请,今天来为大家分享一下hadoop框架的问题,以及和hadoop安装详细步骤的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

hadoop的背景与意义

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

hadoop集群搭建

hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

hadoop实现了一个分布式文件系统,简称HDFS。

HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;

而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。

hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop一般用在哪些业务场景

Hadoop可以做大数据量存储,它是分布式,可以存储离线的数据,不需要实时性的数据,就像云盘,网盘那样,你用的时候,可以直接读取就行。你也可以将历史数据存储在Hadoop上,通过整体来分析数据,比抽样的数据要全,更可靠。还可以处理大型文件,比如PB级别的,因为它的HDFS是分布式存储数据的,它会将数据按块来进行存储,一般是128M,现在3.0是256M。Hadoop可以做日志处理:通过MapReduce编程可以抽取想要的内容,也可以结合Flume来收集想要的数据,并通过Hive将数据保存到表,实际上数据底层还是存储在Hadoop上,进行日志分析。Hadoop支持并行计算,因为它是分布式的,数据是存储在不同的机器上,如果你的需求满足分布式计算,那你就可以用MR来就行海量计算。我曾经用MR做过算法,那是2年前啦。Hadoop还可以将数据从oracle、mysql、DB2、mongdb等的数据进行ETL处理后,存储在HDFS上进行保存。它有三个副本,非常可靠。Hadoop还可以通过使用HBase做数据分析,因为HBase是基于Hadoop的数据库,可以实现实时性,高效和随机读写。

Hadoop大数据框架的发展历程

Hadoop的主要发展历程:

·2008年1月,Hadoop成为Apache顶级项目。

·2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

·2009年7月,MapReduce和HadoopDistributedFileSystem(HDFS)成为Hadoop项目的独立子项目。

·2009年7月,Avro和Chukwa成为Hadoop新的子项目。

·2010年5月,Avro脱离Hadoop项目,成为Apache顶级项目。

·2010年5月,HBase脱离Hadoop项目,成为Apache顶级项目。

·2010年9月,Hive脱离Hadoop,成为Apache顶级项目。

·2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

·2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。

·2011年1月,ZooKeeper脱离Hadoop,成为Apache顶级项目。

·2011年12月,Hadoop1.0.0版本发布,标志着Hadoop已经初具生产规模。

·2012年5月,Hadoop2.0.0-alpha版本发布,这是Hadoop-2.x系列中第一个(alpha)版本。与之前的Hadoop-1.x系列相比,Hadoop-2.x版本中加入了YARN,YARN成为了Hadoop的子项目。

·2012年10月,Impala加入Hadoop生态圈。

·2013年10月,Hadoop2.0.0版本发布,标志着Hadoop正式进入MapReducev2.0时代。

·2014年2月,Spark开始代替MapReduce成为Hadoop的默认执行引擎,并成为Apache顶级项目。

·2017年12月,继Hadoop3.0.0的四个Alpha版本和一个Beta版本后,第一个可用的Hadoop3.0.0版本发布。

hadoop mapreduce分别是干啥的

hadoop是一种架构,用来搭建分布式平台使用mapreduce是一种编程模型,是一种编程方法,抽象理论来的

1、hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括zookeeper,hive,hbase等。

2、MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。

OK,关于hadoop框架和hadoop安装详细步骤的内容到此结束了,希望对大家有所帮助。

最新文章