当前位置：首页 > 前端设计 > 正文

hadoop框架？hadoop安装详细步骤

夕逆IT
前端设计
2023-08-13
86

大家好，感谢邀请，今天来为大家分享一下hadoop框架的问题，以及和hadoop安装详细步骤的一些困惑，大家要是还不太明白的话，也没有关系，因为接下来将为大家分享，希望...

大家好，感谢邀请，今天来为大家分享一下hadoop框架的问题，以及和hadoop安装详细步骤的一些困惑，大家要是还不太明白的话，也没有关系，因为接下来将为大家分享，希望可以帮助到大家，解决大家的问题，下面就开始吧！

Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

hadoop的背景与意义

HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能的靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。

hadoop集群搭建

hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

hadoop实现了一个分布式文件系统，简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；

而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。

hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

Hadoop一般用在哪些业务场景

Hadoop可以做大数据量存储，它是分布式，可以存储离线的数据，不需要实时性的数据，就像云盘，网盘那样，你用的时候，可以直接读取就行。你也可以将历史数据存储在Hadoop上，通过整体来分析数据，比抽样的数据要全，更可靠。还可以处理大型文件，比如PB级别的，因为它的HDFS是分布式存储数据的，它会将数据按块来进行存储，一般是128M，现在3.0是256M。Hadoop可以做日志处理:通过MapReduce编程可以抽取想要的内容，也可以结合Flume来收集想要的数据，并通过Hive将数据保存到表，实际上数据底层还是存储在Hadoop上，进行日志分析。Hadoop支持并行计算，因为它是分布式的，数据是存储在不同的机器上，如果你的需求满足分布式计算，那你就可以用MR来就行海量计算。我曾经用MR做过算法，那是2年前啦。Hadoop还可以将数据从oracle、mysql、DB2、mongdb等的数据进行ETL处理后，存储在HDFS上进行保存。它有三个副本，非常可靠。Hadoop还可以通过使用HBase做数据分析，因为HBase是基于Hadoop的数据库，可以实现实时性，高效和随机读写。

Hadoop大数据框架的发展历程

Hadoop的主要发展历程：

·2008年1月，Hadoop成为Apache顶级项目。

·2008年6月，Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

·2009年7月，MapReduce和HadoopDistributedFileSystem(HDFS)成为Hadoop项目的独立子项目。

·2009年7月，Avro和Chukwa成为Hadoop新的子项目。

·2010年5月，Avro脱离Hadoop项目，成为Apache顶级项目。

·2010年5月，HBase脱离Hadoop项目，成为Apache顶级项目。

·2010年9月，Hive脱离Hadoop，成为Apache顶级项目。

·2010年9月，Pig脱离Hadoop，成为Apache顶级项目。

·2010年-2011年，扩大的Hadoop社区忙于建立大量的新组件(Crunch，Sqoop，Flume，Oozie等)来扩展Hadoop的使用场景和可用性。

·2011年1月，ZooKeeper脱离Hadoop，成为Apache顶级项目。

·2011年12月，Hadoop1.0.0版本发布，标志着Hadoop已经初具生产规模。

·2012年5月，Hadoop2.0.0-alpha版本发布，这是Hadoop-2.x系列中第一个(alpha)版本。与之前的Hadoop-1.x系列相比，Hadoop-2.x版本中加入了YARN，YARN成为了Hadoop的子项目。

·2012年10月，Impala加入Hadoop生态圈。

·2013年10月，Hadoop2.0.0版本发布，标志着Hadoop正式进入MapReducev2.0时代。

·2014年2月，Spark开始代替MapReduce成为Hadoop的默认执行引擎，并成为Apache顶级项目。

·2017年12月，继Hadoop3.0.0的四个Alpha版本和一个Beta版本后，第一个可用的Hadoop3.0.0版本发布。

hadoop mapreduce分别是干啥的

hadoop是一种架构，用来搭建分布式平台使用mapreduce是一种编程模型，是一种编程方法，抽象理论来的

1、hadoop是一种分布式系统的平台，通过它可以很轻松的搭建一个高效、高质量的分布系统，而且它还有许多其它的相关子项目，也就是对它的功能的极大扩充，包括zookeeper,hive,hbase等。

2、MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs,一部是分布式计算框，就是mapreduce,缺一不可，也就是说，可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。

OK，关于hadoop框架和hadoop安装详细步骤的内容到此结束了，希望对大家有所帮助。

本文由夕逆IT于2023-08-13发表在夕逆IT，如有疑问，请联系我们。
本文链接：http://www.xinin56.com/qianduan/5751.html

上一篇：数据库系统概论电子版教材，数据库概论第五版

下一篇：oracle数据库实用教程？oracle如何新建一个数据库

hadoop框架？hadoop安装详细步骤

Hadoop是什么

hadoop的背景与意义

hadoop集群搭建

Hadoop一般用在哪些业务场景

Hadoop大数据框架的发展历程

hadoop mapreduce分别是干啥的

最新文章

网站分类

精彩推荐

hadoop框架？hadoop安装详细步骤

Hadoop是什么

hadoop的背景与意义

hadoop集群搭建

Hadoop一般用在哪些业务场景

Hadoop大数据框架的发展历程

hadoop mapreduce分别是干啥的

相关文章

最新文章

网站分类

精彩推荐