hadoop生态

发布时间: 2020-11-30 18:44:30

㈠ hadoop生态圈有哪些分区

覆盖的范围和阐述的问题不同。白酒金三角是一个区域化的产业概念，辐射的区域包含四川省绝大多数酒企，而且还覆盖着贵州的一块区域。四重生态圈呢，则是讲述的生态区域的概念，突出生态环境。比如四重生态圈所指出的大生态圈-四川省生态环境；亚生态圈-射洪县生态环境；小生态圈-沱牌镇生态环境；微生态圈-沱牌舍得生态酿酒工业园。

㈡什么是 Hadoop 生态系统

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Maprece，hadoop2.0还包括YARN。

下图为hadoop的生态系统：

㈢为什么出现hadoop 生态系统

Map Rece -MapRece 是使用集群的并行，分布式算法处理大数据集的可编程模型。Apache MapRece 是从 Google MapRece 派生而来的：在大型集群中简化数据处理。当前的 Apache MapRece 版本基于 Apache YARN 框架构建。YARN ＝ “Yet-Another-Resource-Negotiator”。YARN 可以运行非 MapRece 模型的应用。YARN 是 Apache Hadoop 想要超越 MapRece 数据处理能力的一种尝试。 HDFS - The Hadoop Distributed File System (HDFS) 提供跨多个机器存储大型文件的一种解决方案。Hadoop 和 HDFS 都是从 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前，NameNode 是 HDFS 集群的一个单点故障 (SPOF) 。利用 Zookeeper，HDFS 高可用性特性解决了这个问题，提供选项来运行两个重复的 NameNodes，在同一个集群中，同一个 Active/Passive 配置。 HBase - 灵感来源于 Google BigTable。HBase 是 Google Bigtable 的开源实现，类似 Google Bigtable 利用 GFS 作为其文件存储系统，HBase 利用 Hadoop HDFS 作为其文件存储系统；Google 运行 MapRece 来处理 Bigtable 中的海量数据，HBase 同样利用 Hadoop MapRece 来处理 HBase 中的海量数据；Google Bigtable 利用 Chubby 作为协同服务，HBase 利用 Zookeeper 作为对应。 Hive - Facebook 开发的数据仓库基础设施。数据汇总，查询和分析。Hive 提供类似 SQL 的语言 (不兼容 SQL92)：HiveQL。 Pig - Pig 提供一个引擎在 Hadoop 并行执行数据流。Pig 包含一个语言：Pig Latin，用来表达这些数据流。Pig Latin 包括大量的传统数据操作 (join, sort, filter, etc.)，也可以让用户开发他们自己的函数，用来查看，处理和编写数据。Pig 在 hadoop 上运行，在 Hadoop 分布式文件系统，HDFS 和 Hadoop 处理系统，MapRece 中都有使用。Pig 使用 MapRece 来执行所有的数据处理，编译 Pig Latin 脚本，用户可以编写到一个系列，一个或者多个的 MapRece 作业，

㈣ hadoop是怎么存储大数据的

Hadoop本身是分布式框架，如果在hadoop框架下，需要配合hbase，hive等工具来进行大数据计算。如果具体深入还要了解HDFS，Map/Rece，任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈：1、Hadoop HDFS、HadoopMapRece, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。3、NoSQL，membase、MongoDb商用大数据生态圈：1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

㈤什么是Hadoop生态圈

1. hadoop 生态概况

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

具有可靠、高效、可伸缩的特点。

Hadoop的核心是YARN,HDFS和Maprece

下图是hadoop生态系统，集成spark生态圈。在未来一段时间内，hadoop将于spark共存，hadoop与spark

都能部署在yarn、mesos的资源管理系统之上

下面将分别对以上各组件进行简要介绍，具体介绍参见后续系列博文。

2、HDFS（Hadoop分布式文件系统）

源自于Google的GFS论文，发表于2003年10月，HDFS是GFS克隆版。

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群不同物理机器上。

3、Maprece（分布式计算框架）

源自于google的MapRece论文，发表于2004年12月，Hadoop MapRece是google MapRece 克隆版。

MapRece是一种分布式计算模型，用以进行大数据量的计算。它屏蔽了分布式计算框架细节，将计算抽象成map和rece两部分，

其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Rece则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。

MapRece非常适合在大量计算机组成的分布式并行环境里进行数据处理。

4.HBASE（分布式列存数据库）

源自Google的Bigtable论文，发表于2006年11月，HBase是Google Bigtable克隆版

HBase是一个建立在HDFS之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。

HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。

HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapRece来处理，它将数据存储和并行计算完美地结合在一起。

5.Zookeeper（分布式协作服务）

源自Google的Chubby论文，发表于2006年11月，Zookeeper是Chubby克隆版

解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。

6.HIVE（数据仓库）

由facebook开源，最初用于解决海量结构化的日志数据统计问题。

Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapRece任务在Hadoop上执行。通常用于离线分析。

HQL用于运行存储在Hadoop上的查询语句，Hive让不熟悉MapRece开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapRece任务。

7.Pig(ad-hoc脚本）

由yahoo!开源，设计动机是提供一种基于MapRece的ad-hoc(计算在query时发生)数据分析工具

Pig定义了一种数据流语言—Pig Latin，它是MapRece编程的复杂性的抽象,Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。

其编译器将Pig Latin翻译成MapRece程序序列将脚本转换为MapRece任务在Hadoop上执行。通常用于进行离线分析。

8.Sqoop(数据ETL/同步工具）

Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Maprece程序，充分利用了MR的并行化和容错性。

Sqoop利用数据库技术描述数据架构，用于在关系数据库、数据仓库和Hadoop之间转移数据。

9.Flume（日志收集工具）

Cloudera开源的日志收集系统，具有分布式、高可靠、高容错、易于定制和扩展的特点。

它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在Flume中定制数据发送方，从而支持收集各种不同协议数据。

同时，Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。此外，Flume还具有能够将日志写往各种数据目标（可定制）的能力。

总的来说，Flume是一个可扩展、适合复杂环境的海量日志收集系统。当然也可以用于收集其他类型数据

10.Mahout（数据挖掘算法库）

Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目。

Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。

除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

11.Oozie(工作流调度器）

Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapRece作业的执行。它能够管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。

Oozie工作流是放置在控制依赖DAG（有向无环图 Direct Acyclic Graph）中的一组动作（例如，Hadoop的Map/Rece作业、Pig作业等），其中指定了动作执行的顺序。

Oozie使用hPDL（一种XML流程定义语言）来描述这个图。

12.Yarn(分布式资源管理器）

YARN是下一代MapRece，即MRv2，是在第一代MapRece基础上演变而来的，主要是为了解决原始Hadoop扩展性较差，不支持多计算框架而提出的。

Yarn是下一代 Hadoop 计算平台，yarn是一个通用的运行时框架，用户可以编写自己的计算框架，在该运行环境中运行。

用于自己编写的框架作为客户端的一个lib，在运用提交作业时打包即可。该框架为提供了以下几个组件：

- 资源管理：包括应用程序管理和机器资源管理

- 资源双层调度

- 容错性：各个组件均有考虑容错性

- 扩展性：可扩展到上万个节点

13.Mesos（分布式资源管理器）

Mesos诞生于UC Berkeley的一个研究项目，现已成为Apache项目，当前有一些公司使用Mesos管理集群资源，比如Twitter。

与yarn类似，Mesos是一个资源统一管理和调度的平台，同样支持比如MR、steaming等多种运算框架。

14.Tachyon（分布式内存文件系统）

Tachyon（/'tæki:ˌɒn/ 意为超光速粒子）是以内存为中心的分布式文件系统，拥有高性能和容错能力，

能够为集群框架（如Spark、MapRece）提供可靠的内存级速度的文件共享服务。

Tachyon诞生于UC Berkeley的AMPLab。

15.Tez(DAG计算模型)

Tez是Apache最新开源的支持DAG作业的计算框架，它直接源于MapRece框架，核心思想是将Map和Rece两个操作进一步拆分，

即Map被拆分成Input、Processor、Sort、Merge和Output， Rece被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，

这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

目前hive支持mr、tez计算模型，tez能完美二进制mr程序，提升运算性能。

16.Spark(内存DAG计算模型)

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

最早Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用的并行计算框架。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍

17.Giraph(图计算模型)

Apache Giraph是一个可伸缩的分布式迭代图处理系统，基于Hadoop平台，灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel：大规模图表处理系统》中的原理。后来，雅虎将Giraph捐赠给Apache软件基金会。

目前所有人都可以下载Giraph，它已经成为Apache软件基金会的开源项目，并得到Facebook的支持，获得多方面的改进。

18.GraphX(图计算模型）

Spark GraphX最先是伯克利AMPLAB的一个分布式图计算框架项目，目前整合在spark运行框架中，为其提供BSP大规模并行图计算能力。

19.MLib（机器学习库）

Spark MLlib是一个机器学习库，它提供了各种各样的算法，这些算法用来在集群上针对分类、回归、聚类、协同过滤等。

20.Streaming（流计算模型）

Spark Streaming支持对流数据的实时处理，以微批的方式对实时数据进行计算

21.Kafka（分布式消息队列）

Kafka是Linkedin于2010年12月份开源的消息系统，它主要用于处理活跃的流式数据。

活跃的流式数据在web网站应用中非常常见，这些数据包括网站的pv、用户访问了什么内容，搜索了什么内容等。

这些数据通常以日志的形式记录下来，然后每隔一段时间进行一次统计处理。

22.Phoenix（hbase sql接口）

Apache Phoenix 是HBase的SQL驱动，Phoenix 使得Hbase 支持通过JDBC的方式进行访问，并将你的SQL查询转换成Hbase的扫描和相应的动作。

23.ranger(安全管理工具）

Apache ranger是一个hadoop集群权限框架，提供操作、监控、管理复杂的数据权限，它提供一个集中的管理机制，管理基于yarn的hadoop生态圈的所有数据权限。

24.knox（hadoop安全网关）

Apache knox是一个访问hadoop集群的restapi网关，它为所有rest访问提供了一个简单的访问接口点，能完成3A认证（Authentication，Authorization，Auditing）和SSO（单点登录）等

25.falcon（数据生命周期管理工具）

Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台，设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载（onboard）”到Hadoop集群。

26.Ambari（安装部署配置管理工具）

Apache Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

㈥什么是 Hadoop 生态系统

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
Hadoop的核心是HDFS和Maprece，hadoop2.0还包括YARN。

㈦如何用形象的比喻描述大数据的技术生态Hadoop、Hive、Spark 之间是什么关系

大数据本身是一个非常宽泛的概念，而Hadoop生态系统(或一般的生态系统)基本上是单一规模的数据处理。你可以把它和厨房比较，所以我需要各种工具。锅碗瓢盆，各有其用，重叠。你可以在碗里直接用汤锅。你可以用刀或飞机去皮。每个工具都有自己的特性，虽然奇数可以工作，但不一定是最好的。大数据，首先你需要能够保存大数据。传统的文件系统是单一的，而不是跨不同的机器。HDFS (Hadoop分布式文件系统)本质上是为大量数据设计的，这些数据可以跨越数千台机器，但是您看到的是一个文件系统，而不是很多文件系统。

第二代的冬季和引发新特性除了内存缓存,从本质上讲,是使Map / Rece模型更通用,让Map和Rece之间的界限更模糊,数据交换更灵活和更少的磁盘读写,为了更好地描述复杂算法,以获得更高的吞吐量。由于图形、Tez和Spark，程序员发现很难为程序编写图形。他们想简化这个过程。就像你有汇编语言一样，你几乎可以做任何事情，但你仍然觉得它很麻烦。您需要更高层次的抽象来描述算法和数据处理。所以会有一头猪和一个蜂巢。猪非常接近脚本，并使用SQL来描述图表。他们将脚本和SQL转换成程序，把它丢给计算引擎，而你没有一个繁琐的程序来用更简单、更直观的语言编写程序。在一个hive之后，发现了SQL contras。

㈧ hadoop 如何实现大数据

阅读全文

热点内容

一部国外电影，一个老男人骑个摩托车发布：2024-08-19 09:13:10 浏览：920

脖子上有睾丸是什么电影发布：2024-08-19 09:03:17 浏览：374

变形金刚撒谁家的发布：2024-08-19 08:43:06 浏览：478

美国男电影双胞胎发布：2024-08-19 08:42:20 浏览：764

黑人橄榄球少年收养电影发布：2024-08-19 08:25:26 浏览：918

夏目哉大片发布：2024-08-19 08:09:22 浏览：806

他第一部出演的电视剧是，的英语发布：2024-08-19 08:07:54 浏览：654

电影检索发布：2024-08-19 07:48:52 浏览：198

谁有视频发布：2024-08-19 07:41:55 浏览：141

成龙香港鬼片电影大全发布：2024-08-19 07:39:46 浏览：223

hadoop生态

与hadoop生态相关的资讯