hadoop生態

發布時間: 2020-11-30 18:44:30

㈠ hadoop生態圈有哪些分區

覆蓋的范圍和闡述的問題不同。白酒金三角是一個區域化的產業概念，輻射的區域包含四川省絕大多數酒企，而且還覆蓋著貴州的一塊區域。四重生態圈呢，則是講述的生態區域的概念，突出生態環境。比如四重生態圈所指出的大生態圈-四川省生態環境；亞生態圈-射洪縣生態環境；小生態圈-沱牌鎮生態環境；微生態圈-沱牌捨得生態釀酒工業園。

㈡什麼是 Hadoop 生態系統

Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。具有可靠、高效、可伸縮的特點。

Hadoop的核心是HDFS和Maprece，hadoop2.0還包括YARN。

下圖為hadoop的生態系統：

㈢為什麼出現hadoop 生態系統

Map Rece -MapRece 是使用集群的並行，分布式演算法處理大數據集的可編程模型。Apache MapRece 是從 Google MapRece 派生而來的：在大型集群中簡化數據處理。當前的 Apache MapRece 版本基於 Apache YARN 框架構建。YARN ＝「Yet-Another-Resource-Negotiator」。YARN 可以運行非 MapRece 模型的應用。YARN 是 Apache Hadoop 想要超越 MapRece 數據處理能力的一種嘗試。 HDFS - The Hadoop Distributed File System (HDFS) 提供跨多個機器存儲大型文件的一種解決方案。Hadoop 和 HDFS 都是從 Google File System (GFS) 中派生的。Hadoop 2.0.0 之前，NameNode 是 HDFS 集群的一個單點故障 (SPOF) 。利用 Zookeeper，HDFS 高可用性特性解決了這個問題，提供選項來運行兩個重復的 NameNodes，在同一個集群中，同一個 Active/Passive 配置。 HBase - 靈感來源於 Google BigTable。HBase 是 Google Bigtable 的開源實現，類似 Google Bigtable 利用 GFS 作為其文件存儲系統，HBase 利用 Hadoop HDFS 作為其文件存儲系統；Google 運行 MapRece 來處理 Bigtable 中的海量數據，HBase 同樣利用 Hadoop MapRece 來處理 HBase 中的海量數據；Google Bigtable 利用 Chubby 作為協同服務，HBase 利用 Zookeeper 作為對應。 Hive - Facebook 開發的數據倉庫基礎設施。數據匯總，查詢和分析。Hive 提供類似 SQL 的語言 (不兼容 SQL92)：HiveQL。 Pig - Pig 提供一個引擎在 Hadoop 並行執行數據流。Pig 包含一個語言：Pig Latin，用來表達這些數據流。Pig Latin 包括大量的傳統數據操作 (join, sort, filter, etc.)，也可以讓用戶開發他們自己的函數，用來查看，處理和編寫數據。Pig 在 hadoop 上運行，在 Hadoop 分布式文件系統，HDFS 和 Hadoop 處理系統，MapRece 中都有使用。Pig 使用 MapRece 來執行所有的數據處理，編譯 Pig Latin 腳本，用戶可以編寫到一個系列，一個或者多個的 MapRece 作業，

㈣ hadoop是怎麼存儲大數據的

Hadoop本身是分布式框架，如果在hadoop框架下，需要配合hbase，hive等工具來進行大數據計算。如果具體深入還要了解HDFS，Map/Rece，任務機制等等。如果要分析還要考慮其他分析展現工具。

大數據還有分析才有價值

用於分析大數據的工具主要有開源與商用兩個生態圈。開源大數據生態圈：1、Hadoop HDFS、HadoopMapRece, HBase、Hive 漸次誕生，早期Hadoop生態圈逐步形成。2、. Hypertable是另類。它存在於Hadoop生態圈之外，但也曾經有一些用戶。3、NoSQL，membase、MongoDb商用大數據生態圈：1、一體機資料庫/數據倉庫：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、數據倉庫：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、數據集市：QlikView、 Tableau 、以及國內的Yonghong Data Mart 。

㈤什麼是Hadoop生態圈

1. hadoop 生態概況

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。

用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力進行高速運算和存儲。

具有可靠、高效、可伸縮的特點。

Hadoop的核心是YARN,HDFS和Maprece

下圖是hadoop生態系統，集成spark生態圈。在未來一段時間內，hadoop將於spark共存，hadoop與spark

都能部署在yarn、mesos的資源管理系統之上

下面將分別對以上各組件進行簡要介紹，具體介紹參見後續系列博文。

2、HDFS（Hadoop分布式文件系統）

源自於Google的GFS論文，發表於2003年10月，HDFS是GFS克隆版。

HDFS是Hadoop體系中數據存儲管理的基礎。它是一個高度容錯的系統，能檢測和應對硬體故障，用於在低成本的通用硬體上運行。

HDFS簡化了文件的一致性模型，通過流式數據訪問，提供高吞吐量應用程序數據訪問功能，適合帶有大型數據集的應用程序。

它提供了一次寫入多次讀取的機制，數據以塊的形式，同時分布在集群不同物理機器上。

3、Maprece（分布式計算框架）

源自於google的MapRece論文，發表於2004年12月，Hadoop MapRece是google MapRece 克隆版。

MapRece是一種分布式計算模型，用以進行大數據量的計算。它屏蔽了分布式計算框架細節，將計算抽象成map和rece兩部分，

其中Map對數據集上的獨立元素進行指定的操作，生成鍵-值對形式中間結果。Rece則對中間結果中相同「鍵」的所有「值」進行規約，以得到最終結果。

MapRece非常適合在大量計算機組成的分布式並行環境里進行數據處理。

4.HBASE（分布式列存資料庫）

源自Google的Bigtable論文，發表於2006年11月，HBase是Google Bigtable克隆版

HBase是一個建立在HDFS之上，面向列的針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態模式資料庫。

HBase採用了BigTable的數據模型：增強的稀疏排序映射表（Key/Value），其中，鍵由行關鍵字、列關鍵字和時間戳構成。

HBase提供了對大規模數據的隨機、實時讀寫訪問，同時，HBase中保存的數據可以使用MapRece來處理，它將數據存儲和並行計算完美地結合在一起。

5.Zookeeper（分布式協作服務）

源自Google的Chubby論文，發表於2006年11月，Zookeeper是Chubby克隆版

解決分布式環境下的數據管理問題：統一命名，狀態同步，集群管理，配置同步等。

Hadoop的許多組件依賴於Zookeeper，它運行在計算機集群上面，用於管理Hadoop操作。

6.HIVE（數據倉庫）

由facebook開源，最初用於解決海量結構化的日誌數據統計問題。

Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉化為MapRece任務在Hadoop上執行。通常用於離線分析。

HQL用於運行存儲在Hadoop上的查詢語句，Hive讓不熟悉MapRece開發人員也能編寫數據查詢語句，然後這些語句被翻譯為Hadoop上面的MapRece任務。

7.Pig(ad-hoc腳本）

由yahoo!開源，設計動機是提供一種基於MapRece的ad-hoc(計算在query時發生)數據分析工具

Pig定義了一種數據流語言—Pig Latin，它是MapRece編程的復雜性的抽象,Pig平台包括運行環境和用於分析Hadoop數據集的腳本語言(Pig Latin)。

其編譯器將Pig Latin翻譯成MapRece程序序列將腳本轉換為MapRece任務在Hadoop上執行。通常用於進行離線分析。

8.Sqoop(數據ETL/同步工具）

Sqoop是SQL-to-Hadoop的縮寫，主要用於傳統資料庫和Hadoop之前傳輸數據。數據的導入和導出本質上是Maprece程序，充分利用了MR的並行化和容錯性。

Sqoop利用資料庫技術描述數據架構，用於在關系資料庫、數據倉庫和Hadoop之間轉移數據。

9.Flume（日誌收集工具）

Cloudera開源的日誌收集系統，具有分布式、高可靠、高容錯、易於定製和擴展的特點。

它將數據從產生、傳輸、處理並最終寫入目標的路徑的過程抽象為數據流，在具體的數據流中，數據源支持在Flume中定製數據發送方，從而支持收集各種不同協議數據。

同時，Flume數據流提供對日誌數據進行簡單處理的能力，如過濾、格式轉換等。此外，Flume還具有能夠將日誌寫往各種數據目標（可定製）的能力。

總的來說，Flume是一個可擴展、適合復雜環境的海量日誌收集系統。當然也可以用於收集其他類型數據

10.Mahout（數據挖掘演算法庫）

Mahout起源於2008年，最初是Apache Lucent的子項目，它在極短的時間內取得了長足的發展，現在是Apache的頂級項目。

Mahout的主要目標是創建一些可擴展的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地創建智能應用程序。

Mahout現在已經包含了聚類、分類、推薦引擎（協同過濾）和頻繁集挖掘等廣泛使用的數據挖掘方法。

除了演算法，Mahout還包含數據的輸入/輸出工具、與其他存儲系統（如資料庫、MongoDB 或Cassandra）集成等數據挖掘支持架構。

11.Oozie(工作流調度器）

Oozie是一個可擴展的工作體系，集成於Hadoop的堆棧，用於協調多個MapRece作業的執行。它能夠管理一個復雜的系統，基於外部事件來執行，外部事件包括數據的定時和數據的出現。

Oozie工作流是放置在控制依賴DAG（有向無環圖 Direct Acyclic Graph）中的一組動作（例如，Hadoop的Map/Rece作業、Pig作業等），其中指定了動作執行的順序。

Oozie使用hPDL（一種XML流程定義語言）來描述這個圖。

12.Yarn(分布式資源管理器）

YARN是下一代MapRece，即MRv2，是在第一代MapRece基礎上演變而來的，主要是為了解決原始Hadoop擴展性較差，不支持多計算框架而提出的。

Yarn是下一代 Hadoop 計算平台，yarn是一個通用的運行時框架，用戶可以編寫自己的計算框架，在該運行環境中運行。

用於自己編寫的框架作為客戶端的一個lib，在運用提交作業時打包即可。該框架為提供了以下幾個組件：

- 資源管理：包括應用程序管理和機器資源管理

- 資源雙層調度

- 容錯性：各個組件均有考慮容錯性

- 擴展性：可擴展到上萬個節點

13.Mesos（分布式資源管理器）

Mesos誕生於UC Berkeley的一個研究項目，現已成為Apache項目，當前有一些公司使用Mesos管理集群資源，比如Twitter。

與yarn類似，Mesos是一個資源統一管理和調度的平台，同樣支持比如MR、steaming等多種運算框架。

14.Tachyon（分布式內存文件系統）

Tachyon（/'tæki:ˌɒn/ 意為超光速粒子）是以內存為中心的分布式文件系統，擁有高性能和容錯能力，

能夠為集群框架（如Spark、MapRece）提供可靠的內存級速度的文件共享服務。

Tachyon誕生於UC Berkeley的AMPLab。

15.Tez(DAG計算模型)

Tez是Apache最新開源的支持DAG作業的計算框架，它直接源於MapRece框架，核心思想是將Map和Rece兩個操作進一步拆分，

即Map被拆分成Input、Processor、Sort、Merge和Output， Rece被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，

這樣，這些分解後的元操作可以任意靈活組合，產生新的操作，這些操作經過一些控製程序組裝後，可形成一個大的DAG作業。

目前hive支持mr、tez計算模型，tez能完美二進制mr程序，提升運算性能。

16.Spark(內存DAG計算模型)

Spark是一個Apache項目，它被標榜為「快如閃電的集群計算」。它擁有一個繁榮的開源社區，並且是目前最活躍的Apache項目。

最早Spark是UC Berkeley AMP lab所開源的類Hadoop MapRece的通用的並行計算框架。

Spark提供了一個更快、更通用的數據處理平台。和Hadoop相比，Spark可以讓你的程序在內存中運行時速度提升100倍，或者在磁碟上運行時速度提升10倍

17.Giraph(圖計算模型)

Apache Giraph是一個可伸縮的分布式迭代圖處理系統，基於Hadoop平台，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

最早出自雅虎。雅虎在開發Giraph時採用了Google工程師2010年發表的論文《Pregel：大規模圖表處理系統》中的原理。後來，雅虎將Giraph捐贈給Apache軟體基金會。

目前所有人都可以下載Giraph，它已經成為Apache軟體基金會的開源項目，並得到Facebook的支持，獲得多方面的改進。

18.GraphX(圖計算模型）

Spark GraphX最先是伯克利AMPLAB的一個分布式圖計算框架項目，目前整合在spark運行框架中，為其提供BSP大規模並行圖計算能力。

19.MLib（機器學習庫）

Spark MLlib是一個機器學習庫，它提供了各種各樣的演算法，這些演算法用來在集群上針對分類、回歸、聚類、協同過濾等。

20.Streaming（流計算模型）

Spark Streaming支持對流數據的實時處理，以微批的方式對實時數據進行計算

21.Kafka（分布式消息隊列）

Kafka是Linkedin於2010年12月份開源的消息系統，它主要用於處理活躍的流式數據。

活躍的流式數據在web網站應用中非常常見，這些數據包括網站的pv、用戶訪問了什麼內容，搜索了什麼內容等。

這些數據通常以日誌的形式記錄下來，然後每隔一段時間進行一次統計處理。

22.Phoenix（hbase sql介面）

Apache Phoenix 是HBase的SQL驅動，Phoenix 使得Hbase 支持通過JDBC的方式進行訪問，並將你的SQL查詢轉換成Hbase的掃描和相應的動作。

23.ranger(安全管理工具）

Apache ranger是一個hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的hadoop生態圈的所有數據許可權。

24.knox（hadoop安全網關）

Apache knox是一個訪問hadoop集群的restapi網關，它為所有rest訪問提供了一個簡單的訪問介面點，能完成3A認證（Authentication，Authorization，Auditing）和SSO（單點登錄）等

25.falcon（數據生命周期管理工具）

Apache Falcon 是一個面向Hadoop的、新的數據處理和管理平台，設計用於數據移動、數據管道協調、生命周期管理和數據發現。它使終端用戶可以快速地將他們的數據及其相關的處理和管理任務「上載（onboard）」到Hadoop集群。

26.Ambari（安裝部署配置管理工具）

Apache Ambari 的作用來說，就是創建、管理、監視 Hadoop 的集群，是為了讓 Hadoop 以及相關的大數據軟體更容易使用的一個web工具。

㈥什麼是 Hadoop 生態系統

Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。具有可靠、高效、可伸縮的特點。
Hadoop的核心是HDFS和Maprece，hadoop2.0還包括YARN。

㈦如何用形象的比喻描述大數據的技術生態Hadoop、Hive、Spark 之間是什麼關系

大數據本身是一個非常寬泛的概念，而Hadoop生態系統(或一般的生態系統)基本上是單一規模的數據處理。你可以把它和廚房比較，所以我需要各種工具。鍋碗瓢盆，各有其用，重疊。你可以在碗里直接用湯鍋。你可以用刀或飛機去皮。每個工具都有自己的特性，雖然奇數可以工作，但不一定是最好的。大數據，首先你需要能夠保存大數據。傳統的文件系統是單一的，而不是跨不同的機器。HDFS (Hadoop分布式文件系統)本質上是為大量數據設計的，這些數據可以跨越數千台機器，但是您看到的是一個文件系統，而不是很多文件系統。

第二代的冬季和引發新特性除了內存緩存,從本質上講,是使Map / Rece模型更通用,讓Map和Rece之間的界限更模糊,數據交換更靈活和更少的磁碟讀寫,為了更好地描述復雜演算法,以獲得更高的吞吐量。由於圖形、Tez和Spark，程序員發現很難為程序編寫圖形。他們想簡化這個過程。就像你有匯編語言一樣，你幾乎可以做任何事情，但你仍然覺得它很麻煩。您需要更高層次的抽象來描述演算法和數據處理。所以會有一頭豬和一個蜂巢。豬非常接近腳本，並使用SQL來描述圖表。他們將腳本和SQL轉換成程序，把它丟給計算引擎，而你沒有一個繁瑣的程序來用更簡單、更直觀的語言編寫程序。在一個hive之後，發現了SQL contras。

㈧ hadoop 如何實現大數據

閱讀全文

熱點內容

一部國外電影，一個老男人騎個摩托車發布：2024-08-19 09:13:10 瀏覽：920

脖子上有睾丸是什麼電影發布：2024-08-19 09:03:17 瀏覽：374

變形金剛撒誰家的發布：2024-08-19 08:43:06 瀏覽：478

美國男電影雙胞胎發布：2024-08-19 08:42:20 瀏覽：764

黑人橄欖球少年收養電影發布：2024-08-19 08:25:26 瀏覽：918

夏目哉大片發布：2024-08-19 08:09:22 瀏覽：806

他第一部出演的電視劇是，的英語發布：2024-08-19 08:07:54 瀏覽：654

電影檢索發布：2024-08-19 07:48:52 瀏覽：198

誰有視頻發布：2024-08-19 07:41:55 瀏覽：141

成龍香港鬼片電影大全發布：2024-08-19 07:39:46 瀏覽：223

hadoop生態

與hadoop生態相關的資訊