Hadoop 起源於 2002 年開始的 Apache Nutch, 他是 Apache Lucene 的子項目之一. 直到 2006 年, Hadoop 才逐漸成為一套完整而獨立的軟件, 並被正式命名. 當時最大的支持者是 Yahoo!. 2008 年初, Hadoop 開始應用到 Yahoo 以外的互聯網公司. Hadoop 並不是一個縮寫, 而是一個虛擬的名字. 該項目的創建者 Doug Cutting 是這樣解釋 Hadoop 的得名:
Hadoop 的起源:
MapReduce 編成思想是由 Google 工程師 Jeffrey Dean 於 2004 年提出來的, 與此同時, Google 也發表了 GFS, BigTable 等底層系統以應用 MapReduce 模型. 2007 年, Google 公司發布了Google's MapReduce Programming Model-Revised 論文, 在該論文中介紹了 Google MapReduce 模型以及 Sazwall 並行處理海量數據分析語言. Google 以 MapReduce 做為基石, 逐漸發展成全球互聯網的佼佼者. 然而也許出於技術保密的目的, 在該論文中並沒有透漏其 MapReduce 的實現細節.
Hadoop 之父 Doug Cutting 開發出 Hadoop 是 MapReduce 的開源實現, 使得 MapReduce 技術能如此迅速的發展. 2006 年 Doug Cutting 獲邀加入 Yahoo 並專攻 Hadoop 項目並對其進行開發並於 2006 年 2 月, Hadoop 項目從 Nutch 項目中獨立出來, 並正式成為 Apache 組織中一個專注於 DFS 與 MapReduce 的開源項目. 同年 4 月, Hadoop 搜尋排序速度打敗了世界紀錄, 成為世界上最快的 TB 等級數據排序系統. 在一個 910 個節點上, Hadoop 僅僅用了 209 秒, 就完成了對 1TB 數據的排序! (上一屆花了 297 秒). 2008 年 11 月, Google 宣布它的 MapReduce 只用了 68 秒就完成了 1TB 數據的排序. 同時 Yahoo 團隊採用 Hadoop 對 1TB 數據進行排序只花了 62 秒.
如今 Hadoop 不僅致力於應付廣大網絡流量的科學研究, 而且還涉及搜尋引擎, 廣告優化, 機器學習等領域, 並成為 IT 產業裡優秀的大數據平台.
什麼是 Hadoop:
Hadoop 是一個分布式處理的軟體框架, 主要處理大量數據並實現了 MapReduce 一樣的編程思想與架構, 能在大量計算機組成的叢集中運行海量資料並進行分布式計算. 它可以處理的數據等級能夠到達 PB 級別 (1PB = 1,000TB), 並可以讓應用程序在上千結點中進行分布式處理, 處理方式是 可靠的, 高效的, 並具備 動態擴充 能力.
- Hadoop 是可靠的
- Hadoop 是高效的
- Hadoop 具備動態擴充能力
- Hadoop 支持的開發語言
- Hadoop 的組成
Hadoop 的族群:
整個 Hadoop 的核心內容分別列舉如下:
- HDFS
- MapReduce
- Common
- Avro
- Pig
- Hive
- HBase
- Mahout
- ZooKeeper
Hadoop 的技術核心包括 HDFS, MapReduce, HBase, 它們分別是 Google 核心技術 GFS, MapReduce 與 BigTable 的開源實現.
Supplement:
* 初探Hadoop開放原始碼平台環境
沒有留言:
張貼留言