Hadoop1X,Hadoop2X和hadoop3X有很大的區別麽?

數據智能相依偎 2024-04-22 01:57:32
Hadoop的演進從Hadoop 1到Hadoop 3主要是爲了提供更高的效率、更好的資源管理、更高的可靠性以及對更多數據處理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之間的主要區別和演進的原因: Hadoop 1 特點: 主要包括兩大核心組件:HDFS(Hadoop Distributed File System)和MapReduce。Hadoop 1的資源管理和作業調度都由JobTracker完成,JobTracker同時負責資源管理和作業監控。局限性: 單點故障:NameNode是HDFS的單點故障。如果NameNode宕機,整個系統將無法使用。可擴展性:由于所有的資源管理和調度任務都由JobTracker管理,當集群規模增大時,JobTracker的性能成爲瓶頸。資源利用率:MapReduce作業中Map任務和Reduce任務不能獨立擴展,導致資源利用率不高。只支持MapReduce計算模型,不適用于其他類型的計算任務,如圖處理、叠代計算等。Hadoop 2 主要改進: 引入了YARN(Yet Another Resource Negotiator),將資源管理和作業調度的功能分開:ResourceManager:負責系統的資源管理。ApplicationMaster:每個應用程序(如一個MapReduce作業)有其自己的ApplicationMaster,負責該應用的資源協調和監控。支持了NameNode的高可用性配置,可以通過配置活動和備用NameNode來防止單點故障。優點: 更好的資源管理:允許更靈活的資源分配,提高資源利用率。可擴展性:ResourceManager僅管理資源,而不負責作業調度,極大提高了系統的擴展性。多框架支持:除了MapReduce,還可以支持其他計算框架,如Apache Spark、Apache Tez等。Hadoop 3 主要改進: 支持更多的NameNode和更高的可擴展性,允許構建更大的集群。增加了Erasure Coding(糾刪碼),提高了存儲效率,降低了存儲成本。改進了YARN資源管理模型,增加了對Docker容器的支持。優點: 更高的數據存儲效率:通過Erasure Coding,相比Hadoop 2使用的三份數據複制,可以節省大量的存儲空間。更大的集群規模:支持更多的數據節點和更大的集群。更強的資源管理:引入了更多的調度策略和容器化支持,使得資源管理更加靈活。爲什麽這樣演進 Hadoop的這些演進主要是爲了解決早期版本中存在的問題,如資源管理效率低下、系統可擴展性差、對新類型計算模型支持不足等。隨著數據處理需求的多樣化和技術的發展,Hadoop不斷演進以滿足更高效、更可靠、更靈活的大數據處理需求。
0 阅读:11

數據智能相依偎

簡介:感謝大家的關注