当前位置:Home-FurnishingsHome

英语hadoop

2025-03-15 02:13:11Home-FurnishingsHome

为什么说Hadoop是一个生态系统?Hadoop 本身是一款开源大数据组件,它包括三个部分:MapReduce计算模型、HDFS 分布式文件系统、Yarn 资源管理系统。像现在其他 Hadoop 相关的大数据组件,比如HBase、Hive等,因为这些组件底层其实还是依赖 Hadoop 系统的功能模块来进行实现的,没有完全脱离于 Hadoop 系统单独形成一个开源组件

亚博体育

为什么说Hadoop是一个生态系统?

Hadoop 本身是一款开源大数据组件,它包括三个部分:MapReduce计算模型、HDFS 分布式文件系统、Yarn 资源管理系统。像现在其他 Hadoop 相关的大数据组件,比如HBase、Hive等,因为这些组件底层其实还是依赖 Hadoop 系统的功能模块来进行实现的,没有完全脱离于 Hadoop 系统单独形成一个开源组件。所以整体 Hadoop 生态系统包含很多大数据组件。

比如像 HBase NoSQL 数据库的实现,最底层是以 澳门新葡京HFile 文件进行存储,而 HFile 文件是在 HDFS 上面进行存储。HBase 整体上理解可以认为是一个基于 Hadoop HDFS 分布式文件系统的一个数据库。使用 HDFS 分布式文件系统进行存储时,因为 HDFS 本身具有分区容错性,同时HDFS 文件系统是分布式的,未来在机器扩容《读:róng》时,也非常方便。

现在其实也有很多分布式计算引擎也属于 Hadoop 生态系统,比如 Spark ,Storm等。公司其实为了大数据技术的收敛,一般都会统一来使用 Yarn 资源管理器来管理和调度集群的资源,而很多 Spark 任务、Storm 任务也支持在 Yarn 上面进行运行,而 Yarn 资源管理器又属于 Hadoop 本身的一个模块,所以它们属于 Hadoop 生态系统的一员。

虽然 Hadoop 生态系统有很多大数据组件,但是新人在学习入门的时候,我建议还是先从 Hadoop 底层的原理和 Hadoop API 的使用进行入手,先去了解一[练:yī]下 Hadoop 亚博体育到底是一个什么样的大数据组件,它包含了哪些,它的功能是什么等等。我建议可以先从《Hadoop权威指南》这本书开始看起。

如果书确实看不懂的话,可以去网上看一些 H澳门新葡京adoop 的技术博客,有些技术博客比书本要讲解《练:jiě》的清楚,同时,你也可以从网上下载 Hadoop 相关的视频来进行学习,想入门大数据的朋友,我推荐先从 Hadoop 入手。

直播吧

我是Lake,专注大数据技术原理、人工智能、数据库技【读:jì】术、程序员澳门伦敦人经验分享,如果我的问答对你有帮助的话,希望你能点赞关注我,感谢。

爱游戏体育

我会持续大数据、数据库方面的内容,如果你有任何问题澳门银河,也欢迎关注私信我,我会认真(读:zhēn)解答每一个问题。期待您的关注

本文链接:http://10.21taiyang.com/Home-FurnishingsHome/21391973.html
英语hadoop转载请注明出处来源