快捷导航
查看: 1020|回复: 0

Hadoop是什么?

[复制链接]

管理员

发表于 2020-6-29 22:45 | 显示全部楼层 |阅读模式
Hadoop是一个开源软件框架,用于存储数据并在商用硬件集群上运行应用程序。它为任何类型的数据提供了巨大的存储空间、巨大的处理能力以及处理几乎无限并发任务或作业的能力。Hadoop的历史随着万维网在20世纪后期和21世纪初的发展,搜索引擎和索引被创建来帮助在基于文本的内容中定位相关信息。在早期,搜索结果由人工返回。但是,随着web从几十个页面发展到数百万个页面,需要实现自动化。网络爬虫被创造出来,许多是由大学领导的研究项目,搜索引擎初创企业开始起飞(雅虎、AltaVista等)。其中一个项目是一个叫做Nutch的开源网络搜索引擎,它是Doug Cutting和Mike Cafarella的创意。他们希望通过在不同的计算机上分配数据和计算来更快地返回web搜索结果,这样就可以同时完成多个任务。在此期间,另一个名为谷歌的搜索引擎项目正在进行中。它基于相同的概念——以分布式、自动化的方式存储和处理数据,以便更快地返回相关的web搜索结果。2006年,Cutting加入了雅虎,带着Nutch项目以及基于谷歌的自动化分布式数据存储和处理的早期工作的想法。Nutch项目被分成两部分——网络爬虫部分保留为Nutch,分布式计算和处理部分成为Hadoop(以Cutting的儿子的玩具大象命名)。2008年,雅虎将Hadoop作为一个开源项目发布。今天,Hadoop的框架和技术生态系统由非营利的Apache软件基金会(ASF)管理和维护,ASF是一个由软件开发人员和贡献者组成的全球社区。为什么Hadoop很重要?快速:能够快速存储和处理大量的任何类型的数据,随着数据量和种类的不断增加,尤其是来自社交媒体和物联网(IoT)的数据。计算能力:Hadoop的分布式计算模型快速处理大数据。使用的计算节点越多,处理能力就越强。容错:保护数据和应用程序处理不受硬件故障的影响。如果一个节点宕机,作业将自动重定向到其他节点,以确保分布式计算不会失败,所有数据的多个副本被自动存储。灵活性:与传统的关系数据库不同,不必在存储数据之前对其进行预处理。可以存储尽可能多的数据,并决定以后如何使用它。这包括文本、图像和视频等非结构化数据。低成本:开源框架是免费的,使用普通硬件来存储大量数据。可伸缩性:可以简单地通过添加节点来扩展系统来处理更多的数据,几乎不需要管理。相关文章推荐DNS是什么?DNS域名系统解释  DNS是域名系统的缩写,是网络环境中最常见但又被误解的组件之一。简而言之,DNS通过将域名与实际的Web服务器 […]...GitHub是什么? GitHub初学者教程  从较高的层面来说,GitHub是一个基于网站和云的服务,可以帮助开发人员存储和管理他们的代码,以及跟踪和控制对 […]...3D打印机是什么?  3D打印机是一种计算机辅助制造(CAM)设备,可以创建三维物体,与传统打印机一样,3D打印机从计算机接收数字数 […]...SOA是什么?  SOA(或面向服务的体系结构)是一种技术,它可以在需要时链接网络上的各种资源。与其他类型的系统体系结构设计相比 […]...MPLS是什么意思?  MPLS是指多协议标签交换的技术操作,从本质上讲,MPLS是一种操作方案,它通过更好地利用可用的网络路径来加速 […]...
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

966SEO学习网

GMT+8, 2024-3-28 17:41

Powered by SEO学习网  本站采用创作共用版权 CC BY-NC-SA 3.0 CN 许可协议,转载或复制请注明出处

© 2014-2019 投诉建议及友链申请联系邮箱:[email protected]

快速回复 返回顶部 返回列表