[转载] 用 Hadoop 进行分布式数据处理---- 入门

显示全部楼层 · 2005-2-28 12:57:00

作者：M. Tim Jones

尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分，但是它实际上是一个分布式数据处理框架。搜索引擎需要收集数据，而且是数量极大的数据。作为分布式框架，Hadoop 让许多应用程序能够受益于并行数据处理。

本文并不打算介绍 Hadoop 及其架构，而是演示一个简单的 Hadoop 设置。现在，我们来讨论 Hadoop 的安装和配置。

初始设置

对于本文中的示例，我们使用 Cloudera Hadoop 发行版。Cloudera 提供对各种 Linux? 发行版的支持，所以很适合初学者。

本文假设您的系统上已经安装了 Java?（至少是 1.6 版）和 cURL。如果还没有，需要先安装它们。

因为我运行 Ubuntu（Intrepid 版），所以使用 apt 实用程序获取 Hadoop 发行版。这个过程非常简单，我可以获取二进制包，而不需要下载并构建源代码。首先，告诉 apt Cloudera 站点的信息。然后，在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本：

deb http://archive.cloudera.com/debian intrepid-cdh3 contrib
deb-src http://archive.cloudera.com/debian intrepid-cdh3 contrib

千问 · 2005-2-28 12:57:00

入门帖要顶！
才开始学习hadoop，正好用的上！

千问 · 2005-2-28 12:57:00

顶一个

千问 · 2005-2-28 12:57:00

学习中············

千问 · 2005-2-28 12:57:00

内容有点少....