[转载] 用 Hadoop 进行分布式数据处理---- 入门

[复制链接]
查看11 | 回复4 | 2005-2-28 12:57:00 | 显示全部楼层 |阅读模式
作者:M. Tim Jones

尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分,但是它实际上是一个分布式数据处理框架。搜索引擎需要收集数据,而且是数量极大的数据。作为分布式框架,Hadoop 让许多应用程序能够受益于并行数据处理。

本文并不打算介绍 Hadoop 及其架构,而是演示一个简单的 Hadoop 设置。现在,我们来讨论 Hadoop 的安装和配置。

初始设置



对于本文中的示例,我们使用 Cloudera Hadoop 发行版。Cloudera 提供对各种 Linux? 发行版的支持,所以很适合初学者。

本文假设您的系统上已经安装了 Java?(至少是 1.6 版)和 cURL。如果还没有,需要先安装它们。

因为我运行 Ubuntu(Intrepid 版),所以使用 apt 实用程序获取 Hadoop 发行版。这个过程非常简单,我可以获取二进制包,而不需要下载并构建源代码。首先,告诉 apt Cloudera 站点的信息。然后,在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本:

deb http://archive.cloudera.com/debian intrepid-cdh3 contrib
deb-src http://archive.cloudera.com/debian intrepid-cdh3 contrib

回复

使用道具 举报

千问 | 2005-2-28 12:57:00 | 显示全部楼层
入门帖要顶!
才开始学习hadoop,正好用的上!
回复

使用道具 举报

千问 | 2005-2-28 12:57:00 | 显示全部楼层
顶一个
回复

使用道具 举报

千问 | 2005-2-28 12:57:00 | 显示全部楼层
学习中············
回复

使用道具 举报

千问 | 2005-2-28 12:57:00 | 显示全部楼层
内容有点少....
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

主题

0

回帖

4882万

积分

论坛元老

Rank: 8Rank: 8

积分
48824836
热门排行