--Distributed Hadoop Execution

本站首页 管理页面写新日志退出

« may 2026 »
日一二三四五六
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

公告

我的分类（专题）

首页(1304)
Eclipse(8)
J2ME(3)
OpenSymphony(16)
Hibernate(97)
Tapestry(23)
J2SE(72)
Symbian(2)
eXtremeComponents(13)
JBoss(33)
Javascript(13)
MySQL(72)
Java Open Source(104)
DWR(Ajax)(29)
Spring(61)
WebWork(15)
Apache(jakarta)(77)
软件设计(6)
算法(22)
Acegi(2)
Subversion(44)
Dojo(Ajax)(2)
Wicket(3)
IDEA(2)
ESB(6)
TinyMCE+FCKeditor(20)
Grails(1)
Prototype(Ajax)(32)
设计模式(20)
Prototype(0)
FreeMarker(17)
集成测试(14)
codehaus.org(2)
AOP(13)
Java代码(7)
Struts 2.0(6)
Groovy(5)
Linux(10)
网站架构(70)
Cache(11)
Python(40)
网络与系统管理(34)
shell/bash(4)
Pylons学习(2)
Django(88)
Ruby on Rails(120)
Ubuntu(4)
Quixote(3)
视频处理(20)
Web(UI+UE)(2)
TurboGears(25)
jQuery(2)
iBatis(7)
CentOS(2)
MySQL集群(1)
SELinux(1)

日志更新

Java中压缩与解压--中文文件名乱码解
对当前目录下所有文件进行压缩代码
java zip 中文问题
iBatis for Paging
再析在spring框架中解决多数据源的问
如何在spring框架中解决多数据源的问
SELinux 的配置小解
apache+mod_ssl中证书生成方
StatSVN的使用（续）
[原创]MySQL的LIST分区体验与总

留言板

签写新留言

我也想装饰元件
谢谢
飘过！
模板的问题
mule 求助
extremecomponents.cs
搜索呢？
[Apache(jakarta)]Apa
jsper报表的制作!
求助一下,关于compass的

链接

SpringSide
SpringFramework中文论坛
 BlogJava
Java开源大全
 Java视线论坛
 CSDN Java频道
 JavaScud开源平台
 JavaAPI中文文档
 一个不错的提供代码示例的站点
 Spring 中文开发手册(1.1.PR)
Springframework
Hibernate
Java版模式速查手册
 良葛格學習筆記
 javareference
java2s
GRAILS

Blog信息

blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7773453
建立时间:2006年5月29日

[Apache(jakarta)]Distributed Hadoop Execution
软件技术

lhwork 发表于 2006/12/13 15:29:08

Hadoop 带有一个ant的build脚本，修改target compile-examples中的include路径，设为自己的demo路径。然后运行 ant examples，会在build脚本目录下面生成一个build目录，里面已经包含了构建好的jar包等。建一个JobServerMain，内容为 public static void main(String[] args) throws IOException, InterruptedException { JobTracker.main(new String[]{}); } 用于启动JobTracker。再建一个TaskServerMain，内容 public static void main(String[] args) throws IOException { TaskTracker.main(new String[]{}); } 用于启动TaskTracker。接下来设置配置文件，将 hadoop-default.xml 中 dfs.name.dirdfs.data.dirmapred.local.dirmapred.system.dirmapred.temp.dirmapred.job.trackermapred.job.tracker.info.portmapred.task.tracker.output.portmapred.task.tracker.report.port的项 copy 到 hadoop-site.xml 中，然后放到 build 目录下面。修改 mapred.job.tracker，设为非local的地址值，这里设置为 192.168.0.200:50020。接下来的TaskTracker和Client都会连接到这个中心服务器地址。写两个bat文件来执行两个Tracker，注意TaskTracker的bat里面，classpath要写完整的绝对路径，因为它启动的子进程是使用父进程的classpath的，如果使用相对路径可能会出现问题。先启动JobTracker，它会读取配置文件，然后列出一堆参数，最后启动jetty web server。接着启动TaskServer。TaskServer可以在本机或其它地方启动，只要能够连接上JobTracker就可以了。这里在本地运行。启动后，它也是读取配置文件，然后监听Tracker和TrackerInfo两个服务的端口，最后连接到JobTracker。最后运行 Client。在运行过程中，JobTracker会不断发送Task到TaskTracker中，TaskTracker则执行MapReduce操作，执行完毕后通知JobTracker，JobTracker则定时反馈进度给Client。若此时有新的TaskTracker连接到 JobTracker中，也会承担起当前的任务执行工作。此外从Client的输出可以看到，Map和Reduce都有进度，这表明两个操作是交替执行的，当一个Map任务执行完毕，就会新增一个Reduce任务到JobTracker中。当Map操作结束后，Client输出: 060401 111358 task_r_err30a 0.5% reduce > sort 060401 111359 task_r_err30a 0.5% reduce > sort 060401 111400 task_r_err30a 0.5% reduce > sort 因为之前已经已经了部分Reduce操作，这里先进行合并。接下来是排序操作。 060401 111358 task_r_err30a 0.5% reduce > sort 060401 111359 task_r_err30a 0.5% reduce > sort 060401 111400 task_r_err30a 0.5% reduce > sort 任务执行完毕后，清理临时文件: 060401 111622 Task task_r_1o8w5i is done. 060401 111623 Server connection on port 50050 from 192.168.0.204: exiting 060401 111630 task_m_1yw1dp done; removing files. 060401 111640 task_m_2lhjqk done; removing files. 060401 111650 task_m_2o8wh3 done; removing files. 这样就完成了一整个过程。要执行大的任务，可以在一部Server上面运行JobTracker，其它n部机上运行TaskTracker，各Server处于百兆网上面，这样任务的复制传输和处理就会很高效了。文章最后，我要说说JobTracker的网络性能。根据Source，它是使用线程来处理连接的阻塞IO，当连接上来的TaskTracker比较多的时候，可能会有IO上面的问题。不知道Google的那套方案，JobTracker是不是也是分布式的呢，它们给出的性能测试中，机器群集达到了 1800 台之多，如果所有的Input都集中在一个client，job管理都集中在一个JobTracker，这样机器负担会很大，而且刚开始数据传输也没有充分利用带宽。

阅读全文(2332) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.678 second(s), page refreshed 144825237 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号