--Crawl the Nutch -- Map Reduce

本站首页 管理页面写新日志退出

« August 2025 »
日一二三四五六
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

公告

我的分类（专题）

首页(1304)
Eclipse(8)
J2ME(3)
OpenSymphony(16)
Hibernate(97)
Tapestry(23)
J2SE(72)
Symbian(2)
eXtremeComponents(13)
JBoss(33)
Javascript(13)
MySQL(72)
Java Open Source(104)
DWR(Ajax)(29)
Spring(61)
WebWork(15)
Apache(jakarta)(77)
软件设计(6)
算法(22)
Acegi(2)
Subversion(44)
Dojo(Ajax)(2)
Wicket(3)
IDEA(2)
ESB(6)
TinyMCE+FCKeditor(20)
Grails(1)
Prototype(Ajax)(32)
设计模式(20)
Prototype(0)
FreeMarker(17)
集成测试(14)
codehaus.org(2)
AOP(13)
Java代码(7)
Struts 2.0(6)
Groovy(5)
Linux(10)
网站架构(70)
Cache(11)
Python(40)
网络与系统管理(34)
shell/bash(4)
Pylons学习(2)
Django(88)
Ruby on Rails(120)
Ubuntu(4)
Quixote(3)
视频处理(20)
Web(UI+UE)(2)
TurboGears(25)
jQuery(2)
iBatis(7)
CentOS(2)
MySQL集群(1)
SELinux(1)

日志更新

Java中压缩与解压--中文文件名乱码解
对当前目录下所有文件进行压缩代码
java zip 中文问题
iBatis for Paging
再析在spring框架中解决多数据源的问
如何在spring框架中解决多数据源的问
SELinux 的配置小解
apache+mod_ssl中证书生成方
StatSVN的使用（续）
[原创]MySQL的LIST分区体验与总

留言板

签写新留言

我也想装饰元件
谢谢
飘过！
模板的问题
mule 求助
extremecomponents.cs
搜索呢？
[Apache(jakarta)]Apa
jsper报表的制作!
求助一下,关于compass的

链接

SpringSide
SpringFramework中文论坛
 BlogJava
Java开源大全
 Java视线论坛
 CSDN Java频道
 JavaScud开源平台
 JavaAPI中文文档
 一个不错的提供代码示例的站点
 Spring 中文开发手册(1.1.PR)
Springframework
Hibernate
Java版模式速查手册
 良葛格學習筆記
 javareference
java2s
GRAILS

Blog信息

blog名称:
日志总数:1304
评论数量:2242
留言数量:5
访问次数:7590881
建立时间:2006年5月29日

[Apache(jakarta)]Crawl the Nutch -- Map Reduce
软件技术

lhwork 发表于 2006/12/13 15:34:47

Crawl the Nutch -- Map Reduce 初见于Google Lab的Paper, http://labs.google.com/papers/mapreduce.html，论文中表明在有大量集群支撑的情况下，可以快速的在海量文档中进行数据处理。现在你有一堆数据，你需要按记录修改、查询、插入和删除，一种办法是你为这些记录建立索引，比如放入数据库，还有一种办法就是--MapReduce。这种处理方式实际上是在数据存放的时候不建立索引，等实际处理数据的时候再将这些数据读入内存进行排序，并可以用Partitioner将数据分在不同的机器上同时进行处理，因此可以方便的实现集群计算，我猜想在一台机器上存放的数据容量以能够全部装进内存为限。 MapReduce把对数据记录的所有操作都归结两个步骤--Map和Reduce。其中Map对现有数据做一个先期处理，得到一个中间数据集，Reduce再对中间数据集进行去重、过滤等后期处理，最后得到你要的结果。Hadoop是一个MapReduce的实现，Nutch项目的大容量数据处理等功能就构建在Hadoop之上。过程原形： Map :: (InitialKey, IntialValue) -> [(InterKey, InterValue)] Reduce :: (Interkey, InterValuesIterator) -> [(InterKey, InterValue)] Map 接收一个Key、Value对，返回一个Key、Value对（如果原始的Key、Value对不满足你的要求你可以不返回，或者你有特殊需求也可以返回多个，一般比较少见）, Reduce接收一个Key和一个Values的Iterator，你可以根据情况返回零个或多个Key,Value对。Key是一个实现了 org.apache.hadoop.WritableComparable接口的类，Value则实现了Writable， WritableComparable是Writable的子接口，Writable定义了输入输出(序列化)的接口， WritableComparable另外继承Comparable，因此Key总是有序的。一个使用MapReduce的功能块典型结构如下：新建一个JobConf 设置输入路径设置输入文件格式设置输入Key，Value类型设置输出路径设置输出文件格式设置输出Key，Value类型设置Partitioner 启动Job 执行完毕，你所有存放在输入路径下的数据都在被转换之后按照你指定的格式存放于输出路径中， ok，我知道很多人都是看code比看document更兴奋，很不幸，我也是其中一员。 . 排序比如你有一批URL，存放在文本文件c:/tmp/tmpin/urllist.txt中，一行一个 http://www.sohu.com http://www.163.com http://www.sina.com.cn ... 输入格式一般是SequenceFileInputFormat，但是对于urllist.txt这种按行排列的格式却是另外一种(我不知道的)格式，简单来说就是你不需要设定输入格式就能处理它了，在MapReduce传递给你的Map时，你可以忽略Key值，而Value 就是URL了，然后你做一个转换把Value(URL)作为Key来存放，然后你自己合成一个Value值，比如只是简单的一个数字1，或者是一个URL 的相关信息，DocumentId, 预计抓取时间等。因为这次的任务是排序，而事实上经过Map处理后数据已经是按Key（URL）排好序了，所以Reduce可以什么也不做。 public class Main { public static class InjectMapper extends MapReduceBase implements Mapper { public void map(WritableComparable key, Writable val, OutputCollector output, Reporter reporter) throws IOException { UTF8 url = (UTF8) val; UTF8 v = new UTF8("1"); output.collect(url, v); //生成数据 } } public static void main(String[] args) throws IOException { JobConf job = new JobConf(); Path urlsPath = new Path("C:/tmp/tmpin"); job.setInputPath(urlsPath); Path outputPath = new Path("c:/tmp/tmpout"); job.setOutputPath(outputPath); job.setOutputFormat(SequenceFileOutputFormat.class); job.setOutputKeyClass(UTF8.class); job.setOutputValueClass(UTF8.class); job.setMapperClass(InjectMapper.class); //job.setReduceClass(InjectReducer.class); JobClient.runJob(job); } } . 去重你的原始URL列表中可能有相同的URL，去除相同Key值记录的功能就需要Reduce了，定义一个类 public static class InjectReducer extends MapReduceBase implements Reducer { public void reduce(WritableComparable key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { output.collect(key, (Writable) values.next()); } } 并传递给JobConf就Ok了，由此可以看出Reduce过程对于同一个Key只被调用一次，那个values的Iterator包含这个Key所对应的全部记录，你可以简单的只取第一条数据，对这些记录进行比较，得到你认为最有效的一条记录，或者统计每一个Key都有多少条记录，一句话，你可以做任何事情（事实上是任何MapReduce所支持的事情）。

阅读全文(1818) | 回复(0) | 编辑 | 精华

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.047 second(s), page refreshed 144758609 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号