用PHP编写Hadoop的MapReduce程序 - wicrenet - 博客园知识图谱

用PHP编写Hadoop的MapReduce程序 - wicrenet - 博客园

本站和网页 https://www.cnblogs.com/wicrenet/p/5083613.html 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

用PHP编写Hadoop的MapReduce程序 - wicrenet - 博客园
首页
新闻
博问
专区
闪存
班级
我的博客
我的园子
账号设置
简洁模式 ...
退出登录
注册
登录
Wicrenet
首页
新随笔
联系
订阅
管理
用PHP编写Hadoop的MapReduce程序
用PHP写hadoop的mapreduce程序
Hadoop本身是Java写的，所以，给hadoop写mapreduce，人们会自然地想到java
但hadoop里面有个contrib叫做hadoop streaming，这是一个小工具，为hadoop提供streaming支持，使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper 或者 reducer
例如：hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc
在这个例子里，就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer，是不是很神奇？
如果你习惯了使用一些动态语言，用动态语言来写mapreduce吧，跟之前的编程没有任何不同，hadoop只是运行它的一个框架，下面我演示一下用PHP来实现Word Counter的mapreduce。
找到streaming jar
hadoop根目录下是没有hadoop-streaming.jar的，因为streaming是一个contrib，所以要去contrib下面找，以hadoop-0.20.2为例，它在这里：
$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar
写mapper
新建一个wc_mapper.php，写入如下代码：
#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
$words = preg_split(‘/\W/’, $line, 0, PREG_SPLIT_NO_EMPTY);
foreach ($words as $word)
$results[] = $word;
fclose($in);
foreach ($results as $key => $value)
print “$value\t1\n”;
}?>
这段代码的大致意思是：把输入的每行文本中的单词找出来，并以”
hello 1
world 1″
这样的形式输出出来。
和之前写的PHP基本没有什么不同，对吧，可能稍微让你感到陌生有两个地方：
PHP作为可执行程序
第一行的“#!/usr/bin/php”告诉linux，要用/usr/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了，每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python
有了这一行，保存好这个文件以后，就可以像这样直接把wc_mapper.php当作cat, grep一样的命令执行了：./wc_mapper.php
使用stdin接收输入
PHP支持多种参数传入的方法，大家最熟悉的应该是从$_GET, $_POST超全局变量里面取通过Web传递的参数，次之是从$_SERVER['argv']里取通过命令行传入的参数，这里，采用的是标准输入stdin
它的使用效果是：
在linux控制台输入 ./wc_mapper.php
wc_mapper.php运行，控制台进入等候用户键盘输入状态
用户通过键盘输入文本
用户按下Ctrl + D终止输入，wc_mapper.php开始执行真正的业务逻辑，并将执行结果输出
那么stdout在哪呢？print本身已经就是stdout啦，跟我们以前写web程序和CLI脚本没有任何不同。
写reducer
新建一个wc_reducer.php，写入如下代码：
#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
list($key, $value) = preg_split(“/\t/”, trim($line), 2);
$results[$key] += $value;
fclose($in);
ksort($results);
foreach ($results as $key => $value)
print “$key\t$value\n”;
}?>
这段代码的大意是统计每个单词出现了多少次，并以”
hello 2
world 1″
这样的形式输出
用hadoop来运行
上传要统计的示例文本
hadoop fs -put *.TXT /tmp/input
以Streaming方式执行PHP mapreduce程序
hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php的绝对路径 -reducer wc_reducer.php的绝对路径
注意：
input和output目录是在hdfs上的路径
mapper和reducer是在本地机器的路径，一定要写绝对路径，不要写相对路径，以免到时候hadoop报错说找不到mapreduce程序
查看结果
hadoop fs -cat /tmp/output/part-00000
posted @
2015-12-28 19:58
wicrenet
阅读(382)
评论(0)
编辑
收藏
举报
刷新评论刷新页面返回顶部
Copyright 2022 wicrenet
Powered by .NET 7.0 on Kubernetes