博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop入门(3)_统计单词在文件中出现的个数
阅读量:6416 次
发布时间:2019-06-23

本文共 813 字,大约阅读时间需要 2 分钟。

hot3.png

          Linux环境:CentOs6.4  

          Hadoop版本:hadoop-0.20.2

          内容:统计hadoop\bin下的所有文件中单词出现的个数。

所用到的命令有:

//创建input文件夹./hadoop fs -mkdir input//将所有的需要统计单词个数的文件放在input文件夹下./hadoop fs -put *.sh /input///运行wordcount将结果输出到output文件夹下./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output //验证某个单词的个数grep xxx *.shgrep xxx *.sh|wc

第一步:确定HDFS、MapReduce、jobTracker等是否正常启动。查看

第二步:在Hadoop文件系统根目录中创建input文件夹。

执行命令:

打开网页查看input文件夹是否创建成功:

上图表明已经成功。

第三步:将bin目录下的所有文件放到hadoop文件系统的input目录下。

执行命令:

通过浏览器查看input文件夹下是否已经存在所存放的文件。

 

第四步:执行wordcount命令统计单词个数。

  回到Hadoop文件夹下,找到统计个数的jar包。如图,在hadoop-0.20.2目录下有一个hadoop-0.20.2-examples.jar。

 

运行命令执行此jar,统计个数。并将输出结果放在output目录下。命令如下:

运行成功。

第五步:验证结果是否正确。通过命令统计某一单词的个数,与MapReduce统计的个数进行对比。

通过命令查看文件中language单词的个数为12个,如图。

 

查看MapReduce运行结果,如图:

运行结果相同。

 

附:从过页面查看运行状态

 

 

 

 

 

转载于:https://my.oschina.net/cuitongliang/blog/153471

你可能感兴趣的文章
Centos5上安装JRE和LUMAQQ
查看>>
关于监控工具的主动发起性能测试
查看>>
我的友情链接
查看>>
OpenSSL学习(十六):基础-指令rand
查看>>
KeyMob致力于打造国内领先的移动广告平台
查看>>
路由选路原则
查看>>
jvm 学习(一)
查看>>
JavaScript简介
查看>>
SQL Server附加数据库拒绝访问解决方法汇总
查看>>
SM2算法原理及实现
查看>>
RHCA教材翻译计划
查看>>
js-小括号在不同场合下的作用
查看>>
我的友情链接
查看>>
kvm中虚拟机的硬盘扩容
查看>>
Android (Launch Mode) 四种启动模式
查看>>
透视学理论(二)
查看>>
Dubbo/HSF在Service Mesh下的思考和方案
查看>>
Django form表单
查看>>
CTYL-9.14(tomcat端口与阿里云安全组,域名与tomcat配置,域名与反向代理)
查看>>
Java 多线程相关问题记录
查看>>