Hadoop入门(3)_统计单词在文件中出现的个数-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop入门(3)_统计单词在文件中出现的个数

阅读量：6416 次

发布时间：2019-06-23

本文共 813 字，大约阅读时间需要 2 分钟。

Linux环境：CentOs6.4

Hadoop版本：hadoop-0.20.2

内容：统计hadoop\bin下的所有文件中单词出现的个数。

所用到的命令有：

//创建input文件夹./hadoop fs -mkdir input//将所有的需要统计单词个数的文件放在input文件夹下./hadoop fs -put *.sh /input///运行wordcount将结果输出到output文件夹下./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output //验证某个单词的个数grep xxx *.shgrep xxx *.sh|wc

第一步:确定HDFS、MapReduce、jobTracker等是否正常启动。查看

第二步：在Hadoop文件系统根目录中创建input文件夹。

执行命令：

打开网页查看input文件夹是否创建成功：

上图表明已经成功。

第三步：将bin目录下的所有文件放到hadoop文件系统的input目录下。

执行命令：

通过浏览器查看input文件夹下是否已经存在所存放的文件。

第四步：执行wordcount命令统计单词个数。

回到Hadoop文件夹下，找到统计个数的jar包。如图，在hadoop-0.20.2目录下有一个hadoop-0.20.2-examples.jar。

运行命令执行此jar，统计个数。并将输出结果放在output目录下。命令如下:

运行成功。

第五步：验证结果是否正确。通过命令统计某一单词的个数，与MapReduce统计的个数进行对比。

通过命令查看文件中language单词的个数为12个，如图。

查看MapReduce运行结果，如图：

运行结果相同。

附：从过页面查看运行状态

转载于:https://my.oschina.net/cuitongliang/blog/153471

你可能感兴趣的文章

Centos5上安装JRE和LUMAQQ

关于监控工具的主动发起性能测试

我的友情链接

OpenSSL学习（十六）：基础-指令rand

KeyMob致力于打造国内领先的移动广告平台

路由选路原则

jvm 学习（一）

JavaScript简介

SQL Server附加数据库拒绝访问解决方法汇总

SM2算法原理及实现

RHCA教材翻译计划

js-小括号在不同场合下的作用

我的友情链接

kvm中虚拟机的硬盘扩容

Android (Launch Mode) 四种启动模式

透视学理论(二)

Dubbo/HSF在Service Mesh下的思考和方案

Django form表单

CTYL-9.14(tomcat端口与阿里云安全组，域名与tomcat配置，域名与反向代理)

Java 多线程相关问题记录

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-15 16:01:28 当前IP: 18.216.186.244 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我