
Hadoop 在Windows7操作系統下使用Eclipse來搭建hadoop開發環境
網上有一些都是在Linux下使用安裝Eclipse來進行hadoop應用開發,但是大部分Java程序員對linux系統不是那么熟悉,所以需要在windows下開發hadoop程序,所以經過試驗,總結了下如何在windows下使用Eclipse來開發hadoop程序代碼。
1、 需要下載hadoop的專門插件jar包
hadoop版本為2.3.0,hadoop集群搭建在centos6x上面,插件包下載地址為:http://download.csdn.net/detail/mchdba/8267181,jar包名字為hadoop-eclipse-plugin-2.3.0,可以適用于hadoop2x系列軟件版本。
2、 把插件包放到eclipse/plugins目錄下
為了以后方便,我這里把盡可能多的jar包都放進來了,如下圖所示:
3、重啟eclipse,配置Hadoop installation directory
如果插件安裝成功,打開Windows—Preferences后,在窗口左側會有Hadoop Map/Reduce選項,點擊此選項,在窗口右側設置Hadoop安裝路徑。
4、配置Map/Reduce Locations
打開Windows-->Open Perspective-->Other
選擇Map/Reduce,點擊OK,在右下方看到有個Map/Reduce Locations的圖標,如下圖所示:
點擊Map/Reduce Location選項卡,點擊右邊小象圖標,打開Hadoop Location配置窗口:
輸入Location Name,任意名稱即可.配置Map/Reduce Master和DFS Mastrer,Host和Port配置成與core-site.xml的設置一致即可。
去找core-site.xml配置:
<property> <name>fs.default.name</name> <value>hdfs://name01:9000</value> </property>
在界面配置如下:
點擊"Finish"按鈕,關閉窗口。點擊左側的DFSLocations—>myhadoop(上一步配置的location name),如能看到user,表示安裝成功,但是進去看到報錯信息:Error: Permission denied: user=root,access=READ_EXECUTE,inode="/tmp";hadoop:supergroup:drwx---------,如下圖所示:
應該是權限問題:把/tmp/目錄下面所有的關于hadoop的文件夾設置成hadoop用戶所有然后分配授予777權限。
cd /tmp/
chmod 777 /tmp/
chown -R hadoop.hadoop /tmp/hsperfdata_root
之后重新連接打開DFS Locations就顯示正常了。
Map/Reduce Master (此處為Hadoop集群的Map/Reduce地址,應該和mapred-site.xml中的mapred.job.tracker設置相同)
(1):點擊報錯:
An internal error occurred during: "Connecting to DFS hadoopname01".
java.net.UnknownHostException: name01
直接在hostname那一欄里面設置ip地址為:192.168.52.128,即可,這樣就正常打開了,如下圖所示:
5、新建WordCount項目
File—>Project,選擇Map/Reduce Project,輸入項目名稱WordCount等。
在WordCount項目里新建class,名稱為WordCount,報錯代碼如下:Invalid Hadoop Runtime specified; please click 'Configure Hadoop install directory' or fill in library location input field,報錯原因是目錄選擇不對,不能選擇在跟目錄E:\hadoop下,換成E:\u\hadoop\就可以了,如下所示:
一路下一步過去,點擊Finished按鈕,完成工程創建,Eclipse控制臺下面出現如下信息:
14-12-9 下午04時03分10秒: Eclipse is running in a JRE, but a JDK is required
Some Maven plugins may not work when importing projects or updating source folders.
14-12-9 下午04時03分13秒: Refreshing [/WordCount/pom.xml]
14-12-9 下午04時03分14秒: Refreshing [/WordCount/pom.xml]
14-12-9 下午04時03分14秒: Refreshing [/WordCount/pom.xml]
14-12-9 下午04時03分14秒: Updating index central|http://repo1.maven.org/maven2
14-12-9 下午04時04分10秒: Updated index for central|http://repo1.maven.org/maven2
6, Lib包導入:
需要添加的hadoop相應jar包有:
/hadoop-2.3.0/share/hadoop/common下所有jar包,及里面的lib目錄下所有jar包,
/hadoop-2.3.0/share/hadoop/hdfs下所有jar包,不包括里面lib下的jar包,
/hadoop-2.3.0/share/hadoop/mapreduce下所有jar包,不包括里面lib下的jar包,
/hadoop-2.3.0/share/hadoop/yarn下所有jar包,不包括里面lib下的jar包,
大概18個jar包左右。
7,Eclipse直接提交mapreduce任務所需要環境配置代碼如下所示:
8.1、在HDFS上創建目錄input
[hadoop@name01 hadoop-2.3.0]$ hadoop fs -ls /
[hadoop@name01 hadoop-2.3.0]$ hadoop fs -mkdir input
mkdir: `input': No such file or directory
[hadoop@name01 hadoop-2.3.0]$ PS:fs需要全目錄的方式來創建文件夾
如果Apache hadoop版本是0.x 或者1.x,
bin/hadoop hdfs fs -mkdir -p /in
bin/hadoop hdfs fs -put /home/du/input /in
如果Apache hadoop版本是2.x.
bin/hdfs dfs -mkdir -p /in
bin/hdfs dfs -put /home/du/input /in
如果是發行版的hadoop,比如Cloudera CDH,IBM BI,Hortonworks HDP 則第一種命令即可。要注意創建目錄的全路徑。另外hdfs的根目錄是 /
2、拷貝本地README.txt到HDFS的input里
[hadoop@name01 hadoop-2.3.0]$ find . -name README.txt
./share/doc/hadoop/common/README.txt
[hadoop@name01 ~]$ hadoop fs -copyFromLocal ./src/hadoop-2.3.0/share/doc/hadoop/common/README.txt /data/input
[hadoop@name01 ~]$
[hadoop@name01 ~]$ hadoop fs -ls /
Found 2 items
drwxr-xr-x - hadoop supergroup 0 2014-12-15 23:34 /data
-rw-r--r-- 3 hadoop supergroup 88 2014-08-26 02:21 /input
You have new mail in /var/spool/mail/root
[hadoop@name01 ~]$
3,運行hadoop結束后,查看輸出結果
(1),直接在hadoop服務器上面查看
[hadoop@name01 ~]$ hadoop fs -ls /data/
Found 2 items
drwxr-xr-x - hadoop supergroup 0 2014-12-15 23:29 /data/input
drwxr-xr-x - hadoop supergroup 0 2014-12-15 23:34 /data/output
[hadoop@name01 ~]$
(2),去Eclipse下查看
(3),在控制臺上查看信息
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
2025 年,數據如同數字時代的 DNA,編碼著人類社會的未來圖景,驅動著商業時代的運轉。從全球互聯網用戶每天產生的2.5億TB數據, ...
2025-05-27CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25