在 Windows 平台上架構 Hadoop 開發環境
在 hadoop 的開發工作中,Windows 還是我們最常使用的開發平台,依 Hadoop 在官方網頁上所提示的 Hadoop QuickStart (URL連結) 是不足的,並依官方的提示使用「cygwin」為運作的工具,並依照需求將相關環境設定好
以下是用最新的 Hadoop Version 0.81.1 來進行說明
.Cygwin 安裝 及 Hadoop 的安裝
1. 由 Cygwin 官方網站 中 下載 ,並安裝
將路徑改為 c:cygwin
2. 上面的 setup.exe 要特別記著將 cygwin 安裝在 C:cygwin 下面哦
就可以輕鬆把 cygwin 安裝完成了!!! 接下來就是設定了!!!
.設定 Cygwin 中的 ssh
在 cygwin 一開始的時候並沒有安裝 ssh 的套件 ,可以由手動來執行安裝.
> ssh-host-config
Should privilege separation be used? (yes/no) no
Do you want to install sshd as service? (yes/no) yes
CYGWIN= (直接按 Enter 鍵接受預設值 "ntsec")
接下來會看到 *** Info: Host configuration finished. Have fun! <--- 就代表安裝 SSHD 成功了!
> cygrunsrv --start sshd
上面的指令是啟動在 cygwin 的 sshd (22 port )
p.s 如果在 ssh-host-config 時出現下列的狀況
*** ERROR: Could not find or execute required program cmp.
*** ERROR: Please install diffutils
再由 setup.ext 選 view ,找到 diffutils 去安裝這個套件
.建立 ssh-keygen ,用來可以以 ssh 登入系統不用再敲密碼
> ssh-keygen -t rsa
這裡會寫把 file (.ssh/id_rsa ) 寫到哪去 下面要切去那個目錄
> cp id_rsa.pub authorized_keys
.檢查 JAVA 的版本
因為 Hadoop 需要的兩個條件是
1. JavaTM 1.5.x, preferably from Sun, must be installed.
2. ssh must be installed and sshd must be running to use the Hadoop scripts that manage remote Hadoop daemons.
第一項就是限定我們的環境一定要用 Java VM 是在 1.5 以上的 ,檢查方式就是 java -version
筆者是用 JAVA 6.0 所以會出現下面的資訊
> java -version
java version "1.6.0_04"
Java(TM) SE Runtime Environment (build 1.6.0_04-b12)
Java HotSpot(TM) Client VM (build 10.0-b19, mixed mode, sharing)
接下來就可以開始安裝 Hadoop 的套件囉!!!
3. 由 Apache 中的 Hadoop 專案中下載 hadoop-0.18.1.tar.gz 檔案
由於開發上的習慣,在根目錄下建立一個 hadoop 的目錄
> cd /
> mkdir hadoop
> cd hadoop
> wget http://apache.cdpa.nsysu.edu.tw/hadoop/core/hadoop-0.18.1/hadoop-0.18.1.tar.gz
可以用 cygwin 下面的 wget (記得要裝、沒裝的話,可以再用 setup.exe 補一下)
也可以用 瀏覽器 抓下來
接下來就是將 hadoop-0.18.1.tar.gz 進行解壓縮了!!!
可以用 tar zxvf hadoop-0.18.1.tar.gz 也可以用 winRAR 來解,就將 hadoop-0.18.1 解出來就對了!
然後檢查一下 hadoop-0.18.1 中的 bin 、conf 這些目錄是不是存在了...!!!!
好,如果存在了先把目錄改掉 ..... 這也是個人習慣!!! why ? Java 在 遇上「 . 」會誤判為目錄的情況,能避就避....
> mv hadoop-0.18.1 hadoop-ap
將 hadoop 的目錄 改為 hadoop-ap
在這,已經完成了 hadoop 的初步安裝!!!
接下來就是設定篇了,明日待續!!!!
我寫了一個 hadoop4win 簡化安裝 hadoop 在 Cygwin 的步驟。歡迎使用並提供改進意見。
https://sourceforge.net/apps/trac/hadoop4win/
請問 ssh-host-config是在哪裡key?
在cygwin或dos視窗下都沒這command
輸入就行了.... 2009-06-30 22:51:31
剛剛試了頗久,原來要裝了NET裡面的openssh套件才會有ssh-host-config
可能預設是不安裝的,隨便點一個版本吧,不要用skip了。
希望能幫上忙