程式扎記: [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統

2015年9月17日星期四

[ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part5

HDFS 檔案系統權限設定
使用 Hadoop 分散式運算平台分析巨量資料, 一個重要的課題就是 HDFS 的 "檔案權限設定". HDFS 的 "檔案權限設定" 預設為 "簡易模式" (simple), Client 端在連結時不會驗證密碼, 但是在存取資料時會依據不同使用者帳號, 給予不同的使用權限. 若讀者有密碼驗證的需求, 在 HDFS 的 "檔案權限設定" 中還有另一種 "kerberos" 認證設定. 此種認證需要架設認證服務器, 並在 "core-site.xml" 檔案中加入 "hadoop.security.authentication" 及填入設定值 "kerberos".

HDFS 的存取權限會對應到 Linux 作業系統的帳號與群組, 根據不同的使用者帳號分為 "User", "Group" 與 "Others" 這三種身分別, 對檔案的存取權限則分為 "r", "w" 與 "x". 也就是 "可讀", "可寫" 和 "可執行". 在權限設定的格式上與 Linux 作業系統是相同的.

建立 HDFS 分散式檔案系統帳號與群組
在 Hadoop 分散式運算平台中, NameNode 負責檔案存取的權限設定, 若要設定 HDFS 系統的管理帳號與群組, 就必須在負責執行 NameNode 服務主機內建立. 使用下面指令在 Linux 系統中建立 "bigred" 帳號, 我們將在後面小節使用此帳號設定為 HDFS 系統的管理帳號:

ubuntu@nn:~$ sudo useradd -m -s /bin/bash bigred
ubuntu@nn:~$ ll /home/
total 16
drwxr-xr-x 4 root root 4096 Sep 17 18:23 ./
drwxr-xr-x 21 root root 4096 Sep 13 00:21 ../
drwxr-xr-x 2 bigred bigred 4096 Sep 17 18:23 bigred/
drwxr-xr-x 6 ubuntu ubuntu 4096 Sep 14 00:42 ubuntu/

接下來使用下面指令在 Linux 系統中建立 "biguser" 群組, 後續會使用此群組為 HDFS 系統的管理群組:

ubuntu@nn:~$ sudo groupadd biguser
ubuntu@nn:~$ grep biguser /etc/group
biguser:x:1002:

若要讓 "bigred" 帳號成為管理群組的一員, 使用下面命令完成:

// -a, --append: append the user to the supplemental GROUPS mentioned by the -G option without removing
// him/her from other groups
// -G, --groups GROUPS: new list of supplementary GROUPS
ubuntu@nn:~$ sudo usermod -a -G biguser bigred
ubuntu@nn:~$ grep biguser /etc/group
biguser:x:1002:bigred

設定 HDFS 分散式檔案系統權限
其實在 "HDFS" 系統內, 早就有預設的管理群組 "supergroup", 當初在格式化 HDFS 系統時, 所使用的 Linux 系統帳號 (ubuntu) 會自動成為 HDFS 系統預設的管理帳號, 我們可以透過下面步驟更改 HDFS 系統的管理帳號與群組, 首先打開 "hdfs-site.xml" 進行設定:

ubuntu@nn:~$ sudo vi /opt/hadoop-2.5.2/etc/hadoop/hdfs-site.xml

view plain copy to clipboard print ?



    dfs.permissions.superusergroup

    biguser

ubuntu@nn:~$ start-dfs.sh // 啟動 HDFS 服務
ubuntu@nn:~$ hdfs dfs -chown -R bigred:biguser /
ubuntu@nn:~$ hdfs dfs -chmod -R 770 /
ubuntu@nn:~$ hdfs dfs -ls -d /
drwxrwx--- - bigred biguser 0 2015-09-14 00:52 /
ubuntu@nn:~$ echo 'test' >> test.dat
ubuntu@nn:~$ hdfs dfs -put test.dat /test
ubuntu@nn:~$ hdfs dfs -ls /test/test.dat
-rw-r--r-- 2 ubuntu biguser 5 2015-09-17 18:40 /test/test.dat
建立 HDFS 分散式檔案系統工作目錄
為了方便後續章節的操作, 我們要停止 dn03 運算主機的 DataNode 服務, 首先請登入 dn03 運算主機視窗, 並使用下面命令停止 DataNode 服務:

ubuntu@nn:~$ ssh dn03
ubuntu@dn03:~$ jps
2004 Jps
1910 DataNode
ubuntu@dn03:~$ /opt/hadoop-2.5.2/sbin/hadoop-daemon.sh stop datanode
stopping datanode
ubuntu@dn03:~$ jps // Make sure "DataNode" not exist
2034 Jps

接著回到 nn 運算主機, 並編輯 slaves 與 hdfs.allow 設定檔來 comment out 'dn03':

ubuntu@dn03:~$ exit
ubuntu@nn:~$ sudo vi /opt/hadoop-2.5.2/etc/hadoop/slaves

view plain copy to clipboard print ?

dn01

dn02

#dn03

ubuntu@nn:~$ sudo vi /opt/hadoop-2.5.2/etc/hadoop/hdfs.allow

view plain copy to clipboard print ?

dn01

dn02

#dn03

ubuntu@nn:~$ stop-dfs.sh
ubuntu@nn:~$ start-dfs.sh
ubuntu@nn:~$ hdfs dfsadmin -report // 應該只剩下 dn01, dn02
...
Live datanodes (2):
...

最後來建立後續章節會使用到的目錄:

ubuntu@nn:~$ hdfs dfs -mkdir /user
ubuntu@nn:~$ hdfs dfs -mkdir /user/bigred
ubuntu@nn:~$ hdfs dfs -mkdir /tmp
ubuntu@nn:~$ hdfs dfs -ls /
Found 4 items
drwxrwx--- - bigred biguser 0 2015-09-14 00:52 /system
drwxrwx--- - bigred biguser 0 2015-09-17 18:40 /test
drwxr-xr-x - ubuntu biguser 0 2015-09-17 18:54 /tmp
drwxr-xr-x - ubuntu biguser 0 2015-09-17 18:54 /user

Supplement
* [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part1
* [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part2
* [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part3
* [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part4
* [ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part5

程式扎記

標籤

2015年9月17日星期四

[ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part5

沒有留言:

張貼留言

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

標籤

2015年9月17日 星期四

[ Big Data 研究 ] 06 設定與初始化 HDFS 分散式檔案系統 - Part5

沒有留言:

張貼留言

[Git 常見問題] error: The following untracked working tree files would be overwritten by merge

檢舉濫用情形

學習筆記

2015年9月17日星期四