DE/Study

[Hadoop_기초] 2. Hadoop 설치 및 실행

Hazel_song 2022. 3. 25. 14:00
728x90

hadoop 유튜브 영상 참고하여 정리한 내용입니다.

 

우선 하둡을 설치하기 전에 java도 설치되어있어야 한다. 하둡이 자바 기반으로 만들어져 동작하는 프레임워크이기 때문이다.

정확히는 jdk가 설치되어 있어야 하는데, jdk는 자바 환경에서 돌아가는 프로그램을 설치 및 실행하기 위해 필요한 소프트 웨어 패키지이다.

 

1. 우선 jdk 1.8 버전 이상이 필요한데 내가 자바를 설치한 지 시간이 꽤 지나서 버전에 맞게 새로 설치를 진행했다.(참고)

- 나는 13버전만 설치되어있다고 되어있어서 위의 링크를 참고해서 안정적으로 추천하는 8버전을 설치했다.

 

2. 그리고 해당 블로그를 참고해서 하둡을 설치해주었다.(링크)

-> 더해서 Hive도 설치..

 

3. 위의 유튜브 링크에서는 인텔리J를 설치해서 해당 프로그램으로 하둡을 사용할 것을 권장했는데, 이는 자바기반의 프로스램들을 메이븐으로 빌드하기 위함이라고 한다. VSC로는 안될까? 하여서 한번 구글링 해보았다. (참고)

-> 가능하면 여러 언어들을 하나의 프로그램으로 작업하고 구동하는게 편해서 최대한 VScode로 진행하려 했다.

-> 그런데 워낙 하둡에 대해서 입문 단계이다보니 유튜브 강의에 맞춰 intellij를 설치해주었다.(참고)

이런 특정 언어에 특화된 IDLE의 경우, 대부분 유료이기 때문에 장기적으로 사용하기에는 힘들다. 

따라서 우선 하둡에 익숙해진 다음에는 결국에는 VScode에서 작업을 할수 있어야 한다.

 

여기서 메이븐이란?

자바프로그래밍을 하게 되면, 내가 만든 소스코드에서 사용하는 코드 중에서 외부 라이브러리가 필요한 경우가 있다. 
이러한 dependency들을 관리하기 용이하기 위해 사용되는 것이다.
즉 외부 라이브러리를 관리하고 build하기 위함이다. 빌드 도구에는 mvn 뿐 아니라 gradle등 다양하게 있다.

구글에 hadoop mvn repository 라고 검색하면 빌드 참조 라이브러리 코드를 제공해준다. 

 

4. 하둡 설치후에 하둡 환경변수 설정(hadoop-env.sh)에서 꽤 많은 시간을 소요했다.

-> 해결은 해당 블로그를 참고했다. (링크)

 

5. 그리고 주요 파일 설정을 해준다.

core-site / hdfs-site / yarn-site ->위의 링크 추가 참고

위의 환경변수에서 Path를 설정해주었다.

 

6. ssh localhost 로 자기 자신의 서버에 접속이 가능한지를 확인해준다.

- 로그인이 되지 않는 경우(홈디렉토리에서 진행)

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized.keys
chmod og-wx ~/.ssh/authorized_keys

 

--- 여기까지가 설치 및 환경 세팅 완료

 

7. 하둡 네임노드흘 한번 포맷해주기

- hadoop/3.3.2/bin 폴더 들어가기

- hdfs namenode -format : 명령어 실행

 

8. 분산 파일 시스템 데몬 실행 

- sbin/start-dfs.sh :  명령어실행

 

9. localhost:9870 포트 접속 해보기

-> connection refused 나옴..

"connect to host localhost port 22: Connection refused" (참고), (참고2)

-> openssh를 재설치

혹은 맥에서의 원격로그인 설정이 막혔기 때문(참고)

"하둡 분산 파일 시스템의 상태 관리"

 

10. 해결하고 나니 아래 에러발생..

Permission denied (publickey,password,keyboard-interactive).
2022-03-25 13:44:24,746 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... 
using builtin-java classes where applicable

-> 해결 참고(링크)

-> 즉 순서가 꼬였다. 9/10번의 문제가 해결되고 난 이후에 6번의 접근 암호키 설정을 해주어야 했다

 

--- 여기까지가 hdfs 데몬을 실행 한것

 

11. sbin/start-yarn.sh 실행

localhost:8088 로 접속

"어플리케이션 실행 상태를 관리하는 도구"

 

 

 

 

728x90