본문으로 바로가기

hdfs

category 빅데이터/hdfs 2019. 4. 28. 16:52

하둡에 hdfs와 맵 리듀스가 있다.

 

Hdfs는 분산 처리로 큰 데이터를 저장하며 맵 리듀스는 병렬 처리로 저장된 큰 데이터를 처리한다.

 

Hdfs네임 노드데이터 노드(슬레이브)로 이루어져 있다.

 

대용량 파일들을 분산 저장할 수 있고 저장된 데이터를 빠르게 처리할 수 있는 기법이다.

 

네임 노드는 핵심 기능으로 데이터 노드를 모니터링 하고 메타데이터를 관리하며 클라이언트의 요청을 접수한다.
데이터 노드는 클라이언트가 hdfs에 저장하는 데이터를 디스크에 분산 저장하고 서로 통신하며 복제를 실시한다.

 

Hdfs는 네임 노드에 문제가 발생하면 전체 노드에 장애가 오고 복제가 많아지면 스토리지가 커진다.

 

한 번 쓰면 변경이 안된다.

 

비용은 적고 클러스터에 서버를 묶어 두면 성능이 향상된다.

장애 감지로 분산 서버간 서로 상태를 확인한다. 배치작업에 적합하다.

hdfs에 읽고 쓰기