본문으로 바로가기

sqoop

category 빅데이터/sqoop 2019. 4. 28. 16:25

Sqoop은 하둡과 RDB간의 대용량 데이터들을 전송할 수 있게 하는 기법

 

DB에 저장된 것을 하둡(hdfs)로 옮겨 분석하고자 할 때 import

 

분석 결과를 DB로 넣는 export

 

신속하게 데이터 전송을 처리할 수 있습니다.

 

import 과정

import

 Map-Only Job이란?

Hadoop Map&Reduce  Map 만으로 이뤄진 Job을 의미한다. , 원하는 데이터만 mapping 해서 HDFS 저장하겠다는 의미이다.

 

1. 클라이언트가 import를 요청

2. 메타데이터를 RDBMS로부터 조회

3. Map-Only JOB 수행

4. 맵 태스크가 DB접속 후 select로 데이터를 조회

5. 결과를 hdfs에 저장

 

export과정

export

 Map-Only Job이란?

Hadoop Map&Reduce  Map 만으로 이뤄진 Job을 의미한다. , 원하는 데이터만 mapping 해서 HDFS 저장하겠다는 의미이다.

 

1. 클라이언트가 export를 요청

2. 메타데이터를 마찬가지로 조회

3. 맵 테스크가 hdfs에서 데이터를 조회하고 중간테이블에 삽입

4. 스쿱은 중간테이블을 테이블에 최종적으로 insert로 삽입

 

import를 시행

part-m-00000인것으로 보아 맵만 작용 했음을 알 수 있습니다.(map only job)

 

'빅데이터 > sqoop' 카테고리의 다른 글

sqoop 명령어 정리  (0) 2019.04.28