Sqoop은 하둡과 RDB간의 대용량 데이터들을 전송할 수 있게 하는 기법
DB에 저장된 것을 하둡(hdfs)로 옮겨 분석하고자 할 때 import
분석 결과를 DB로 넣는 export
신속하게 데이터 전송을 처리할 수 있습니다.
import 과정
※ Map-Only Job이란?
Hadoop Map&Reduce 중 Map 만으로 이뤄진 Job을 의미한다. 즉, 원하는 데이터만 mapping 해서 HDFS 저장하겠다는 의미이다.
1. 클라이언트가 import를 요청
2. 메타데이터를 RDBMS로부터 조회
3. Map-Only JOB 수행
4. 맵 태스크가 DB접속 후 select로 데이터를 조회
5. 결과를 hdfs에 저장
export과정
※ Map-Only Job이란?
Hadoop Map&Reduce 중 Map 만으로 이뤄진 Job을 의미한다. 즉, 원하는 데이터만 mapping 해서 HDFS 저장하겠다는 의미이다.
1. 클라이언트가 export를 요청
2. 메타데이터를 마찬가지로 조회
3. 맵 테스크가 hdfs에서 데이터를 조회하고 중간테이블에 삽입
4. 스쿱은 중간테이블을 테이블에 최종적으로 insert로 삽입
part-m-00000인것으로 보아 맵만 작용 했음을 알 수 있습니다.(map only job)
'빅데이터 > sqoop' 카테고리의 다른 글
sqoop 명령어 정리 (0) | 2019.04.28 |
---|