[DE] spark vs hive vs hadoop vs rdbms

작성일자：2022-12-14 14:25:00
조회수: 0
분류: study

de (8) spark (4) data engineer (4)

[DE] spark vs hive vs hadoop vs rdbms 간단 정리

hive

hive는 SQL언어를 하둡 위에서 사용할 수 있는 쿼리 엔진이다.
Metastore database 저장소에 스키마정보, 통계정보 등을 저장하고있는데, 이 정보를 통해 최적화 작업을 수행한다.
hadoop에 접근하기 떄문에 레코드(행) 단위로 접근 하면 성능이 오히려 떨어질 수 있다.

spark

In-Memory 컴퓨팅 (Disk 기반도 가능)
RDD (Resilient Distributed DataSet) 데이터모델
다양한 개발언어 지원 (Scala, Java, Python, R, SQL)
hive, pig등등 저장소에 접근하기 위한 상당히 많은 오픈소스들이 나왔고 오픈소스들 간의 다르고 유사한 부분들을 통합시키고자 나옴

hadoop

분산 저장소 역할
100메가 이상의 블록단위로 데이터가 저장된다.
에코시스템에 기본적으로 hdfs와 yarn이 있다.
하둡 파일(저장)시스템과 yarn이라는 처리 시스템이 합쳐져있는것

참고
[1] 모두의 연구소

이 문서는 jhy156456에 의해 작성되었습니다.
마지막 수정 날짜:2022-12-14 14:25:00