[DE] spark vs hive vs hadoop vs rdbms 간단 정리
hive
- hive는 SQL언어를 하둡 위에서 사용할 수 있는 쿼리 엔진이다.
- Metastore database 저장소에 스키마정보, 통계정보 등을 저장하고있는데, 이 정보를 통해 최적화 작업을 수행한다.
- hadoop에 접근하기 떄문에 레코드(행) 단위로 접근 하면 성능이 오히려 떨어질 수 있다.
spark
- In-Memory 컴퓨팅 (Disk 기반도 가능)
- RDD (Resilient Distributed DataSet) 데이터모델
- 다양한 개발언어 지원 (Scala, Java, Python, R, SQL)
- hive, pig등등 저장소에 접근하기 위한 상당히 많은 오픈소스들이 나왔고 오픈소스들 간의 다르고 유사한 부분들을 통합시키고자 나옴
hadoop
- 분산 저장소 역할
- 100메가 이상의 블록단위로 데이터가 저장된다.
- 에코시스템에 기본적으로 hdfs와 yarn이 있다.
- 하둡 파일(저장)시스템과 yarn이라는 처리 시스템이 합쳐져있는것
참고
[1] 모두의 연구소
이 문서는
jhy156456에 의해 작성되었습니다.
마지막 수정 날짜:2022-12-14 14:25:00