Data Engineering/Spark
Apache Spark란?
celinayk
2024. 2. 15. 17:01
반응형
빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼
기존의 하둡이라는 플랫폼이 있는데 하둡의 단점 - i/o기반임 -> 속도느림
을 보완하고자 스파크 등장
스파크 -> 인메모리 개념이라 하둡보다 속도 최소1000배 빠름
- 스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수행하지 않는다.
- 그 대신 클라우드 기반의 Azure Storage, Amazon S3, 분산 파일 시스템인 Apache Hadoop, 키/값 저장소인 Apache Cassandra, 메시지 전달 서비스인 Apache Kafka 등의 저장소를 지원한다.
- 스파크는 내부에 데이터를 오랜 시간 저장하지 않으며 특정 저장소 시스템을 선호하지도 않는다
스파크 프레임워크
----------------------------------------------------------------------------------------------------------------------------------------
기본 아키텍처
컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만든다. 이 클러스터에서 작업을 조율할 수 있는 프레임워크가 바로 스파크이다. 스파크는 클러스터의 데이터 처리 작업을 관리하고 조율