Apache Spark란?

Data Engineering/Spark

celinayk 2024. 2. 15. 17:01

빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼

기존의 하둡이라는 플랫폼이 있는데 하둡의 단점 - i/o기반임 -> 속도느림

을 보완하고자 스파크 등장

스파크 -> 인메모리 개념이라 하둡보다 속도 최소1000배 빠름

스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수행하지 않는다.
그 대신 클라우드 기반의 Azure Storage, Amazon S3, 분산 파일 시스템인 Apache Hadoop, 키/값 저장소인 Apache Cassandra, 메시지 전달 서비스인 Apache Kafka 등의 저장소를 지원한다.
스파크는 내부에 데이터를 오랜 시간 저장하지 않으며 특정 저장소 시스템을 선호하지도 않는다

스파크 프레임워크

----------------------------------------------------------------------------------------------------------------------------------------

컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만든다. 이 클러스터에서 작업을 조율할 수 있는 프레임워크가 바로 스파크이다. 스파크는 클러스터의 데이터 처리 작업을 관리하고 조율