'Data Engineering/Spark' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data Engineering/Spark (2)

celina의 이것저것

Spark 클러스터 구축

1. xshell 깔아서 컴퓨터8개 연결한다 2. /usr/local 경로에 spark깔려있음 (진우가 미리 깔아둠) 3. 버전 바꿔야하니까 기존 spark삭제 sudo rm -rf spark rm -rf spark/* sudo rmdir spark 삭제 완료 3. 다시 설치 sudo wget 링크 4. 환경변수 이미 되어있어서 이름만 바꾸면 끝 sudo mv 기존 spark 버전 바꿔서 전부 완료 웹사이트 띄워서 클러스터 현황파악 완료 worker7개 잘 실행중

Data Engineering/Spark 2024. 2. 16. 15:00

Apache Spark란?

빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 기존의 하둡이라는 플랫폼이 있는데 하둡의 단점 - i/o기반임 -> 속도느림 을 보완하고자 스파크 등장 스파크 -> 인메모리 개념이라 하둡보다 속도 최소1000배 빠름 스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수행하지 않는다. 그 대신 클라우드 기반의 Azure Storage, Amazon S3, 분산 파일 시스템인 Apache Hadoop, 키/값 저장소인 Apache Cassandra, 메시지 전달 서비스인 Apache Kafka 등의 저장소를 지원한다. 스파크는 내부에 데이터를 오랜 시간 저장하지 않으며 특정 저장소 시스템을 선호하지도 않는다 스파크 프레임워크 -----------------------------..

Data Engineering/Spark 2024. 2. 15. 17:01

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

celina의 이것저것

목록Data Engineering/Spark (2)

celina의 이것저것

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역