Notice
Recent Posts
Recent Comments
Link
목록Data Engineering/Spark (2)
celina의 이것저것

1. xshell 깔아서 컴퓨터8개 연결한다 2. /usr/local 경로에 spark깔려있음 (진우가 미리 깔아둠) 3. 버전 바꿔야하니까 기존 spark삭제 sudo rm -rf spark rm -rf spark/* sudo rmdir spark 삭제 완료 3. 다시 설치 sudo wget 링크 4. 환경변수 이미 되어있어서 이름만 바꾸면 끝 sudo mv 기존 spark 버전 바꿔서 전부 완료 웹사이트 띄워서 클러스터 현황파악 완료 worker7개 잘 실행중
Data Engineering/Spark
2024. 2. 16. 15:00

빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 기존의 하둡이라는 플랫폼이 있는데 하둡의 단점 - i/o기반임 -> 속도느림 을 보완하고자 스파크 등장 스파크 -> 인메모리 개념이라 하둡보다 속도 최소1000배 빠름 스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수행하지 않는다. 그 대신 클라우드 기반의 Azure Storage, Amazon S3, 분산 파일 시스템인 Apache Hadoop, 키/값 저장소인 Apache Cassandra, 메시지 전달 서비스인 Apache Kafka 등의 저장소를 지원한다. 스파크는 내부에 데이터를 오랜 시간 저장하지 않으며 특정 저장소 시스템을 선호하지도 않는다 스파크 프레임워크 -----------------------------..
Data Engineering/Spark
2024. 2. 15. 17:01