목록Data Engineering (6)
celina의 이것저것

Apache Livy란?1. 정의Apache Livy는 REST 인터페이스를 통해 Spark 클러스터와 쉽게 상호작용할 수 있게 해주는 서비스다. 이 서비스는 간단한 REST 인터페이스나 RPC 클라이언트 라이브러리를 통해 Spark 작업이나 Spark 코드의 스니펫, 동기식 또는 비동기식 결과 검색, Spark 컨텍스트 관리를 쉽게 제출할 수 있게 해준다. Apache Livy는 또한 Spark와 애플리케이션 서버 간의 상호작용을 간소화하여 인터랙티브 웹/모바일 애플리케이션에서 Spark를 사용할 수 있게 해준다. 참고: https://livy.apache.org/ Apache LivyLivy enables programmatic, fault-tolerant, multi-tenant submission..

JettyJetty는 서블릿과 JSP를 제공하는 자바 기반의 WAS 서버이다. 웹 서버가 보통 문서를 사람들에게 제공하는 것과 관련된 반면, 제티는 대규모 소프트웨어 프레임워크에서 기계와 기계의 커뮤니테이션에 사용된다.Jetty는 Spring Boot의 Tomcat 같은 역할 **서블릿 컨테이너란?서블릿 컨테이너는 **Java 서블릿**과 상호작용하는 웹 서버의 구성 요소입니다. 서블릿은 요청을 처리하고 응답을 생성하는 Java 코드의 한 부분으로, Java 웹 애플리케이션의 백본을 형성합니다.따라서 Zeppelin UI에서 버튼을 클릭하면 브라우저에서 요청을 보냅니다. Jetty는 해당 요청을 받아 Zeppelin 애플리케이션 내의 적절한 서블릿으로 전달한 다음 노트북 단락 실행과 같이 요청된 작업을 ..

문제 상황제플린을 로컬에 빌드하려고 소스를 빌드했는데 해당 에러 발생Failed to execute goal com.github.os72:protoc-jar-maven-plugin:3.11.4:run (default) on project zeppelin-jupyter-interpreter: protoc-jar failed for /Users/yeonkyungryu/ossca2025/zeppelin/zeppelin-jupyter-interpreter/src/main/proto/kernel.proto Zeppelin 프로젝트를 처음 빌드하는 상황에서 별다른 설정을 하지 않았음에도 zeppelin-jupyter-interpreter 모듈에서 protobuf 관련 오류가 발생했다. 내가 시도해본 것들1. 자바..
Stream Processing?스트림 프로세싱은 금융 거래나 시장 및 통화 상태 모니터링, 보안 탐지나 시스템 실시간 분석과 같은 스트리밍 분석(Streaming Analytics) 또는 실시간 분석(Realtime Analytics)에 사용되는 기술 일정량 또는 일정기간 동안 데이터를 모아서 한꺼번에 처리하는 일괄처리(Batch Processing)와 비교하여 연속되는 실시간 데이터를 처리하기 때문에 빠르고 효율적인 데이터 활용이 가능 Apache Flink란?제한되지 않은(스트림) 데이터 세트와 제한된(배치) 데이터 세트에 대한 상태 저장 처리를 위한 오픈 소스 분산 엔진 스트림 처리 애플리케이션은 가동 중단 시간을 최소화하면서 지속적으로 실행되고, 수집되는 데이터를 처리하도록 설계대기 시간이 짧은..

1. xshell 깔아서 컴퓨터8개 연결한다 2. /usr/local 경로에 spark깔려있음 (진우가 미리 깔아둠) 3. 버전 바꿔야하니까 기존 spark삭제 sudo rm -rf spark rm -rf spark/* sudo rmdir spark 삭제 완료 3. 다시 설치 sudo wget 링크 4. 환경변수 이미 되어있어서 이름만 바꾸면 끝 sudo mv 기존 spark 버전 바꿔서 전부 완료 웹사이트 띄워서 클러스터 현황파악 완료 worker7개 잘 실행중

빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼 기존의 하둡이라는 플랫폼이 있는데 하둡의 단점 - i/o기반임 -> 속도느림 을 보완하고자 스파크 등장 스파크 -> 인메모리 개념이라 하둡보다 속도 최소1000배 빠름 스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행할 뿐 영구 저장소 역할은 수행하지 않는다. 그 대신 클라우드 기반의 Azure Storage, Amazon S3, 분산 파일 시스템인 Apache Hadoop, 키/값 저장소인 Apache Cassandra, 메시지 전달 서비스인 Apache Kafka 등의 저장소를 지원한다. 스파크는 내부에 데이터를 오랜 시간 저장하지 않으며 특정 저장소 시스템을 선호하지도 않는다 스파크 프레임워크 -----------------------------..