celina의 이것저것
[Spark] 본문
1. 설치하고 압축풀기
2. spark-start.sh(이름 start-all.sh에서바꿈)실행하고 192.168.0.100:8080 들어가면 스파크 사이트가 나온다
3. spark-shell 에 들어가 여러가지 연산을 할 수 있는데
spark-shell --master spark://localhost:7077
이렇게 마스터를 지정? 해주고 shell을 켠다
4. ratings파일에 있는걸 보고싶을때
val test = spark.sqlContext.read.option("header", "true").csv("/root/ml-latest-small/ratings.csv")
이렇게 명령어를 입력하면
이렇게 볼 수 있고, test. 탭을 누르면 어떤 함수를 쓸 수 있는지도 볼 수 있다
+++
pi.py 반복횟수 지정해서 돌리는 건데 코드 까먹음...
무튼 돌리면 저렇게 3635개째 돌아가고 있다는게 보인다!
아까는 root경로에서 ratings.csv파일을 찾아서 읽었는데 hdfs dfs에 ratings.csv를 올려놓고 여기 경로로 실행하는거
1. hdfs dfs -mkdir /test 폴더를 만들어서
2. hdfs dfs - copyFromLocal /root/ml-latest-small/ratings.csv /test/ 이파일을 로컬에서 hdfs로 옮긴다
3. spark-shell 에 들어가서
4. val r1 = spark.read.option("header", "true").csv("hdfs://localhost:9000/test/ratings.csv") 해주면 된다
************************
val r1 = spark.read.option("header", "true").csv("hdfs://192.168.0.100:9000/test/ratings.csv")
처음에 이렇게 직접 포트를 입력해서 오류가 났는데 localhostf로 바꾸니까 됐다
이 주소를 알고 싶으면
hadoop etc hadoop ls core-site-xml 여기에 들어가면 localhost라고 내가 설정해둠 그래서 localhost로 해야했던것
'대학생활 > 빅데이터' 카테고리의 다른 글
주키퍼랑 카프카랑 하둡을 이용한 분산처리 (0) | 2024.05.23 |
---|---|
[HBase] (0) | 2024.04.16 |
[Hadoop] wordcount (9) | 2024.04.04 |
[Hadoop] (0) | 2024.04.02 |
[Hadoop] (0) | 2024.03.28 |