[Spark]

Notice

Recent Posts

Tags more

Archives

관리 메뉴

celina의 이것저것

대학생활/빅데이터

celinayk 2024. 5. 9. 14:01

1. 설치하고 압축풀기

2. spark-start.sh(이름 start-all.sh에서바꿈)실행하고 192.168.0.100:8080 들어가면 스파크 사이트가 나온다

3. spark-shell 에 들어가 여러가지 연산을 할 수 있는데

spark-shell --master spark://localhost:7077

이렇게 마스터를 지정? 해주고 shell을 켠다

4. ratings파일에 있는걸 보고싶을때

val test = spark.sqlContext.read.option("header", "true").csv("/root/ml-latest-small/ratings.csv")

이렇게 명령어를 입력하면

이렇게 볼 수 있고, test. 탭을 누르면 어떤 함수를 쓸 수 있는지도 볼 수 있다

+++

pi.py 반복횟수 지정해서 돌리는 건데 코드 까먹음...

무튼 돌리면 저렇게 3635개째 돌아가고 있다는게 보인다!

아까는 root경로에서 ratings.csv파일을 찾아서 읽었는데 hdfs dfs에 ratings.csv를 올려놓고 여기 경로로 실행하는거

1. hdfs dfs -mkdir /test 폴더를 만들어서

2. hdfs dfs - copyFromLocal /root/ml-latest-small/ratings.csv /test/ 이파일을 로컬에서 hdfs로 옮긴다

3. spark-shell 에 들어가서

4. val r1 = spark.read.option("header", "true").csv("hdfs://localhost:9000/test/ratings.csv") 해주면 된다

************************

val r1 = spark.read.option("header", "true").csv("hdfs://192.168.0.100:9000/test/ratings.csv")

처음에 이렇게 직접 포트를 입력해서 오류가 났는데 localhostf로 바꾸니까 됐다

이 주소를 알고 싶으면

hadoop etc hadoop ls core-site-xml 여기에 들어가면 localhost라고 내가 설정해둠 그래서 localhost로 해야했던것

'대학생활/빅데이터' Related Articles

Comments