상세 컨텐츠

본문 제목

[빅데이터] Linux환경에 Spark 설치하여 예제를 돌려보자

IT_리뷰_일상

by Beomi 2023. 7. 6. 14:47

본문

728x90

Linux환경에 Spark 설치하여 예제를 돌려보자

 

Spark이란?

Apache Spark 이름에서 알수 있듯이 Apache 소프트웨어 재단에서 만들어진 오픈소스로,

인메모리 내에서 빅데이터를 분석하는 오픈소스 병렬처리 프레임워크이다.

 

설치 환경은 

OS : CentOS7 linux

 

설치전 사전 필요한 사항은 Python library가 필요하다.

yum 명령어를 통해 python을 설치한다. (내부망일 경우 rpm 등을 이용하여 자체 설치)

 

공식 spark 홈페이지에서 spark download 한다. (원하는 버전으로)

spark.apache.org/downloads.html

 

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides

spark.apache.org

ftp tool을 사용하여 OS환경에 업로드 (또는 linux wget등을 사용하여 바로 다운로드)

 

압축파일 압축 해제

명령어 : tar -xvf spark-3.2.1-bin-hadoop3.2.tgz

 

설정 파일 확인

경로 : 압축해제 경로 하위/conf

 

기본 제공 되는 default template copy

명령어 :

cp spark-env.sh.template spark-env.sh

cp spark-defaults.conf.template spark-defaults.conf

cp log4j.properties.template log4j.properties

실행

명령어 : 압축해제 dir/bin/pyspark

 

example 실행

/root/temp/test.txt 파일 생성. 파일 내용은 아래와 같이 과일 이름

spark 예제

- test.txt file spark load

lines =sc.textFile("/root/temp/test.txt")

lines.count()

lines.first()

pythonLines = lines.filter(lambda line : "banana" in line)

pythonLines.first()

 

728x90

관련글 더보기