[빅데이터] Linux환경에 Spark 설치하여 예제를 돌려보자

IT_리뷰_일상

by Beomi 2023. 7. 6. 14:47

728x90

Linux환경에 Spark 설치하여 예제를 돌려보자

Spark이란?

Apache Spark 이름에서 알수 있듯이 Apache 소프트웨어 재단에서 만들어진 오픈소스로,

인메모리 내에서 빅데이터를 분석하는 오픈소스 병렬처리 프레임워크이다.

설치 환경은

OS : CentOS7 linux

설치전 사전 필요한 사항은 Python library가 필요하다.

yum 명령어를 통해 python을 설치한다. (내부망일 경우 rpm 등을 이용하여 자체 설치)

공식 spark 홈페이지에서 spark download 한다. (원하는 버전으로)

spark.apache.org/downloads.html

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides

spark.apache.org

ftp tool을 사용하여 OS환경에 업로드 (또는 linux wget등을 사용하여 바로 다운로드)

압축파일 압축 해제

명령어 : tar -xvf spark-3.2.1-bin-hadoop3.2.tgz

설정 파일 확인

경로 : 압축해제 경로 하위/conf

기본 제공 되는 default template copy

명령어 :

cp spark-env.sh.template spark-env.sh

cp spark-defaults.conf.template spark-defaults.conf

cp log4j.properties.template log4j.properties

실행

명령어 : 압축해제 dir/bin/pyspark

example 실행

/root/temp/test.txt 파일 생성. 파일 내용은 아래와 같이 과일 이름

spark 예제

- test.txt file spark load

lines =sc.textFile("/root/temp/test.txt")

lines.count()

lines.first()

pythonLines = lines.filter(lambda line : "banana" in line)

pythonLines.first()

728x90

'IT_리뷰_일상' 카테고리의 다른 글

[리뷰] 맥도날드 팝업스토어 23.07.11화 까지 진도대파 랜덤박스 피그닉세트 공유 (0)	2023.07.09
[빅데이터] 1. ETL도구 Pentaho(PDI)로 Dummy Data를 만들어보자 (0)	2023.07.06
[리뷰] 스타벅스 2023 SUMMER FREQUENCY 스타벅스사이드테이블 (0)	2023.07.06
[리뷰] 2023 스타벅스 SUMMER FREQUENCY 팬앤플레이트 (0)	2023.07.06
[리뷰] 액상전자담배 aspire avp max 리뷰 (0)	2023.07.04