Spark이란?
Apache Spark 이름에서 알수 있듯이 Apache 소프트웨어 재단에서 만들어진 오픈소스로,
인메모리 내에서 빅데이터를 분석하는 오픈소스 병렬처리 프레임워크이다.
설치 환경은
OS : CentOS7 linux
설치전 사전 필요한 사항은 Python library가 필요하다.
yum 명령어를 통해 python을 설치한다. (내부망일 경우 rpm 등을 이용하여 자체 설치)
공식 spark 홈페이지에서 spark download 한다. (원하는 버전으로)
spark.apache.org/downloads.html
Downloads | Apache Spark
Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides
spark.apache.org
ftp tool을 사용하여 OS환경에 업로드 (또는 linux wget등을 사용하여 바로 다운로드)
압축파일 압축 해제
명령어 : tar -xvf spark-3.2.1-bin-hadoop3.2.tgz
설정 파일 확인
경로 : 압축해제 경로 하위/conf
기본 제공 되는 default template copy
명령어 :
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
cp log4j.properties.template log4j.properties
실행
명령어 : 압축해제 dir/bin/pyspark
example 실행
/root/temp/test.txt 파일 생성. 파일 내용은 아래와 같이 과일 이름
spark 예제
- test.txt file spark load
lines =sc.textFile("/root/temp/test.txt")
lines.count()
lines.first()
pythonLines = lines.filter(lambda line : "banana" in line)
pythonLines.first()
[리뷰] 맥도날드 팝업스토어 23.07.11화 까지 진도대파 랜덤박스 피그닉세트 공유 (0) | 2023.07.09 |
---|---|
[빅데이터] 1. ETL도구 Pentaho(PDI)로 Dummy Data를 만들어보자 (0) | 2023.07.06 |
[리뷰] 스타벅스 2023 SUMMER FREQUENCY 스타벅스사이드테이블 (0) | 2023.07.06 |
[리뷰] 2023 스타벅스 SUMMER FREQUENCY 팬앤플레이트 (0) | 2023.07.06 |
[리뷰] 액상전자담배 aspire avp max 리뷰 (0) | 2023.07.04 |