Pentaho 를 사용해 file데이터를 HIVE로 적재 해보자
참고 영상은 하단 유투브 참고!
HIVE란?
Hadoop의 EcoSystem중 하나로, HDFS에 저장된 데이터를 RDBMS 형태로 제공하며,HiveQL(SQL과 형태가 유사함) 등으로 쿼리가 가능하다.
hivemetastore를 활용하여 S3 or S3Compatible Storage의 데이터도 쿼리가 가능하다.
기본적으로 실시간성 처리가 아닌,
HDFS or S3 or S3 Compatible Storage에 데이터를 저장하고, 데이터에 맞는 스키마를 metastore에 정의하여 질의 하는 방식
응용하여 구조화된 데이터를 hive에 저장하여 분석에 활용할 수 있다.
응용하여 hadoop Ecosystem hive를 활용하는 work-flow를 pentaho로 구현할 수 있다.
Pentaho에서 사용된 kettle (transformation)파일은 별도 첨부 하도록 한다.
필요 SW : Pentaho Data Integration Client Tool (Spoon Client)
Target DB : hive (hadoop eco system)
[공연]파가니니 뮤지컬 (1) | 2024.04.28 |
---|---|
[리뷰] 일산 애견카페 퍼피펜트하우스 (0) | 2023.08.06 |
[빅데이터] 9. Pentaho로 RDBMS데이터를 HIVE로 적재해 보자 (0) | 2023.07.17 |
[빅데이터] 8. Pentaho로 HBASE 데이터를 Load해 보자 (0) | 2023.07.17 |
[빅데이터] 7. Pentaho로 file 데이터를 HBASE에 데이터를 입력해 보자 (0) | 2023.07.17 |