impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

gooper 2022.07.04 13:53 조회 수 : 557

impala테이블이 어떤 형태인지에 따라 다음과 같이 2가지 방법으로 수행할 수 있다.

특히 parquet형식의 테이블인 경우 set num_nodes=1을 먼저 수행해주면 여러개의 fragment로 수행하지 않고 1개의 fragment로 수행되며 지정하지 않으면 병렬 처리를 위해서 가능한한 1개 이상의 fragment로 나뉘어서 수행된다.

1개의 노드에서만 처리할때 파일 사이즈가 많이 크면 OOM을 유발할 수 있으니 주의해야 한다.

1. text형식의 hdfs파일에 대한 테이블인 경우 : insert overwrite table 테이블명 select * from 테이블명;

2. parquet형식의 hdfs파일에 대한 테이블인 경우 : set num_nodes=1; insert overwrite table 테이블명 select * from 테이블명;

*참고

-- OVERWRITE가 붙으면 해당 위치의 내용을 삭제하고 덮어 쓴다.

INSERT OVERWRITE TABLE target PARTITION(col1 = 'a', col2)

SELECT data1,

date2

FROM source;

번호	제목	날짜	조회 수
681	apk 파일 위치	2015.05.25	2301
680	hadoop설치시 참고사항	2013.03.08	2293
679	W/F수행후 Logs not available for 1. Aggregation may not to complete. 표시되며 로그내용이 보이지 않은 경우	2020.05.08	2215
678	solr설치및 적용관련	2014.09.27	2205
677	hbase에 필요한 jar들	2013.04.01	2189
676	Hive java connection 설정	2013.04.01	2169
675	../depcomp: line 512 exec : g++ : not found	2013.03.08	2145
674	VisualVM 1.3.9을 이용한 spark-submit JVM 모니터링을 위한 설정및 spark-submit실행 옵션	2016.10.28	2122
673	hbase shell 필드 검색 방법	2015.05.24	2116
672	Hadoop 설치 및 시작하기	2013.03.06	2076
671	RHadoop을 통해서 웹사이트의 방문자수를 예측하는 방법	2014.09.26	2075
670	Hadoop wordcount 소스 작성	2013.03.06	2066
669	Spark 2.1.1 clustering(5대) 설치(YARN기반)	2016.04.22	2055
668	List<Map<String, String>>형태의 데이타에서 중복제거 하는 방법	2016.12.23	2046
667	통계자료 구할수 있는 곳	2014.04.16	2011
666	java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error: Unable to deserialize reduce input key from...오류해결방법	2015.06.16	1976
665	ubuntu에 hadoop 2.0.5설치하기	2013.12.16	1972
664	MySQL 다운로드 및 리눅스에서 간단 컴파일 설치	2013.03.08	1950
663	VirtualBox에 ubuntu 설치 하기 (12.10)	2013.03.04	1945
662	[sbt] sbt-assembly를 이용하여 실행에 필요한 모든 j라이브러리를 포함한 fat jar파일 만들기	2016.07.11	1928

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL