Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

gooper 2022.07.04 13:53 조회 수 : 558

impala테이블이 어떤 형태인지에 따라 다음과 같이 2가지 방법으로 수행할 수 있다.

특히 parquet형식의 테이블인 경우 set num_nodes=1을 먼저 수행해주면 여러개의 fragment로 수행하지 않고 1개의 fragment로 수행되며 지정하지 않으면 병렬 처리를 위해서 가능한한 1개 이상의 fragment로 나뉘어서 수행된다.

1개의 노드에서만 처리할때 파일 사이즈가 많이 크면 OOM을 유발할 수 있으니 주의해야 한다.

1. text형식의 hdfs파일에 대한 테이블인 경우 : insert overwrite table 테이블명 select * from 테이블명;

2. parquet형식의 hdfs파일에 대한 테이블인 경우 : set num_nodes=1; insert overwrite table 테이블명 select * from 테이블명;

*참고

-- OVERWRITE가 붙으면 해당 위치의 내용을 삭제하고 덮어 쓴다.

INSERT OVERWRITE TABLE target PARTITION(col1 = 'a', col2)

SELECT data1,

date2

FROM source;

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
681	dual table만들기	2014.05.16	1111
680	특정파일이 생성되어야 action이 실행되는 oozie job만들기(coordinator.xml)	2014.05.20	1080
679	source의 type을 spooldir로 하는 경우 해당 경로에 파일이 들어오면 파일단위로 전송함	2014.05.20	829
678	hive에서 insert overwrite directory.. 로 하면 default column구분자는 'SOH'혹은 't'가 됨	2014.05.20	1125
677	import 혹은 export할때 hive파일의 default 구분자는 --input-fields-terminated-by "x01"와 같이 지정해야함	2014.05.20	4346
676	hiverserver2기동시 connection refused가 발생하는 경우 조치방법	2014.05.22	1560
675	hive query에서 mapreduce돌리지 않고 select하는 방법	2014.05.23	897
674	oozie의 meta정보를 mysql에서 관리하기	2014.05.26	1605
673	hive job실행시 meta정보를 원격의 mysql에 저장하는 경우 설정방법	2014.05.28	1164
672	hadoop및 ecosystem에서 사용되는 명령문 정리	2014.05.28	3660
671	의사분산모드에 hadoop설치및 ecosystem 환경 정리	2014.05.29	3217
670	원보드pc인 bananapi를 이용하여 hadoop 클러스터 구성하기(준비물)	2014.05.29	3933
669	oozie job 구동시 JA009: User: hadoop is not allowed to impersonate hadoop 오류나는 경우	2014.06.02	939
668	Cannot create /var/run/oozie/oozie.pid: Directory nonexistent오류	2014.06.03	537
667	jsoup 사용 예제	2014.06.06	1630
666	2개 data를 join하고 마지막으로 code정보를 join하여 결과를 얻는 mr 프로그램	2014.06.30	467
665	banana pi에(lubuntu)에 hadoop설치하고 테스트하기 - 성공	2014.07.05	2819
664	org.apache.hadoop.security.AccessControlException: Permission denied: user=hadoop, access=WRITE, inode="":root:supergroup:rwxr-xr-x 오류 처리방법	2014.07.05	2929
663	access=WRITE, inode="staging":ubuntu:supergroup:rwxr-xr-x 오류	2014.07.05	1793
662	banana pi(lubuntu)에서 한글 설정및 한글깨짐 문제 해결	2014.07.06	3383

쓰기 태그

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

댓글 0

LOGIN