Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

총관리자 2019.05.23 15:55 조회 수 : 2275

hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 만들어서 다시 동일한 테이블에 입력하는 hive쿼리는 다음과 같다.

(1번, 2번 모두 가능함)

set mapreduce.job.running.map.limit=1;

set mapreduce.job.running.reduce.limit=1;

insert overwrite table temp.tb_test select * from temp.tb_test;

를 실행하면 hive에서 실행하면 목적지 테이블에 데이터를 입력할 때 select된 데이터에 한해서 자동으로 merge해서 입력한다.

1번 쿼리를 impala에서 실행하면 set구문이 인식이 안되어 오류가 발생하며 set구문없이 2번 쿼리를 실행하면 파일 개수에는 변함이 잆이 동일한 개수의 파일로 데이터가 overwrite된다.

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
588	[kubernetes]우분투 Kubernetes 설치 방법	2019.07.24	2355
587	LAGOM 1.4 AND KUBERNETES ORCHESTRATION	2019.07.19	1098
586	oozie WF에서 참고할만한 내용	2019.07.18	1144
585	[shellscript] 함수에 배열을 인자로 주어서 처리하는 방법	2019.07.16	1904
584	[shellscript]엑셀파일에서 여러줄에 존재하는 단어를 한줄의 문자열로 합치는 방법(comma로 구분)	2019.07.15	2239
583	원격에 있는 git를 받은후 기존repository삭제후 새로운 리포지토리에 연결하여 소스 등록	2019.07.13	1619
582	기준일자 이전의 hdfs 데이타를 지우는 shellscript 샘플	2019.06.14	2140
581	embedded-cassandra의 data 저장위치	2019.06.09	2183
580	elasticsearch에서 모든 인덱스(색인)을 삭제하는 방법	2019.06.09	1334
579	scala-eclipse 다운로드	2019.06.09	2153
578	ubuntu에 maven 3.6.1설치 및 환경변수 설정	2019.06.02	2416
577	jdk 9이상 사용하려면 repository를 아래와 같이 지정해야한다.	2019.06.02	1279
576	source, sink를 직접 구현하여 사용하는 예시	2019.05.30	2218
575	kerberos설정된 상태의 spooldir->memory->hdfs로 저장하는 과정의 flume agent configuration구성 예시	2019.05.30	1878
»	hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법	2019.05.23	2275
573	하둡 클러스터 전체 노드를 다시 기동하면 invalidate metadata를 수행해야 데이터가 틀어지지 않는다.	2019.05.20	2203
572	Could not configure server becase SASL configuration did not allow the Zookeeper server to authenticate itself properly: javax.security.auth.login.LoginException: Checksum failed	2019.05.18	1378
571	json으로 존재하는 데이터 parsing하기	2019.03.25	2640
570	TransmitData() to failed: Network error: Recv() got EOF from remote (error 108) 오류 현상	2019.02.15	2049
569	[Oozie]Disk I/O error: Failed to open HDFS file dhfs://..../tb_aaa/....OPYING	2019.02.15	2027

쓰기 태그

첫 페이지 4 5 6 7 8 9 10 11 12 13 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

댓글 0

LOGIN