Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

총관리자 2019.05.23 15:55 조회 수 : 896

hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 만들어서 다시 동일한 테이블에 입력하는 hive쿼리는 다음과 같다.

(1번, 2번 모두 가능함)

set mapreduce.job.running.map.limit=1;

set mapreduce.job.running.reduce.limit=1;

insert overwrite table temp.tb_test select * from temp.tb_test;

를 실행하면 hive에서 실행하면 목적지 테이블에 데이터를 입력할 때 select된 데이터에 한해서 자동으로 merge해서 입력한다.

1번 쿼리를 impala에서 실행하면 set구문이 인식이 안되어 오류가 발생하며 set구문없이 2번 쿼리를 실행하면 파일 개수에는 변함이 잆이 동일한 개수의 파일로 데이터가 overwrite된다.

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
581	mongodb에서 큰데이타 sort시 오류발생에 대한 해결방법	2015.12.22	512
580	fuseki에 update하는 방법(java api이용)및 주의 사항	2015.12.30	498
579	update(update와 delete->insert)사용시 주의/참고사항	2016.01.06	504
578	문자열을 숫자(integer)로 casting하기	2016.01.13	252
577	한번에 여러값 update하기	2016.01.13	337
576	CDH 5.4.4 버전에서 hive on tez (0.7.0)설치하기	2016.01.14	299
575	sparql 1.1 BIND(if() as ?bind변수) 버그로 추정되는 문제점및 해결방안 -> select 문에 (if(,,) as ?bind변수)	2016.01.21	379
574	null 혹은 ""를 체크하는 방법	2016.01.27	423
573	?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 표시하고 ?a!=?b 인경우는 ""로 구성된 결과 집합을 구하는 경우	2016.01.29	361
572	?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 ""로 하고 ?a!=?b 인경우는 해당값을 가지는 결과 집합을 구하는 경우	2016.01.29	196
571	select와 group by결과 값이 없는경우의 리턴 값이 다름	2016.02.05	210
570	SPARQL의 유형, SPARQL 만들기등에 대한 설명	2016.02.18	373
569	SPIN(SPARQL Inference Notation)이란..	2016.02.25	343
568	TopBraid Composer에서 SPIN 사용법	2016.02.25	191
567	System Properties Comparison Elasticsearch vs. Hive vs. Jena	2016.03.10	494
566	Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기	2016.03.11	263
565	CentOS에서 리눅스(Linux) 포트 열기, 방화벽 설정/해제 등.	2016.03.14	372
564	CentOS의 서버 5대에 yarn(hadoop 2.7.2)설치하기-ResourceManager HA/HDFS HA포함, JobHistory포함	2016.03.29	1199
563	bash는 PS1 변수를 통해 프롬프트의 모양을 바꿀 수 있다.	2016.03.30	565
562	"java.net.NoRouteToHostException: 호스트로 갈 루트가 없음" 오류시 확인및 조치할 사항	2016.04.01	3223

쓰기 태그

첫 페이지 4 5 6 7 8 9 10 11 12 13 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

hive hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법

댓글 0

LOGIN