메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 만들어서 다시 동일한 테이블에 입력하는 hive쿼리는 다음과 같다.

(1번, 2번 모두 가능함)


1. 

set mapreduce.job.running.map.limit=1;

set mapreduce.job.running.reduce.limit=1;

insert overwrite table temp.tb_test select * from temp.tb_test;


2. 

insert overwrite table temp.tb_test select * from temp.tb_test;


를 실행하면 hive에서 실행하면 목적지 테이블에 데이터를 입력할 때 select된 데이터에 한해서 자동으로 merge해서 입력한다.


1번 쿼리를 impala에서 실행하면 set구문이 인식이 안되어 오류가 발생하며 set구문없이  2번 쿼리를 실행하면 파일 개수에는 변함이 잆이 동일한 개수의 파일로  데이터가 overwrite된다.


번호 제목 날짜 조회 수
581 mongodb에서 큰데이타 sort시 오류발생에 대한 해결방법 2015.12.22 512
580 fuseki에 update하는 방법(java api이용)및 주의 사항 2015.12.30 498
579 update(update와 delete->insert)사용시 주의/참고사항 2016.01.06 504
578 문자열을 숫자(integer)로 casting하기 2016.01.13 252
577 한번에 여러값 update하기 2016.01.13 337
576 CDH 5.4.4 버전에서 hive on tez (0.7.0)설치하기 2016.01.14 299
575 sparql 1.1 BIND(if() as ?bind변수) 버그로 추정되는 문제점및 해결방안 -> select 문에 (if(,,) as ?bind변수) file 2016.01.21 379
574 null 혹은 ""를 체크하는 방법 2016.01.27 423
573 ?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 표시하고 ?a!=?b 인경우는 ""로 구성된 결과 집합을 구하는 경우 file 2016.01.29 361
572 ?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 ""로 하고 ?a!=?b 인경우는 해당값을 가지는 결과 집합을 구하는 경우 file 2016.01.29 196
571 select와 group by결과 값이 없는경우의 리턴 값이 다름 file 2016.02.05 210
570 SPARQL의 유형, SPARQL 만들기등에 대한 설명 2016.02.18 373
569 SPIN(SPARQL Inference Notation)이란.. file 2016.02.25 343
568 TopBraid Composer에서 SPIN 사용법 file 2016.02.25 191
567 System Properties Comparison Elasticsearch vs. Hive vs. Jena file 2016.03.10 494
566 Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기 2016.03.11 263
565 CentOS에서 리눅스(Linux) 포트 열기, 방화벽 설정/해제 등. 2016.03.14 372
564 CentOS의 서버 5대에 yarn(hadoop 2.7.2)설치하기-ResourceManager HA/HDFS HA포함, JobHistory포함 2016.03.29 1199
563 bash는 PS1 변수를 통해 프롬프트의 모양을 바꿀 수 있다. 2016.03.30 565
562 "java.net.NoRouteToHostException: 호스트로 갈 루트가 없음" 오류시 확인및 조치할 사항 2016.04.01 3223
위로