메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


MariaDB의 study데이타 베이스에 접근하여 product테이블의 데이타를 가져와서 study/out/productimport에 저장하는 sqoop문장이다.
이때 컬럼구분자는 '\001'(^A)를 사용하고 라인구분자는 '\003'(^C)를 사용한다.
hive폴더에 저장되는 라인은 price >1인 조건을 만족해야하며 productID및 name만 저장된다
이렇게 하면 컬럼에 newline(\n)이 있어도 문제없이 가져올 수 있다.

sqoop import \
--connect=jdbc:mysql://gsda3:포트/study \
--username=db사용자\
--password=패스워드\
--table=product \
--target-dir=study/out/productimport \
--fields-terminated-by='\001' \
--lines-terminated-by='\003'
--where="price > 1 " \
--columns="productID, name"

아래는 위에서 sqoop로 가져온 데이타에 대한 external table을 생성하는 hive명령문이다.

hive 1.1에서 기본적으로 지원하는 라인 구분자는 '\n'만 지원한다.
하지만 textinputformat.record.delimiter을 이용하여 라인 구분자를 변경할 수 있다.

set textinputformat.record.delimiter='\003';
create external table productimport
(productID string, name string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS TEXTFILE
LOCATION 'study/out/productimport';
번호 제목 날짜 조회 수
530 [Kerberos인증] /var/log/krb5kdc.log파일 기준으로 인증요청(AS), 티켓확인(TGS)이 진행되는 로그 기록 2022.09.21 4421
529 Scala에서 countByWindow를 이용하기(예제) 2018.03.08 4421
528 .gitignore파일에 지정되지 않은 파일이 ignore되는 경우 확인방법 2016.11.22 4421
527 [CDP7.1.7]Impala Query의 Memory Spilled 양은 ScratchFileUsedBytes값을 누적해서 구할 수 있다. 2022.07.29 4420
526 [kubernetes]우분투 Kubernetes 설치 방법 file 2019.07.24 4416
525 python2.7.4에서 Oracle DB(11.2)를 사용하기 위한 설정(RPM을 이용하여 RHEL 7.4에 설치) 2021.11.26 4415
524 Job이 끝난 log을 볼수 있도록 설정하기 2016.05.30 4415
523 flume 1.5.2 설치및 테스트(source : file, sink : hdfs) in HA 2015.05.21 4413
522 Oracle 12c DB의 LOB타입 컬럼이 있는 테이블을 import할 때 주의 할 사항 2022.09.14 4410
521 Journal Storage Directory /data/hadoop/journal/data/mycluster not formatted 오류시 조치사항 2016.07.29 4409
520 spark-submit으로 spark application실행하는 다양한 방법 2016.05.25 4406
519 [Kudu]Schema별 혹은 테이블별 사용량(Replica포함) 구하는 방법 2022.07.14 4403
518 VirtualBox에 ubuntu 설치 하기 (12.10) file 2013.03.04 4402
517 ./gradlew :composeDown 및 ./gradlew :composeUp 를 성공했을때의 메세지 2023.02.20 4401
516 kudu hms check 사용법(예시) 2021.10.22 4396
515 Windows7 64bit 환경에서 Apache Spark 2.2.0 설치하기 2017.07.26 4395
514 [Solr in Cloudera]Solr Data Directory변경 방법/절차 2023.04.21 4384
513 Cloudera의 CMS각 컴포넌트의 역할 2020.02.10 4384
512 lagom-linux용 build.sbt파일 내용 2017.10.12 4384
511 mongodb aggregation query를 Java code로 변환한 샘플 2016.12.15 4382
위로