Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

sqoop 컬럼및 라인의 구분자를 지정하여 sqoop으로 데이타를 가져오고 hive테이블을 생성하는 명령문

총관리자 2018.08.03 13:51 조회 수 : 4074

MariaDB의 study데이타 베이스에 접근하여 product테이블의 데이타를 가져와서 study/out/productimport에 저장하는 sqoop문장이다.

이때 컬럼구분자는 '\001'(^A)를 사용하고 라인구분자는 '\003'(^C)를 사용한다.

hive폴더에 저장되는 라인은 price >1인 조건을 만족해야하며 productID및 name만 저장된다

이렇게 하면 컬럼에 newline(\n)이 있어도 문제없이 가져올 수 있다.

sqoop import \

--connect=jdbc:mysql://gsda3:포트/study \

--username=db사용자\

--password=패스워드\

--table=product \

--target-dir=study/out/productimport \

--fields-terminated-by='\001' \

--lines-terminated-by='\003'

--where="price > 1 " \

--columns="productID, name"

아래는 위에서 sqoop로 가져온 데이타에 대한 external table을 생성하는 hive명령문이다.

hive 1.1에서 기본적으로 지원하는 라인 구분자는 '\n'만 지원한다.

하지만 textinputformat.record.delimiter을 이용하여 라인 구분자를 변경할 수 있다.

set textinputformat.record.delimiter='\003';

create external table productimport

(productID string, name string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\001'

STORED AS TEXTFILE

LOCATION 'study/out/productimport';

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
270	jsoup 사용 예제	2014.06.06	4333
269	Impala의 Queries탭에서 여러조건으로 쿼리 찾기	2018.05.09	4334
268	os가 windows7인 host pc에서 ubuntu가 os인 guest pc에 접근하기 위한 네트워크설정	2014.04.20	4336
267	[Impala TLS/SSL이슈]RangerAdminRESTClient.java:151] Failed to get response, Error is: TrustManager is not specified	2023.02.02	4339
266	Flume과 Kafka를 사용한 초당 100만개 로그 수집 테스트	2016.10.31	4340
265	Cassandra 3.4(3.10) 설치/설정 (5대로 clustering)	2016.04.11	4344
264	커리 변경 이벤트를 처리하기 위한 구현클래스	2016.07.21	4344
263	Using The ZooKeeper CLI에서 zkCli의 위치	2014.11.02	4345
262	마이바티스(MyBatis)쿼리로그 출력및 정렬하기	2015.12.01	4345
261	centsOS vsftpd설치하기	2013.12.17	4348
260	[Magento]php7에 Composer를 이용하여 Magento 2.1.3 설치	2017.01.30	4348
259	Hadoop 완벽 가이드 정리된 링크	2016.04.19	4350
258	No broker partitions consumed by consumer thread오류 발생시 확인/조치할 사항	2016.09.02	4353
257	동일서버에서 LA와 LC동시에 기동하여 테스트	2014.04.01	4360
256	통계자료 구할수 있는 곳	2014.04.16	4361
255	scala application 샘플소스(SparkSession이용)	2018.03.07	4364
254	mongodb에서 큰데이타 sort시 오류발생에 대한 해결방법	2015.12.22	4373
253	RHEL 7.4에 zeppelin 0.7.4 설치	2018.07.31	4373
252	Kafka Offset Monitor로 kafka 상태 모니터링 하기	2016.11.08	4374
251	[Hadoop Encryption] Encryption Zone 생성/설정시 User:hadoop not allowed to do 'DECRYPT_EEK' ON 'testkey' 오류 발생 조치 사항	2023.06.28	4377

쓰기 태그

첫 페이지 20 21 22 23 24 25 26 27 28 29 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

sqoop 컬럼및 라인의 구분자를 지정하여 sqoop으로 데이타를 가져오고 hive테이블을 생성하는 명령문

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

sqoop 컬럼및 라인의 구분자를 지정하여 sqoop으로 데이타를 가져오고 hive테이블을 생성하는 명령문

댓글 0

LOGIN