메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


0. test데이타는 Fuseki에서 사용중인 데이타를 백업한 파일을 이용한다.(트리플 개수 : 12700751)

(파일이름 : icbms_2017-06-19_16-09-05.nq.gz )


<LUBM data 관련 정보>

*LUBM93000 : 약 110억(11615964562)건의 triple, 1TB용량, 데이타 생성하는데 약 1일 소요됨, 카운트 시간(Halyard이용) 약 22시간(80069028ms)

*LUBM20000 : 약 22억건의 triple,

*LUBM3000  : 약 33억건의 triple, 33MB용량


*LUBM1000  : 약 20.4G용량

*LUBM100   : 약 2.0G용량

*LUBM10    : 약 195.1M용량

*LUBM1     : 약 1만건의 triple, 15.2M용량


1. HDFS폴더 생성
hdfs dfs -mkdir gooper-test


2. console에서 repo생성
create hbase -> gooperRepo, 타임아웃시간 ->7일(604800초)


3. test owl파일 HDFS적재
hdfs dfs -put icbms_2017-06-19_16-09-05.nq.gz gooper-test


4. Halyard의 임시 저장소 삭제
hdfs dfs -rm -r gooper-test/temp


5. HDFS데이타를 Halyard에 적재
./bulkload gooper-test gooper-test/temp gooperRepo


6. query수행

가. fuseki에서 sparql을 실행하는 결과와 같은 결과가 나옴

나. 카운트등이 포함된 쿼리를 TDB를 이용한 fuseki를 이용하는 경우 1초미만 소요됨

다. 나와 동일한 쿼리를 Halyard의 console을 이용하면 약7.2분 소요됨

라. 카운트

gooperRepo> sparql
enter multi-line SPARQL query (terminate with line containing single '.')
select (count(*) as ?cnt) where {?s ?p ?o}
.
Evaluating SPARQL query...
+-----------------------------------------------------------------------------+
| cnt                                                                         |
+-----------------------------------------------------------------------------+
| "12700751"^^<http://www.w3.org/2001/XMLSchema#integer>                      |
+-----------------------------------------------------------------------------+
1 result(s) (143744 ms)

번호 제목 날짜 조회 수
321 "bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')])" 오류는 CA인증을 하지 못해서 발생함 2022.05.13 431
320 cloudera서비스 중지및 기동순서 2020.02.14 430
319 [oozie] oozie shell action에서 shellscript수행결과의 2개 변수를 decision 액션에서 사용하기 2020.06.05 429
318 cloudera에서 spark-shell를 실행했을때 default master는 spark.master=yarn-client임 2018.06.20 429
317 로컬에 있는 jar파일을 지정하고 dependency로 가져오기 2016.08.19 429
316 solr명령 실행시 "Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect" 오류발생 2017.06.30 428
315 원격에 있는 git를 받은후 기존repository삭제후 새로운 리포지토리에 연결하여 소스 등록 2019.07.13 427
314 Cloudera Manager재설치하는 동안 "Host is in bad health"오류가 발생하는 경우 확인/조치 사항 2018.05.24 427
313 Cloudera가 사용하는 서비스별 포트 2018.03.29 427
312 python3.5에서 numpy버젼에 따른 문제점을 조치하는 방법및 pymysql import할때 오류 발생시 조치사항 2017.09.28 426
311 [shell script] 파일을 한줄씩 읽어서 파일내용으로 명령문 만들고 실행하는 shell script예제 2017.02.21 426
310 impala session type별 표시되는 정보로 구분하는 방법 2021.05.25 425
309 Oracle 12c DB의 LOB타입 컬럼이 있는 테이블을 import할 때 주의 할 사항 2022.09.14 424
308 null 혹은 ""를 체크하는 방법 2016.01.27 423
307 MapReduce2.0(YARN)기반의 CDH5 설치시 생성되는 사용자및 권한 부여 2018.05.30 422
306 Embedded PostgreSql설정을 외부의 MariaDB로변경하기 [1] 2018.05.22 422
305 프로세스를 확인해서 프로세스를 삭제하는 shell script예제(cryptonight) 2018.02.02 422
304 nc -l 7777 : 7777포트에서 입력을 받는다. 2017.03.23 422
303 build할때 unmappable character for encoding MS949 에러 발생시 조치사항 2016.08.03 422
302 HUE를 사용할 사용자를 추가 하는 절차 2018.05.29 420
위로