메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


0. test데이타는 Fuseki에서 사용중인 데이타를 백업한 파일을 이용한다.(트리플 개수 : 12700751)

(파일이름 : icbms_2017-06-19_16-09-05.nq.gz )


<LUBM data 관련 정보>

*LUBM93000 : 약 110억(11615964562)건의 triple, 1TB용량, 데이타 생성하는데 약 1일 소요됨, 카운트 시간(Halyard이용) 약 22시간(80069028ms)

*LUBM20000 : 약 22억건의 triple,

*LUBM3000  : 약 33억건의 triple, 33MB용량


*LUBM1000  : 약 20.4G용량

*LUBM100   : 약 2.0G용량

*LUBM10    : 약 195.1M용량

*LUBM1     : 약 1만건의 triple, 15.2M용량


1. HDFS폴더 생성
hdfs dfs -mkdir gooper-test


2. console에서 repo생성
create hbase -> gooperRepo, 타임아웃시간 ->7일(604800초)


3. test owl파일 HDFS적재
hdfs dfs -put icbms_2017-06-19_16-09-05.nq.gz gooper-test


4. Halyard의 임시 저장소 삭제
hdfs dfs -rm -r gooper-test/temp


5. HDFS데이타를 Halyard에 적재
./bulkload gooper-test gooper-test/temp gooperRepo


6. query수행

가. fuseki에서 sparql을 실행하는 결과와 같은 결과가 나옴

나. 카운트등이 포함된 쿼리를 TDB를 이용한 fuseki를 이용하는 경우 1초미만 소요됨

다. 나와 동일한 쿼리를 Halyard의 console을 이용하면 약7.2분 소요됨

라. 카운트

gooperRepo> sparql
enter multi-line SPARQL query (terminate with line containing single '.')
select (count(*) as ?cnt) where {?s ?p ?o}
.
Evaluating SPARQL query...
+-----------------------------------------------------------------------------+
| cnt                                                                         |
+-----------------------------------------------------------------------------+
| "12700751"^^<http://www.w3.org/2001/XMLSchema#integer>                      |
+-----------------------------------------------------------------------------+
1 result(s) (143744 ms)

번호 제목 날짜 조회 수
741 [Ranger]RangerAdminRESTClient Error gertting pplicies; Received NULL response!!, secureMode=true, user=rangerkms/node01.gooper.com@ GOOPER.COM (auth:KERBEROS), serviceName=cm_kms 2023.06.27 73
740 [vue storefrontui]외부 API통합하기 참고 문서 2022.02.09 80
739 [Encryption Zone]Encryption Zone에 생성된 table을 select할때 HDFS /tmp/zone1에 대한 권한이 없는 경우 2023.06.29 83
738 ./gradlew :composeDown 및 ./gradlew :composeUp 를 성공했을때의 메세지 2023.02.20 84
737 [EncryptionZone]User:testuser not allowed to do "DECRYPT_EEK" on 'testkey' 2023.06.29 89
736 [vi] test.nq파일에서 특정문자열(예, <>)을 찾아서 포함되는 라인을 삭제한 동일한 이름의 파일을 만드는 방법 2017.01.25 98
735 [Impala] alter table구문수행시 "WARNINGS: Impala does not have READ_WRITE access to path 'hdfs://nameservice1/DATA/Temp/DB/source/table01_ccd'" 발생시 조치 2024.04.26 98
734 CM의 Impala->Query tab에서 FINISHED query가 보이지 않는 현상 2021.08.31 99
733 restaurant-controller,에서 등록 예시 2022.04.30 99
732 주문히스토리 조회 2022.04.30 99
731 [Hue metadata]Oracle에 있는 Hue 메타정보 테이블을 이용하여 coordinator와 workflow관계 목록을 추출하는 방법 2023.08.22 99
730 [Cloudera Agent] Metadata-Plugin throttling_logger INFO (713 skipped) Unable to send data to nav server. Will try again. 2022.05.16 103
729 oozie의 sqoop action수행시 ooize:launcher의 applicationId를 이용하여 oozie:action의 applicationId및 관련 로그를 찾는 방법 2023.07.26 104
728 [CDP7.1.6,HDFS]HDFS파일을 삭제하고 Trash비움이 완료된후에도 HDFS 공간을 차지하고 있는 경우 확인/조치 방법 2023.07.17 107
727 [CDP7.1.7, Replication]Encryption Zone내 HDFS파일을 비Encryption Zone으로 HDFS Replication시 User hdfs가 아닌 hadoop으로 수행하는 방법 2024.01.15 110
726 주문 생성 데이터 예시 2022.04.30 112
725 호출 url현황 2023.02.21 112
724 [CDP7.1.7, Hive Replication]Hive Replication진행중 "The following columns have types incompatible with the existing columns in their respective positions " 오류 2023.12.27 116
723 eclipse 3.1 단축키 정리파일 2017.01.02 118
722 [CDP7.1.7]Oozie job에서 ERROR: Kudu error(s) reported, first error: Timed out: Failed to write batch of 774 ops to tablet 8003f9a064bf4be5890a178439b2ba91가 발생하면서 쿼리가 실패하는 경우 2024.01.05 118
위로