Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

halyard/rdf4j 9대가 hbase cluster로 구성된 서버에서 테스트 data를 halyard에 적재하고 테스트 하는 방법및 절차

총관리자 2017.07.21 11:11 조회 수 : 142

0. test데이타는 Fuseki에서 사용중인 데이타를 백업한 파일을 이용한다.(트리플 개수 : 12700751)

(파일이름 : icbms_2017-06-19_16-09-05.nq.gz )

*LUBM93000 : 약 110억(11615964562)건의 triple, 1TB용량, 데이타 생성하는데 약 1일 소요됨, 카운트 시간(Halyard이용) 약 22시간(80069028ms)

*LUBM20000 : 약 22억건의 triple,

*LUBM3000 : 약 33억건의 triple, 33MB용량

*LUBM1000 : 약 20.4G용량

*LUBM100 : 약 2.0G용량

*LUBM10 : 약 195.1M용량

*LUBM1 : 약 1만건의 triple, 15.2M용량

1. HDFS폴더 생성
hdfs dfs -mkdir gooper-test

2. console에서 repo생성
create hbase -> gooperRepo, 타임아웃시간 ->7일(604800초)

3. test owl파일 HDFS적재
hdfs dfs -put icbms_2017-06-19_16-09-05.nq.gz gooper-test

4. Halyard의 임시 저장소 삭제
hdfs dfs -rm -r gooper-test/temp

5. HDFS데이타를 Halyard에 적재
./bulkload gooper-test gooper-test/temp gooperRepo

6. query수행

가. fuseki에서 sparql을 실행하는 결과와 같은 결과가 나옴

나. 카운트등이 포함된 쿼리를 TDB를 이용한 fuseki를 이용하는 경우 1초미만 소요됨

다. 나와 동일한 쿼리를 Halyard의 console을 이용하면 약7.2분 소요됨

라. 카운트

gooperRepo> sparql
enter multi-line SPARQL query (terminate with line containing single '.')
select (count(*) as ?cnt) where {?s ?p ?o}
.
Evaluating SPARQL query...
+-----------------------------------------------------------------------------+
| cnt |
+-----------------------------------------------------------------------------+
| "12700751"^^<http://www.w3.org/2001/XMLSchema#integer> |
+-----------------------------------------------------------------------------+
1 result(s) (143744 ms)

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
441	Caused by: java.sql.SQLNonTransientConnectionException: Could not read resultset: unexpected end of stream, read 0 bytes from 4 오류시 확인/조치할 내용	2016.10.31	4064
440	mybatis와 spring을 org.apache.commons.dbcp2.BasicDataSource의 DataSource로 연동할때 DB설정(참고)	2016.10.31	1074
439	How-to: Tune Your Apache Spark Jobs (Part 2)	2016.10.31	221
438	How-to: Build a Complex Event Processing App on Apache Spark and Drools	2016.10.31	360
437	Flume을 이용한 데이타 수집시 HBase write 성능 튜닝	2016.10.31	724
436	Flume과 Kafka를 사용한 초당 100만개 로그 수집 테스트	2016.10.31	1127
435	Spark Streaming 코드레벨단에서의 성능개선	2016.10.31	290
434	centos 6에서 mariadb 5.1 to 10.0 으로 upgrade	2016.11.01	202
433	java스레드 덤프 분석하기	2016.11.03	185
432	데이타 분석및 머신러닝에 도움이 도움이 되는 사이트	2016.11.04	454
431	[SparkR]SparkR 설치 사용기 1 - Installation Guide On Yarn Cluster & Mesos Cluster & Stand Alone Cluster	2016.11.04	339
430	Eclipse실행시 Java was started but returned exit code=1이라는 오류가 발생할때 조치방법	2016.11.07	581
429	Kafka Offset Monitor로 kafka 상태 모니터링 하기	2016.11.08	663
428	참고할만한 spark예제를 설명하는 사이트	2016.11.11	186
427	spark notebook 0.7.0설치및 설정	2016.11.14	464
426	git 초기화(Windows에서 Git Bash사용)	2016.11.17	246
425	특정 단계의 commit상태로 만들기(이렇게 하면 중간에 반영된 모든 commit를 history가 삭제된다)	2016.11.17	372
424	Github를 이용하는 전체 흐름 이해하기	2016.11.18	146
423	특정 커밋 시점(commit id를 기준으로)으로 돌리기(reset)	2016.11.21	189
422	.gitignore파일에 지정되지 않은 파일이 ignore되는 경우 확인방법	2016.11.22	465

쓰기 태그

첫 페이지 11 12 13 14 15 16 17 18 19 20 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

halyard/rdf4j 9대가 hbase cluster로 구성된 서버에서 테스트 data를 halyard에 적재하고 테스트 하는 방법및 절차

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

halyard/rdf4j 9대가 hbase cluster로 구성된 서버에서 테스트 data를 halyard에 적재하고 테스트 하는 방법및 절차

댓글 0

LOGIN