Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

총관리자 2016.06.14 17:07 조회 수 : 213

-----아래는 S2RDF가 제시한 *.py프로그램(테스트 목적으로만 만드어져 있어서 실제 사용할 수 없음)을 사용하지 않고 직접 java나 spark-submit을 호출하여 작업하는 방법을 기록함

--------------------DataSetCreator(동록하려는 data(test2.nq)는 HDFS상의 s2rdf폴더 밑에 존재 해야함, /home/hadoop/DataSetCreator에서 실행)-------------------------------------

1. Generate Vertical Partitioning

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq VP 0.2

==> /tmp/stat_vp.txt가 만들어짐

2. Generate Exteded Vertical Partitioning subset SO

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SO 0.2

==> /tmp/stat_so.txt가 만들어짐

3. Generate Exteded Vertical Partitioning subset OS

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq OS 0.2

==> /tmp/stat_os.txt가 만들어짐

4. Generate Exteded Vertical Partitioning subset SS

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SS 0.2

==> /tmp/stat_ss.txt가 만들어짐

----------------------QueryTranslator(data/하위 파일(DataSetCreator과정을 통해서 만들어짐)은 모두 OS파일로 존재함), /home/hadoop/QueryTranslator/S2RDF_QueryTranslator에서 실행)------------------------

java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i data/sparql.in -o data/sparql.in -sd data/statistics/ -sUB 0.2

===>

VP STAT Size = 86

OS STAT Size = 353

SO STAT Size = 353

SS STAT Size = 1702

THE NUMBER OF ALL SAVED (< ScaleUB) TRIPLES IS -> 1311014421

THE NUMBER OF ALL SAVED (< ScaleUB) TABLES IS -> 2127

TABLE-><gr__offers>

TABLE-><foaf__homepage>

TABLE-><sorg__author>

TABLE-><wsdbm__friendOf>

TABLE-><wsdbm__likes>

TABLE-><sorg__language>

TABLE-><rev__hasReview>

TABLE-><rev__reviewer>

TABLE-><wsdbm__follows>

TABLE-><gr__includes>

* QueryTranslator실행 위치의 폴더구조(여기서 실행해도 실제 사용되는 것은 data폴더와 queryTranslator-1.1.jar파일이다.)

-bash-4.1$ ll

합계 20192

-rw-rw-r--. 1 hadoop hadoop 0 2016-06-13 15:30 HiveSPARQL_error.log

drwxrwxr-x. 3 hadoop hadoop 4096 2016-06-13 15:36 data

drwxrwxr-x. 2 hadoop hadoop 4096 2016-05-26 18:46 lib

-rw-rw-r--. 1 hadoop hadoop 20661741 2016-04-04 22:34 queryTranslator-1.1.jar

drwxrwxr-x. 3 hadoop hadoop 4096 2016-05-26 18:46 src

-bash-4.1$ ll -R data

data:

합계 16

-rw-rw-r--. 1 hadoop hadoop 0 2016-06-13 15:28 HiveSPARQL_error.log

-rw-rw-r--. 1 hadoop hadoop 730 2015-08-17 17:07 sparql.in

-rw-rw-r--. 1 hadoop hadoop 1821 2016-06-13 15:36 sparql.in.log

-rw-rw-r--. 1 hadoop hadoop 1889 2016-06-13 15:36 sparql.in.sql

drwxrwxr-x. 2 hadoop hadoop 4096 2016-05-26 18:46 statistics

data/statistics:

합계 132

-rw-rw-r--. 1 hadoop hadoop 19129 2015-08-17 17:07 stat_os.txt

-rw-rw-r--. 1 hadoop hadoop 18910 2015-08-17 17:07 stat_so.txt

-rw-rw-r--. 1 hadoop hadoop 89774 2015-08-17 17:07 stat_ss.txt

-rw-rw-r--. 1 hadoop hadoop 3419 2015-08-17 17:07 stat_vp.txt

=====새로운 QueryTranslator=======>

java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i ./test2/test2.sparql -o ./test2/test2.sparql -sd ./test2/statistics/ -sUB 0.2

-bash-4.1$ mkdir ./test2/statistics

-bash-4.1$ touch ./test2/statistics/stat_vp.txt

-bash-4.1$ touch ./test2/statistics/stat_os.txt

-bash-4.1$ touch ./test2/statistics/stat_so.txt

-bash-4.1$ touch ./test2/statistics/stat_ss.txt

==> ./test2/폴더 밑에 test2.sparql.sql로 sql파일이 생성됨

------------------------QueryExecutor(/home/hadoop/QueryExecutor에서 실행)--------------------------------------

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files ./IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql ./queryexecutor_2.10-1.1.jar WatDiv1M IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql > ./QueryExecutor.err

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/data/sparql.in.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in.sql

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files ./sparql.in__s2rdf.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in__s2rdf.sql

---------새로운 QueryExecutor---------------------------------------------------------

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryExecutor/test2/test2.sparql.sql ./queryexecutor_2.10-1.1.jar s2rdf test2.sparql.sql

==> select 결과값이 /tmp/table명/results.txt와 table명/resultTimes.txt파일로 생성됨

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
78	cumulusRDF 1.0.1설치및 "KeyspaceCumulus" keyspace확인하기	2016.04.15	5945
77	protege 설명및 사용법	2017.04.04	3025
76	Jena 2.3를 Hadoop 2.7.2의 NFS로 mount하고 fuseki를 이용하여 start할때 오류 메세지	2016.12.02	1644
75	거침없이 배우는 Drools 책의 샘플소스	2016.07.22	1369
74	update를 많이 하면 heap memory가 많이 소진되고 최종적으로 OOM가 발생하는데 이에 대한 설명	2017.04.10	818
73	fuseki용 config-examples.ttl 예시 내용	2017.05.17	746
72	Halyard - RDF4J와 Apache HBase를 이용하여 구현된 TripleStore이며 SPARQL 1.1쿼리를 지원한다.	2016.12.29	734
71	Drools 6.0 - 비즈니스 룰 기반으로 간단한 룰 애플리케이션 만들기	2016.07.18	683
70	동시에 많은 요청이 endpoint로 몰려서java.net.NoRouteToHostException가 발생하는 경우의 처리방법	2016.10.17	664
69	커리 변경 이벤트를 처리하기 위한 구현클래스	2016.07.21	597
68	[oneM2M]Ontologies used for oneM2M	2017.08.02	570
67	queryTranslator실행시 NullPointerException가 발생전에 java.lang.ArrayIndexOutOfBoundsException발생시 조치사항	2016.06.16	555
66	DataSetCreator실행시 "Illegal character in fragment at index"오류가 나는 경우 조치방안	2016.06.17	553
65	halyard의 console스크립트에서 생성한 repository는 RDF4J Web Applications에서 공유가 되지 않는다.	2017.07.05	533
64	python실행시 ValueError: zero length field name in format오류 해결방법	2016.05.27	526
63	fuseki에서 제공하는 script중 s-post를 사용하는 예문	2017.09.15	517
62	DeviceType이 o:motion-sensor_33 이거나 o:motion-sensor_32 경우의 sparql문장은 다음과 같다.	2017.08.16	507
61	update(update와 delete->insert)사용시 주의/참고사항	2016.01.06	504
60	fuseki에 update하는 방법(java api이용)및 주의 사항	2015.12.30	498
59	fuseki가 제공하는 web ui를 통해서 dataset를 remove->create할 경우 동일한 동일한 이름으로 지정했을때 fuseki-server.jar가 뜨지 않는 현상	2017.02.03	497

쓰기 태그

첫 페이지 1 2 3 4 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

댓글 0

LOGIN