Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

총관리자 2017.06.27 15:03 조회 수 : 1008

1. 아래의 사이트를 참조한다.

http://cafe.naver.com/korlucene

2. github에서 소스를 받아 빌드(goal : install)한다.

https://github.com/korlucene/arirang-analyzer-6

3. build된 *.jar파일을 각노드에 복사

빌드된 arirang.lucene-analyzer-6.2-1.1.0.jar파일과 pom프로젝트의 lib폴더에 있는 arirang-morph-1.1.0.jar파일을 서버에 복사

가. target폴더에 생성된 arirang.lucene-analyzer-6.2-1.1.0.jar파일을 solr가 설치된 폴더의 server/solr-webapp/webapp/WEB-INF/lib에 복사한다.

나. arirang-analyzer-6/lib폴더에 있는 arirang-morph-1.1.0.jar파일을 solr가 설치된 폴더의 server/solr-webapp/webapp/WEB-INF/lib에 복사한다.

가. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda2:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

나. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda3:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

다. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda4:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

3-1. 사용할 collection생성(예시로 제시된 sample_techproducts_configs를 이용하여 gc라는 이름의 컬렉션을 생성함)

$HOME/solr/server/solr/configsets# cp -r sample_techproducts_configs gc

4. $HOME/solr/server/solr/configsset/gc/conf/managed-schema파일에 아래의 내용을 추가(한글 형태소 분석기 사용 설정)

(managed-schema의 위치는 변경될 수 있음, default위치는 $HOME/solr/server/solr/configsets임)

<fieldType name="text_ko" class="solr.TextField">
		<analyzer type="index">
			<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
			<filter class="solr.WordDelimiterFilterFactory"/>
			<filter class="solr.LowerCaseFilterFactory"/>
			<filter class="solr.ClassicFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true"  bigrammable="false" queryMode="false"/>
			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
			<filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
			<!--filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/-->
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
		</analyzer>
		<analyzer type="query">
			<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
			<filter class="solr.WordDelimiterFilterFactory"/>
			<filter class="solr.LowerCaseFilterFactory"/>
			<filter class="solr.ClassicFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true" bigrammable="false" queryMode="false"/>
			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
			<filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
			<filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/>
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
		</analyzer>
	</fieldType>

* 특정필드에 적용하고 싶으면 아래와 같이 field의 type를 text_ko로 지정한다

5. solr를 재시작한다.(bin/solr.in.sh에 SolrCloud관련 설정이 되어있다고 가정함)

bin/solr restart

6.$HOME/solr/server/solr/configsset/gc/conf/managed-schema파일에 아래의 내용을 추가(상품정보를 인덱싱하기 위한 샘플 schema임)

7. 생성할 collection(이름 : gc)용 conf정보를 zookeeper에 업로드한다.

$HOME/solr/server/scripts/cloud-scripts# zkcli.sh -z gsda1:2181,gsda2:2181,gsda3:2181 -cmd upconfig -c gc -n gc -d $HOME/solr/server/solr/configsets/gc/conf

8. colleciton(이름: gc)를 생성한다.

bin/solr create -c gc -shards 4 -replicationFactor 2

* collection을 지울때는 : bin/solr delete -c gc

9. 컬렉션 gc에 등록할 데이타를 생성한다(gc_data.csv의 이름으로 생성하고 서버에 올려둔다.)

id,title
"Nara_0362360","2002, (민트2개팝니다)2002년5원10원흑점있음"
"Nara_0362361","미얀마 1994년 100챠트. P 75. UNC/ 필라코인"
"Nara_0362362","미얀마 1995년 1000챠트. P 75. UNC/ 필라코인"
"Nara_0362363","미얀마1995년1000챠트.P75.UNC/필라코인"

* 파일을 서버에 올리지 말고 solr어드민 화면에서 추가할 수도 있음

solr데이타등록.png

10. 샘플데이타를 gc에 post한다.

root@gsda1:~/solr/bin# post -c gc gc_data.csv

-->콘솔에 보여지는 메세지
/usr/lib/jvm/java-8-oracle/bin/java -classpath /svc/apps/gsda/bin/hadoop/solr/dist/solr-core-6.2.0.jar -Dauto=yes -Dc=gc -Ddata=files org.apache.solr.util.SimplePostTool gc_data.csv
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/gc/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file gc_data.csv (text/csv) to [base]
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gc/update...
Time spent: 0:00:00.861

11. 서치쿼리를 수행한다.

solr쿼리화면.png

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
441	[Jsoup]특정페이지를 jsoup을 이용하여 파싱하는 샘플소스	2017.04.18	418
440	HUE를 사용할 사용자를 추가 하는 절차	2018.05.29	420
439	Oracle 12c DB의 LOB타입 컬럼이 있는 테이블을 import할 때 주의 할 사항	2022.09.14	420
438	build할때 unmappable character for encoding MS949 에러 발생시 조치사항	2016.08.03	421
437	nc -l 7777 : 7777포트에서 입력을 받는다.	2017.03.23	421
436	프로세스를 확인해서 프로세스를 삭제하는 shell script예제(cryptonight)	2018.02.02	422
435	Embedded PostgreSql설정을 외부의 MariaDB로변경하기 [1]	2018.05.22	422
434	MapReduce2.0(YARN)기반의 CDH5 설치시 생성되는 사용자및 권한 부여	2018.05.30	422
433	null 혹은 ""를 체크하는 방법	2016.01.27	423
432	impala session type별 표시되는 정보로 구분하는 방법	2021.05.25	424
431	[shell script] 파일을 한줄씩 읽어서 파일내용으로 명령문 만들고 실행하는 shell script예제	2017.02.21	425
430	python3.5에서 numpy버젼에 따른 문제점을 조치하는 방법및 pymysql import할때 오류 발생시 조치사항	2017.09.28	425
429	Cloudera가 사용하는 서비스별 포트	2018.03.29	427
428	Cloudera Manager재설치하는 동안 "Host is in bad health"오류가 발생하는 경우 확인/조치 사항	2018.05.24	427
427	원격에 있는 git를 받은후 기존repository삭제후 새로운 리포지토리에 연결하여 소스 등록	2019.07.13	427
426	solr명령 실행시 "Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect" 오류발생	2017.06.30	428
425	cloudera에서 spark-shell를 실행했을때 default master는 spark.master=yarn-client임	2018.06.20	428
424	[oozie] oozie shell action에서 shellscript수행결과의 2개 변수를 decision 액션에서 사용하기	2020.06.05	428
423	"bad handshake: Error([('SSL routines', 'ssl3_get_server_certificate', 'certificate verify failed')])" 오류는 CA인증을 하지 못해서 발생함	2022.05.13	428
422	로컬에 있는 jar파일을 지정하고 dependency로 가져오기	2016.08.19	429

쓰기 태그

첫 페이지 11 12 13 14 15 16 17 18 19 20 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

댓글 0

LOGIN