Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

총관리자 2017.06.27 15:03 조회 수 : 5750

1. 아래의 사이트를 참조한다.

http://cafe.naver.com/korlucene

2. github에서 소스를 받아 빌드(goal : install)한다.

https://github.com/korlucene/arirang-analyzer-6

3. build된 *.jar파일을 각노드에 복사

빌드된 arirang.lucene-analyzer-6.2-1.1.0.jar파일과 pom프로젝트의 lib폴더에 있는 arirang-morph-1.1.0.jar파일을 서버에 복사

가. target폴더에 생성된 arirang.lucene-analyzer-6.2-1.1.0.jar파일을 solr가 설치된 폴더의 server/solr-webapp/webapp/WEB-INF/lib에 복사한다.

나. arirang-analyzer-6/lib폴더에 있는 arirang-morph-1.1.0.jar파일을 solr가 설치된 폴더의 server/solr-webapp/webapp/WEB-INF/lib에 복사한다.

가. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda2:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

나. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda3:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

다. scp -P 10022 arirang.lucene-analyzer-6.2-1.1.0.jar arirang-morph-1.1.0.jar root@gsda4:$HOME/solr/server/solr-webapp/webapp/WEB-INF/lib/

3-1. 사용할 collection생성(예시로 제시된 sample_techproducts_configs를 이용하여 gc라는 이름의 컬렉션을 생성함)

$HOME/solr/server/solr/configsets# cp -r sample_techproducts_configs gc

4. $HOME/solr/server/solr/configsset/gc/conf/managed-schema파일에 아래의 내용을 추가(한글 형태소 분석기 사용 설정)

(managed-schema의 위치는 변경될 수 있음, default위치는 $HOME/solr/server/solr/configsets임)

<fieldType name="text_ko" class="solr.TextField">
		<analyzer type="index">
			<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
			<filter class="solr.WordDelimiterFilterFactory"/>
			<filter class="solr.LowerCaseFilterFactory"/>
			<filter class="solr.ClassicFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true"  bigrammable="false" queryMode="false"/>
			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
			<filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
			<!--filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/-->
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
		</analyzer>
		<analyzer type="query">
			<tokenizer class="org.apache.lucene.analysis.ko.KoreanTokenizerFactory"/>
			<filter class="solr.WordDelimiterFilterFactory"/>
			<filter class="solr.LowerCaseFilterFactory"/>
			<filter class="solr.ClassicFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.KoreanFilterFactory" hasOrigin="true" hasCNoun="true" bigrammable="false" queryMode="false"/>
			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false" />
			<filter class="org.apache.lucene.analysis.ko.WordSegmentFilterFactory" hasOrijin="true"/>
			<filter class="org.apache.lucene.analysis.ko.HanjaMappingFilterFactory"/>
			<filter class="org.apache.lucene.analysis.ko.PunctuationDelimitFilterFactory"/>
			<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
		</analyzer>
	</fieldType>

* 특정필드에 적용하고 싶으면 아래와 같이 field의 type를 text_ko로 지정한다

5. solr를 재시작한다.(bin/solr.in.sh에 SolrCloud관련 설정이 되어있다고 가정함)

bin/solr restart

6.$HOME/solr/server/solr/configsset/gc/conf/managed-schema파일에 아래의 내용을 추가(상품정보를 인덱싱하기 위한 샘플 schema임)

7. 생성할 collection(이름 : gc)용 conf정보를 zookeeper에 업로드한다.

$HOME/solr/server/scripts/cloud-scripts# zkcli.sh -z gsda1:2181,gsda2:2181,gsda3:2181 -cmd upconfig -c gc -n gc -d $HOME/solr/server/solr/configsets/gc/conf

8. colleciton(이름: gc)를 생성한다.

bin/solr create -c gc -shards 4 -replicationFactor 2

* collection을 지울때는 : bin/solr delete -c gc

9. 컬렉션 gc에 등록할 데이타를 생성한다(gc_data.csv의 이름으로 생성하고 서버에 올려둔다.)

id,title
"Nara_0362360","2002, (민트2개팝니다)2002년5원10원흑점있음"
"Nara_0362361","미얀마 1994년 100챠트. P 75. UNC/ 필라코인"
"Nara_0362362","미얀마 1995년 1000챠트. P 75. UNC/ 필라코인"
"Nara_0362363","미얀마1995년1000챠트.P75.UNC/필라코인"

* 파일을 서버에 올리지 말고 solr어드민 화면에서 추가할 수도 있음

solr데이타등록.png

10. 샘플데이타를 gc에 post한다.

root@gsda1:~/solr/bin# post -c gc gc_data.csv

-->콘솔에 보여지는 메세지
/usr/lib/jvm/java-8-oracle/bin/java -classpath /svc/apps/gsda/bin/hadoop/solr/dist/solr-core-6.2.0.jar -Dauto=yes -Dc=gc -Ddata=files org.apache.solr.util.SimplePostTool gc_data.csv
SimplePostTool version 5.0.0
Posting files to [base] url http://localhost:8983/solr/gc/update...
Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
POSTing file gc_data.csv (text/csv) to [base]
1 files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gc/update...
Time spent: 0:00:00.861

11. 서치쿼리를 수행한다.

solr쿼리화면.png

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
590	FAILED: IllegalStateException Variable substitution depth too large: 40 오류발생시 조치사항	2014.08.19	4585
589	[CDP7.1.7, Hive Replication]Hive Replication진행중 "The following columns have types incompatible with the existing columns in their respective positions " 오류	2023.12.27	4582
588	[Kerberos]병렬 kinit 호출시 cache파일이 손상되어 Bad format in credentials cache 혹은 No credentials cache found 혹은 Internal credentials cache error 오류 발생시	2023.01.20	4581
587	[CDP7.1.7]EncryptionZone에 table생성및 권한 테스트	2023.09.26	4579
586	python test.py실행시 "ImportError: No module named pyspark" 혹은 "ImportError: No module named py4j.protocol"등의 오류 발생시 조치사항	2017.07.04	4574
585	column family삭제시 Column family 'delete' does not exist오류 발생하는 경우	2014.04.14	4571
584	[2.7.2] distribute-exclude.sh사용할때 ssh 포트변경에 따른 오류발생시 조치사항	2018.01.02	4569
583	kudu table와 impala(hive) table정보가 틀어져서 테이블을 읽지 못하는 경우(Error Loading Metadata) 조치방법	2023.11.10	4566
582	hbase가 기동시키는 zookeeper에서 받아드리는 ip가 IPv6로 사용되는 경우가 있는데 이를 IPv4로 강제적용하는 방법	2015.05.08	4566
581	missing block및 관련 파일명 찾는 명령어	2021.02.20	4565
580	"Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources"오류 발생시 조치사항	2016.05.25	4562
579	[DBeaver 4.3.0]import/export시 "Client home is not specified for connection" 오류발생시 조치사항	2017.12.21	4560
578	oozie가 말하는 start시간은..서버에서 확인되는 시간이 아닙니다.	2014.05.14	4557
577	[sbt] sbt-assembly를 이용하여 실행에 필요한 모든 j라이브러리를 포함한 fat jar파일 만들기	2016.07.11	4556
576	[CDP7.1.6,HDFS]HDFS파일을 삭제하고 Trash비움이 완료된후에도 HDFS 공간을 차지하고 있는 경우 확인/조치 방법	2023.07.17	4547
575	update 샘플	2018.03.12	4546
574	[CDP7.1.7]Hive Replication수행시 Target Cluster에서 Specified catalog.database.table does not exist 오류	2024.05.08	4536
573	json serde사용법	2014.04.17	4535
572	[Hue]Hue의 메타정보를 담고 있는 desktop_document테이블과 desktop_document2의 관계	2022.05.09	4529
571	../depcomp: line 512 exec : g++ : not found	2013.03.08	4527

쓰기 태그

첫 페이지 4 5 6 7 8 9 10 11 12 13 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

solr solr 6.2에 한글 형태소 분석기(arirang 6.x) 적용 및 테스트

댓글 0

LOGIN