Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

총관리자 2016.07.13 15:00 조회 수 : 787

0. test-topic은 미리 생성해둔다.

(./bin/kafka-topics.sh --create --zookeeper gsda1:2181,gsda2:2181,gsda3:2181 --replication-factor 3 --partitions 3 --topic test-topic)

1. scala-ide용 eclipse에서 아래의 소스를 편집한다.

2. 해당 프로젝트의 console창에서 "sbt clean assemlby"를 실행하여 fat jar파일을 만든다.(파일명 : icbms-assembly-2.0.jar)

3. 서버에서 producer를 실행한다.(icbms.test.KafkaWordCountProducer)

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCountProducer --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar gsda1:7077,gsda2:7077 test-topic 1 1

4. 서버에서 consumer를 실행한다.(icbms.test.KafkaWordCount)

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar  gsda1:2181,gsda2:2181 testg-1 test-topic 1

* 다양한 실행방법

    (icbms-assembly-2.0.jar은 "sbt assembly"명령으로 만들어지며, icbms_2.10-2.0.jar는 "sbt package"명령으로 만들어진다.)

가. yarn에서 실행(#1) : /svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master yarn --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar,icbms_2.10-2.0.jar icbms_2.10-2.0.jar  gsda1:2181,gsda2:2181 testg-1 test-topic 3

나. yarn에서 실행(#1) : /svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master yarn --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar --files icbms_2.10-2.0.jar icbms_2.10-2.0.jar gsda1:2181,gsda2:2181 testg-1 test-topic 3

다. spark cluster에서 실행

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master spark://gsda1:7077,sda2:7077 --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms-assembly-2.0.jar gsda1:2181,gsda2:2181 testg-1 test-topic 3

라. local모드로 실행

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar gsda1:2181,sda2:2181 testg-1 test-topic 3

-----------------scala소스 빌드용 설정파일(project.sbt) ---------------

import sbtassembly.AssemblyPlugin._

name := "icbms"

version := "2.0"

 //scalaVersion := "2.11.8"
scalaVersion := "2.10.4"

resolvers += "Akka Repository" at "http://repo.akka.io/releases/"

libraryDependencies ++= Seq(
	("org.apache.spark" %% "spark-core" % "1.3.1" % "provided")
	.exclude("org.mortbay.jetty", "servlet-api").
    exclude("commons-beanutils", "commons-beanutils-core").
    exclude("commons-collections", "commons-collections").
    exclude("commons-logging", "commons-logging").
    exclude("com.esotericsoftware.minlog", "minlog").
    exclude("com.codahale.metrics", "metrics-core")
	,
	"org.apache.spark" %% "spark-sql" % "1.3.1" ,
	"org.apache.spark" % "spark-streaming_2.10" % "1.3.1",
	"org.apache.spark" % "spark-streaming-kafka_2.10" % "1.3.1" ,
	"org.apache.kafka" % "kafka_2.10" % "0.9.0.1" ,
	"org.apache.avro" % "avro" % "1.7.7" 
)

assemblyMergeStrategy in assembly := {
    case PathList("javax", "servlet", xs @ _*) => MergeStrategy.last
    case PathList("javax", "activation", xs @ _*) => MergeStrategy.last
    case PathList("org", "apache", xs @ _*) => MergeStrategy.last
    case PathList("com", "google", xs @ _*) => MergeStrategy.last
    case PathList("com", "esotericsoftware", xs @ _*) => MergeStrategy.last
    case PathList("com", "codahale", xs @ _*) => MergeStrategy.last
    case PathList("com", "yammer", xs @ _*) => MergeStrategy.last
    case "about.html" => MergeStrategy.rename
    case "META-INF/ECLIPSEF.RSA" => MergeStrategy.last
    case "META-INF/mailcap" => MergeStrategy.last
    case "META-INF/mimetypes.default" => MergeStrategy.last
    case "plugin.properties" => MergeStrategy.last
    case "log4j.properties" => MergeStrategy.last
    case x =>
        val oldStrategy = (assemblyMergeStrategy in assembly).value
        oldStrategy(x)
}

----------------------소스파일---------------

package icbms.test

import java.util.HashMap

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}

import org.apache.spark.SparkConf

import org.apache.spark.streaming._

import org.apache.spark.streaming.kafka._

import org.apache.spark.streaming.dstream.DStream.toPairDStreamFunctions

/**

 * Consumes messages from one or more topics in Kafka and does wordcount.

 * Usage: KafkaWordCount <zkQuorum> <group> <topics> <numThreads>

 *   <zkQuorum> is a list of one or more zookeeper servers that make quorum

 *   <group> is the name of kafka consumer group

 *   <topics> is a list of one or more kafka topics to consume from

 *   <numThreads> is the number of threads the kafka consumer should use

*

 * Example:

 *    `$ bin/run-example 

 *      org.apache.spark.examples.streaming.KafkaWordCount zoo01,zoo02,zoo03 

 *      my-consumer-group topic1,topic2 1`

*/

object KafkaWordCount {

  def main(args: Array[String]) {

    if (args.length < 4) {

      System.err.println("Usage: KafkaWordCount <zkQuorum> <group> <topics> <numThreads>")

      System.exit(1)

}

    //StreamingExamples.setStreamingLogLevels()

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf().setAppName("KafkaWordCount")

    //sparkConf.setMaster("spark://gsda1:7077,gsda2:7077")

    //sparkConf.setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(2))

    ssc.checkpoint("checkpoint")

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1L))

      .reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2)

    wordCounts.print()

    ssc.start()

    ssc.awaitTermination()

}

}

// Produces some random words between 1 and 100.

object KafkaWordCountProducer {

  def main(args: Array[String]) {

    if (args.length < 4) {

      System.err.println("Usage: KafkaWordCountProducer <metadataBrokerList> <topic> " +

        "<messagesPerSec> <wordsPerMessage>")

      System.exit(1)

}

    val Array(brokers, topic, messagesPerSec, wordsPerMessage) = args

    // Zookeeper connection properties

    val props = new HashMap[String, Object]()

    props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)

    props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,

      "org.apache.kafka.common.serialization.StringSerializer")

    props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,

      "org.apache.kafka.common.serialization.StringSerializer")

    val producer = new KafkaProducer[String, String](props)

    // Send some messages

    while(true) {

      (1 to messagesPerSec.toInt).foreach { messageNum =>

        val str = (1 to wordsPerMessage.toInt).map(x => scala.util.Random.nextInt(10).toString)

          .mkString(" ")

        val message = new ProducerRecord[String, String](topic, null, str)

        producer.send(message)

}

      Thread.sleep(1000)

}

}

}

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
21	How-to: Tune Your Apache Spark Jobs (Part 2)	2016.10.31	457
20	VisualVM 1.3.9을 이용한 spark-submit JVM 모니터링을 위한 설정및 spark-submit실행 옵션	2016.10.28	2378
19	java.lang.OutOfMemoryError: unable to create new native thread오류 발생지 조치사항	2016.10.17	1115
18	파일끝에 붙는 ^M 일괄 지우기(linux, unix(AIX)) 혹은 파일내에 있는 ^M지우기	2016.09.24	237
17	start-all.sh로 spark데몬 기동시 "JAVA_HOME is not set"오류 발생시 조치사항	2016.08.01	1243
16	Apache Spark와 Drools를 이용한 CEP구현 테스트	2016.07.15	1111
»	kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)	2016.07.13	787
14	spark-sql실행시 ERROR log: Got exception: java.lang.NumberFormatException For input string: "2000ms" 오류발생시 조치사항	2016.06.09	390
13	spark-sql실행시 Caused by: java.lang.NumberFormatException: For input string: "0s" 오류발생시 조치사항	2016.06.09	4759
12	spark-sql실행시 The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH오류 발생시 조치사항	2016.06.09	684
11	./spark-sql 실행시 "java.lang.NumberFormatException: For input string: "1s"오류발생시 조치사항	2016.06.09	529
10	Scala버젼 변경 혹은 상황에 맞게 Spark소스 컴파일하기	2016.05.31	843
9	spark client프로그램 기동시 "Error initializing SparkContext"오류 발생할때 조치사항	2016.05.27	670
8	spark-submit으로 spark application실행하는 다양한 방법	2016.05.25	445
7	spark 온라인 책자링크 (제목 : mastering-apache-spark)	2016.05.25	446
6	"Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources"오류 발생시 조치사항	2016.05.25	1527
5	spark-env.sh에서 사용할 수있는 항목.	2016.05.24	1174
4	Spark 1.6.1 설치후 HA구성	2016.05.24	1066
3	spark-shell실행시 "A read-only user or a user in a read-only database is not permitted to disable read-only mode on a connection."오류가 발생하는 경우 해결방법	2016.05.20	688
2	Spark 2.1.1 clustering(5대) 설치(YARN기반)	2016.04.22	2210

쓰기 태그

첫 페이지 1 2 3 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

댓글 0

LOGIN