Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.
Environment Variable
spark-env.sh에서 사용할 수있는 항목.
SPARK_WORKER_MEMORY은 중요하기 때문에 여기에서 보충.SPARK_WORKER_MEMORY의 범위 내에서 spark.executor.memory을 별도 정의하게되는데, executor가 차지하는 비중 다른 관리를 위해 수백 MB 정도 남겨두면 좋을 듯. 하지만 거기의 균형은 물론 환경에 의한 다.
SPARK_MASTER_OPTS
SPARK_MASTER_OPTS가 지원하는 속성.
SPARK_WORKER_OPTS
SPARK_WORKER_OPTS가 지원하는 속성.
High Availability
ZooKeeper를 물지시켜 HA 구성 할 수 있습니다. 본문에 따르면, 퍼스트 리더가 다운에서 걸리는 총 복구 프로세스는 약 1-2 분 정도 걸리는 것. 이 지연은 새로운 애플리케이션의 스케줄링에만 영향을 이미 실행중인 응용 프로그램은 마스터 장애 조치 영향을주지 않는다.
호스트 이름을 쉼표로 구분 OK.
1 | export STANDALONE_SPARK_MASTER_HOST = master1, master2 |
Spark properties for YARN