Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.
sqoop작업시 success이면서 hdfs의 개수보다 rdbms에 들어가는 자료의 개수가 더 많아(중복되면서) 지는 경우가 있는데..
이는 버그로 보이며 update key로 지정하는 컬럼의 수를 최소로 만드는 등의 오류를 유도하여 확인하는 방법이
있다.
*참고 : https://stackoverflow.com/questions/39137254/sqoop-export-inserting-duplicate-entries