메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


*출처 : http://gamma0burst.tistory.com/295


갑자기 무한재부팅 현상이 일어나서 몇시간동안 설쳤네요.

컴퓨터 이상의 원인은 셀 수 없을만큼 많지만 대부분 다음 정도로 추려집니다.

- 메모리 불량
- cpu 장착불량
- 그래픽카드 불량
- 오버클럭 실패
- 메인보드 고장
- 파워 불량
- 메인보드의 cpu 미지원
등등

드물게는 다음같은 경우도 있습니다.

- 케이스 접지 불량
- 소켓 번 등의 cpu핀 혹은 소켓핀의 문제
- 그래픽카드 호환성 문제
- 메모리 호환 문제
등등


재부팅 현상도,
- 바이오스화면까지 뜨고 재부팅.
- 윈도우로고까지 뜨고 재부팅.
- 아무것도 안 뜨고 재부팅.
등등 다양.

- 바이오스화면까지 뜨고 재부팅.
 메모리 문제일 가능성이 높음.

- 윈도우로고까지 뜨고 재부팅.
 오버클럭 실패 가능성이 높음.

- 아무것도 안 뜨고 재부팅.
 cpu, 메인보드 문제일 가능성이 높음.

물론 주로 그렇다는 것이지 원인에 대해서는 모든 가능성을 열어놓고 생각해야합니다.



(대부분 새로 사는 등 돈으로 해결하는 것이기때문에)조치방법은 간단한 편이지만, 
원인을 찾는게 쉬운일이 아니지요. 


해결법

- 메모리 불량
 초기 불량일 경우 교체하는 수 밖에 없음.

- cpu 장착불량
 cpu 재장착.

- 그래픽카드 불량
 그래픽카드 교체.

- 오버클럭 실패
 바이오스 초기화.
 메인보드의 시모스클리어 점퍼를 사용하는 방법도 있고, 전원을 완전히 차단한 후 수은전지를 제거하는 방법도 있음.

- 메인보드 고장
 메인보드교체

- 파워 불량
 좋은 파워서플라이를 샀다면 이게 원인이 되는 경우는 거의 없지만, 저가형이라면 가능성이 있음.
 파워 교체.

- 메인보드의 cpu 미지원
 이 경우 본인이 잘 알아보고 cpu를 선택한 것이라면 대부분 바이오스 업데이트를 통해 해결.
 업그레이드 시에 cpu 지원 여부를 잘 알아보고 구입하는 것이 중요.


- 케이스 접지 불량
 접지 불량은 근본적으로 가정내에 들어오는 전력과 콘센트 등 배선의 문제이기때문에 근본적인 해결이 어려움.  그나마 최선이 멀티탭을 좋을걸 쓰거나 좋은 케이스로 교체, 창틀등에 임시로 접지하는 방법 등이 있음.

- 소켓 번 등의 cpu핀 혹은 소켓핀의 문제
 cpu 재장착으로 해결이되면 다행이지만, 이미 핀이 복구불가능한 수준으로 손상되었을 경우 해당 제품은 교체 밖에 방법이 없음.

- 그래픽카드 호환성 문제
 요즘 세상에는 거의 없는 일이기는 한데, 구형pc에서는 의외로 자주 발생.
 그래픽카드 교체.

- 메모리 호환 문제
 EK, 시넥스 등의 메모리를 사용할 때는 문제가 발생하다가 삼성걸로 교체를 하니 해결된 사례가 있는 등 의외로 무시할수 없는 원인.
 


대부분이 무상 수리, 교환이 불가능하면 돈이 드는 방법이기때문에 원인을 확실히 찾아보는게 좋습니다.
잘못된 원인 판단은 불필요한 구매로 이어져 생돈만 날리는 상황이 발생할 수도 있습니다.

저 사례들은 대표적인 경우일뿐이고, 예상치도 못한 원인도 많습니다.
이번에 제가 당한 사례도 그런거고요.



현재 사용보드가 MSI P45 Neo3-FR V3 입니다.
MSI 보드에서 지원하는 점퍼를 통해 FSB 오버클럭상태.(E5400 2.7GHz -> 3.6GHz, 기본전압) 
현상은 모니터에 아무것도 뜨지 않고 무한재부팅.

대충 짚이는 원인이,
메모리 불량
오버클럭 실패
cpu장착 불량
메인보드 고장
파워 고장 

정도입니다만, 1년 넘게 정상적으로 사용했다는 점에서 가능성이 적어보입니다.

일단 메모리 교체 후 테스트로 메모리 불량 여부를 확인. - 메모리 이상없음
바이오스 리셋으로 오버클럭 해제.
cpu 재장착.
파워는 델타제품인지라 문제가 생길리가 없습니다.(플웨즈 등에서 한동안 말이 많았던 제품도 아님. 그 상위제품)

할 수 있는걸 다 해봤지만 해결이 안 됩니다.

마지막으로 걸리는게 메인보드 고장.
이게 문제면 강제 업그레이드입니다. ㅜㅜ 자금은 어디서 구하라고 OTL

마지막이라는 심정으로 본체를 완전 분해 후 재조립하려고 분해를 시작합니다.
불가사의하게도 저런 비논리적인 방법으로 해결되는 경우가 의외로 많습니다. -_-;;

분해 과정에서 원인이 발견되었으니......



메인보드를 중고로 구입했는데, 구입당시에 이전 사용자가 보드의 각종 칩에 방열판을 붙여놨더군요.

빨간 상자로 표시된 저 3군데 말이지요.
방열판 부착 자체가 특별히 필요한건 아니지만 그렇다고 나쁠건 없습니다.



문제는 가운데와 오른쪽에 붙어있던 방열판에 떨어진 것.
더위때문인지 칩의 발열때문인지 접착력이 떨어져서 칩에 반쯤 걸쳐있더군요.

특히나 가운데는 평소에는 그래픽카드에 가려서 잘 보이지도 않는 부분.

가운데와 오른쪽, 두 방열판을 제거하니 정상적으로 동작. -_-;;
바이오스 리셋 등 그 동안의 대처가 삽질이 되는 순간입니다.

아무래도 방열판이 메인보드의 저항등에 접촉하면서 쇼트가 났나봅니다.

이런 말도 안되는 것이 원인일수있으니 원인을 찾을 때 메인보드를 꼼꼼히 살펴봐야할듯.

-추가-
이 후에 다시 동일 증상이 발생하여 다시 한번 꼼꼼히 확인한 결과, 오버클럭 세팅이 원인이었습니다.
제가 원래 오버클럭을 할 때 조건이 다음과 같습니다.
1. 기본전압 (전압 조정 없음, 추가 전압으로 인한 소비전력 증가가 ㅎㄷㄷ하기때문)
2. 램 오버는 안 함 (안정화 작업이 cpu에 비해 무지하게 귀찮고 오래걸림)

레퍼런스 상태가 fsb800(쿼드펌핑), 램클럭 800 인데, 저 조건에서 가능한 최대치가 fsb1066 입니다.
이 때 램 디바이더를 따로 조절하지 않으면 램클럭이 1066 으로 상승합니다.
그런데 DDR2 메모리 중에 추가 전압없이 이 정도 오버클럭이 되는 램은 거의 없지요.
램 디바이더를 조절해야하는데, MSI는 오토로 세팅하면 800으로 잡아준다고 나옵니다.
그래서 가만히 놔뒀는데, 아무래도 이게 원인인듯합니다.
램 디바이더를 1 : 1.5 로 강제설정해주니 부팅이 되네요.

참고) 램 디바이더 비율.
(FSB 클럭 x4) : (메모리 클럭x2 x2)

FSB 클럭 x4 : x4 - 쿼드펌핑
메모리 클럭x2 x2 : x2 - DDR이므로 2배, x2 - 듀얼채널

앞의 상황을 예로 계산해보면,
FSB 클럭 : 266MHz
메모리 클럭 : 400MHz

266 x4 : 400 x2 x2 = 1064 : 1600 = 1 : 1.5

AMD와 네할렘부터의 인텔에서는 중간에 NB(AMD)/언코어(인텔) Frequency 를 도압하면서 저 램 디바이더(or 램 ratio) 라는 개념을 사용할 수가 없습니다.


출처: http://gamma0burst.tistory.com/295 [감마의 하드웨어정보.]
번호 제목 날짜 조회 수
482 Hadoop의 Datanode를 Decommission하고 나서 HBase의 regionservers파일에 해당 노드명을 지웠는데 여전히 "Dead regionser"로 표시되는 경우 처리 2018.01.25 894
481 https용 인증서 발급 명령문 예시및 오류 메세지 2018.01.24 306
480 여러 홈페이지를 운영하거나 혹은 서버에 가입한 사용자들에게 홈페이지 계정을 나누어 줄수 있도록 설정/계정 생성방법 2018.01.23 902
479 maven을 이용하여 Hello world 서비스 자동 생성시 HelloServiceImpl.java에서 사용하는 getMessage() 와 getName() 이 정의되지 않은 오류가 발생시 조치방법 2018.01.19 872
478 Lagom에서 제공하는 Maven을 이용한 Hello프로젝트 자동생성 및 실행 2018.01.19 337
477 lagom에서 제공하는 초기 생성기능을 이용하여 생성한 프로젝트의 소스 파악 2018.01.16 855
476 spark stream처리할때 두개의 client프로그램이 동일한 checkpoint로 접근할때 발생하는 오류 내용 2018.01.16 1234
475 shard3가 있는 서버에 문제가 있는 상태에서 solr query를 요청하는 경우 "no servers hosting shard: shard3" 오류가 발생하는 경우 조치사항 2018.01.04 348
474 solr 데몬이 떠있는 동안 hadoop이 다운되는 경우 Index dir 'hdfs://mycluster/user/../core_node2/data/index/' of core 'gc_shard1_replica2' is already locked라논 오류가 발생하는데 이에 대한 조치사항 2018.01.04 1116
473 [Decommission]시 시간이 많이 걸리면서(수일) Decommission이 완료되지 않는 경우 조치 2018.01.03 6563
472 [2.7.2] distribute-exclude.sh사용할때 ssh 포트변경에 따른 오류발생시 조치사항 2018.01.02 908
471 hadoop cluster에 포함된 노드중에서 문제있는 decommission하는 방법및 절차 file 2017.12.28 1373
470 windows7에서 lagom의 hello world를 빌드하여 실행하는 경우의 로그(mvn lagom:runAll -Dscala.binary.version=2.11) 2017.12.22 371
469 Lagom프레임웍에서 제공하는 HelloWorld 테스트를 수행시 [unknown-version]오류가 발생하면서 빌드가 되지 않는 경우 조치사항 2017.12.22 333
468 [DBeaver 4.3.0]import/export시 "Client home is not specified for connection" 오류발생시 조치사항 2017.12.21 1180
467 전체 컨택스트 내용 file 2017.12.19 285
466 [gson]mongodb의 api를 이용하여 데이타를 가져올때 "com.google.gson.stream.MalformedJsonException: Unterminated object at line..." 오류발생시 조치사항 2017.12.11 4973
» 컴퓨터 무한 재부팅 원인및 조치방법 file 2017.12.05 313
464 권한회수 및 권한부여 명령 몇가지 2017.11.16 1109
463 db를 통째로 새로운 이름의 db로 복사하는 방법/절차 2017.11.14 1068
위로