KT는 1일 ‘네트워크혁신TF’를 주축으로 유무선 인터넷 서비스 장애 재발방지대책을 빠르고 철저하게 실행한다는 방침이다.
KT는 야간 라우팅 작업을 연간 4000여건 수행한다. 이 과정에서 서울 서초구 KT연구개발센터 테스트베드를 활용해 현장에서 발생할 수 있는 문제를 점검해왔다.
라우팅 변경 작업이 많은 센터망과 중계망, 일부 엣지망은 오류가 발생했을 때 전국적인 장애로 이어지지 않도록 정보전달 개수를 제한하고 있다.
또한 연간 4만여건에 이르는 네트워크 작업은 계획부터 관리·승인, 실행·검증까지 단계별 절차로 진행된다.
그러나 야간에 진행해야 할 작업을 주간에 KT 직원이 없는 상황에서 이뤄졌고 사전 검증단계에서 협력사 오류로 인한 명령어 누락을 파악하지 못했다.
아울러 잘못된 라우팅(네트워크 경로설정) 정보가 엣지망을 거쳐 전국으로 확산됐다.
KT는 사고 원인에 기초해 기술 측면과 관리 측면에서 대책을 마련, 시행한다.
기존 시뮬레이션 시스템을 확대(가상화 테스트베드)해 사람 실수로 인한 장애를 완벽 차단한다.
작업준비 단계에서만 적용했던 테스트베드를 가상화해 전국 각 지역에서 새로운 라우팅을 적용하기 직전 최종 테스트한 이후 실제 망에 적용하는 것을 추진한다. 이러면 실제 망에 적용하기 전 발생할 수 있는 문제를 미리 알 수 있다.
KT는 또 센터망과 중계망, 일부 엣지망에 적용 중인 라우팅 오류 확산방지 기능(정보전달 개수 제한)도 모든 엣지망으로 확대한다. 엣지망에서 발생한 라우팅 오류가 전국망에 영향을 미치는 걸 사전에 막기 위함이다.
유·무선 인터넷 장애가 동시에 발생하지 않도록 다양한 백업망도 구성한다.
작업관리도 기본 절차를 철저히 준수(백투더베이직 Back to the Basic)하고 이중삼중 ‘현장작업 자동통제 시스템’을 도입, 재발방지에 나선다.
KT는 기본을 준수하지 않은 작업이 사고 원인이었던 만큼 각 단계별로 오류가 발생할 가능성을 원점부터 세밀히 검토하고 있다.
KT에 따르면 현장자업 자동통체지스템은 ▲작업자가 주요 명령어를 입력할 때 OTP(1회용 패스워드)로 관리자가 승인하도록 해 관리책임을 강화하고 ▲네트워크 관제센터에서 미승인 작업 여부를 실시간 자동으로 모니터링해 위험요소를 차단하도록 구성된다. 또한 KT는 ▲관제센터에서 KT 직원 작업 참여를 인증한 후에야 실제 작업이 가능하도록 하는 등 단계별 검증 프로세스를 구축할 계획이다.
song@kukinews.com