"'이루다' 가명처리 어디까지 했는지 논의 분분했다" [Q&A]

윤종인 개인정보보호위원회 위원장이 개인정보보호위원회 제7회 전체회를 진행하고 있다. /개인정보보호위원회

[쿠키뉴스] 구현화 기자 = 개인정보보호위원회는 28일 제7회 전체회의를 열고 챗봇 ‘이루다’ 개발사 스캐터랩에 대해 총 8가지 개인정보법 위반 혐의로 총 1억 330만원의 과징금과 과태료 등을 부과했다.

개인정보위 조사 결과 연애의 과학에서 수집한 이용자 데이터를 수집 목적에서 벗어나 이루다 개발 및 서비스 운영 과정에서 활용한 사실을 확인했다. 또 ‘텍스트앳’과 ‘연애의 과학’ 이용자 개인정보를 수집하면서 정보 수집 목적을 명확히 알리지 않은 점도 알아냈다.

개인정보위는 이용자의 카카오톡 대화를 이용한 근거인 '신규 서비스 개발' 목적만으로는 이용자가 이루다와 같은 목적의 이용에 동의하였다고 보기 어렵다고 판단했다. 또 이용자의 개인정보 자기결정권이 제한되는 등 이용자가 예측할 수 없는 손해를 입을 우려가 있다고 봤다. 이에 따라 개인정보보호법 18조 1항·21조 1항·23조 1항·28조 2항·39조 6항과 64조·66조를 위반한 것으로 봤다.

또 스캐터랩이 개발자들의 코드 공유 및 협업 사이트로 알려진 깃허브(Github)에 카카오톡 대화문장 1431건과 함께 AI 모델을 게시한 것에 대해 개인정보가 포함돼 개인정보 보호법 제28조의2제2항을 위반한 것이라고 판단했다.

다음은 개인정보보호위원회 브리핑에서 이뤄진 개인정보위와 기자들과의 일문일답이다.

Q. 과징금 기준은.

지난 페이스북 과징금과 비교해 보면 스캐터랩은 매출액 규모 자체가 굉장히 차이나기 때문에 과징금 차이가 날 수밖에 없다. 이루다 직접매출액이 없는데, '텍스트앳'과 '연애의과학'의 1년 매출액을 파악해서 과징금을 매긴 것이다.

조사결과는 텍스트앳과 연애의과학 개인정보 처리와 관련, 개인정보 수집하면서 정보주체에게 명확히 알리고 동의받지 않은 행위, 심리분석 서비스의 하나인 '내 대화 상대방의 섹스판타지는?'은 민감정보인데 이를 알리지 않은 행위, 법적 동의없이 만14세 미만 아동에게도 개인정보를 받은 행위, 이루다 개발에 동의없이 한 행위 등을 종합했다.

과징금은 매출액에 따라 매기는데, 2019년 택스트엣과 연애의과학 매출은 10억8000만원 정도이며 2020년에 텍스트앳과 연애의과학 매출은 8억2000만원 정도인 것을 감안했다.

Q 과징금이 감경되지는 않았나.

스캐터랩이 최근 3년간 과징금부과처분을 받은 적이 없어서 감경을 했다. 그리고 조사에 스캐터랩이 최대한 협력한 점을 감안해 10% 감경 처분했다.

Q 가명처리 수준에 대해 위원회 판단과 스캐터랩 의견이 다른 듯하다.

스캐터랩과 저희 위원회 의견은 다를 수 있다. 이 부분을 가지고 의견이 다르다고 해서 감경을 안 해준다든지 그런 건 아니다. 부과기준에 따라서 적극 협력을 한 부분이 있었다.

자료를 제출하지 않고 거짓으로 제출한다든지 협조하지 않는 부분에서는 감경을 해주지 않지만 의견이 다르다고 해서 감경을 안 해주지는 않는다.

Q 스캐터랩에서는 700건에서 3~4건만 문제가 됐다고 하는데.

학습DB와 응답DB를 나눠서 볼 필요가 있다. 학습DB부분에 있어서는 식별성 있는 정보에 대해서는 가명처리 일종의 비식별처리가 됐었다. 그렇지만 대화내역, 카카오톡 대화내역에 대해서는 일절 가명처리를 안했기 때문에 이 부분에 대해서는 가명정보 처리가 안 됐다.

응답DB는 발화된 부분은 700건 정도가 있는데, 응답DB 자체가 카카오톡 대화 내용을 변형 없이 발화한 부분이 개인정보에 해당된다.

Q 위반 내용 중에 14세 미만 아동 개인정보 수집행위로 몇 명의 피해가 발생했는지. 현장조사 시 추가 발견점은.

14세 미만 아동 개인정보에 대해서는 4만8000건을 수집했고, 연애의과학 같은 경우 12만건 정도를 수집했다. 이루다 같은 경우는 약 3만9000명 정도를 수집한 것으로 판단했다.

현장조사 시에 심리분석 서비스의 민감성 부분도 추가적으로 저희가 확인했다.

Q 14세 미만 개인정보가 걸러지지 않은 건지.

페이스북 메신저로 이루다가 운영됐다. 페이스북은 14세 이상에 대해서만 가입되고 페이스북 회원을 대상으로 메신저 서비스를 했기 때문에 14세 미만 아동 개인정보를 수집한 것으로 보기는 어렵다, 라는 게 스캐터랩의 입장이었다.

그런데 스캐터랩은 페이스북 메신저를 통해 이루다 회원을 가입할 때 이루다 회원의 성별, 연령 같은 부분을 추가적으로 수집했다. 그 수집을 했기 때문에 이건 14세 미만의 아동 부분을 수집한 것으로 본다. 이 부분은 시정을 하고 있는 중으로 알고 있다.

Q 연애의과학 개인정보 유출 피해자들은 데이터 파기를 요구하고 있는데. 경찰 등의 추가 수사의뢰는 안 했는지.

위원회에서는 탈퇴한 회원에 대해서는 법에 따라서 당연히 개인정보 파기를 해야 한다고 판단하고 있다.

수사의뢰 부분에 대해서는 법령에 따라 고발기준을 운영하고 있는데, 고발 기준에 스캐터랩의 법 위반행위는 '매우 중대한 행위'가 아니라 '중대한 행위'에 들어가기 때문에 스캐터랩은 고발하지 않기로 판단했다.

Q 데이터 폐기 부분에서 탈퇴한 사람의 데이터만 파기하라고 한 건지. 손해배상 진행 관련해 파기하지 말라는 의견도 있는데.

탈퇴한 회원 정보를 이루다 학습DB에서 파기 안하고 갖고 있는 부분이 있어서 보호위에서 파기하도록 판단했다. 원래 개인정보법에 따라 회원정보 부분에 대해서는 탈퇴한 회원은 폐기하고, 동의받은 지 1년 이상이 된 경우는 폐기하거나 별도 분리보관하도록 돼 있다.

회원탈퇴 개인정보에 대해서는 원칙적으로 파기되어야 하는 것이 맞다고 보는데 손해배상 소송을 진행하는 일부 피해자의 경우 피해부분을 증명할 수 있도록 보존을 해달라는 요청도 있다.

위원회는 보존 관련 검토는 했지만 파기되는 것이 맞다는 판단을 하고 있다. 다만 시정사항 관련 협의 하에 진행하려고 보고 있다. 손해배상 관련 폐기를 안 하고 보존하는 건 증거보존 신청을 해서 진행이 되는 것으로 알고 있다.

Q 학습용 DB와 응답용 DB가 있는데 더 자세히 설명해달라.

스캐터랩은 이루다에서 두 가지 DB를 운영했다. 100만건, 약 94만건의 대화문장이 들어가 있는 학습DB를 이용해 이루다를 개발했다.

그리고 그 중에서 20대 여성 부분을 추출해서 추출된 부분을 7차례에 거쳐 필터링(가명처리)를 거쳐서 1억건의 응답 DB로 운영했다.

Q 카카오톡 대화에서 제공자와 제3자 정보가 같이 넘어갔는데 어떻게 판단했는지.

카카오톡 대화를 스캐터랩에서 수집하면서 대화상대방에 동의 받지 않은 부분이 있는데, 저희 위원회에서는 당사자 간 카톡대화는 대화 상대방의 정보를 수집하지 않은 이상 일반당사자의 개인정보를 수집된것으로 파악했다.

가령 다수가 포함된 사진을 제공할 때 일반 당사자에만 동의받고 수집하지 모든 사람의 동의를 받아서 하지는 않는다. 이와 같이 대화 상대방 부분에 대해서는 동의한 것으로 봤다.

이루다 같은 경우에는 응답 DB에서 대화상대방 발화를 한 부분이 있기 때문에 가명정보라든지 그걸로 보지 않았다. 외부로 유출할 때는 적어도 익명처리를 했어야 하나 그렇지 않기 때문에 위법한 걸로 봤다.

동의 여부의 경우, 개인정보법 개정안에는 수집 목적에 수집된 정보를 이렇게 쓰겠다는 별도 동의 받으면 이용할 수 있다. 데이터3법에서 한 것처럼 가명처리가 된다면 통계 목적이라든지 공익기록 범주 내에서 활용할 수 있다.

Q 과징금 액수가 높을수록 더 과중한 위반행위라고 보면 되나. 논의의결 과정에서 가장 쟁점은.

과징금이나 과태료 부분이 낮다고 말할 수는 없다. 중대한 위반 같은 경우 과태료 부분이 높게 적용된다. 과징금은 매출액 관련 적용되는 것이다.

논의 쟁점은 보도자료에서도 브리핑했지만 AI기술기업에 대해서 개인정보 처리에 대한 첫 사례이기 때문에 어떻게 AI기술개발이나 운용에 개인정보를 활용하는 것이 보호하는 것이 바람직할 것인가, 어느 부분까지 어떻게 하는 게 중요한가에 대해 논의를 많이 했다. 가명성에 대해서도 논의가 오갔다.

이번 AI에 대한 첫번째 위반 판단사례에 따라 저희 위원회는 개인정보 보호만 하는 게 아니라 활용도 같이 다루려 한다. 이에 따라서 조만간 AI모델 개발 운영을 해나가는 데 있어서 어떻게 개인정보 보호를 하고 개발을 해야 할지를 담은 가이드라인을 배포할 예정이다. 이와 더불어서 AI 산업 기술기업에 대해서는 적극적으로 지원할 계획이다.

Q 가명처리에 대해 더 자세히 설명해 달라.

스캐터랩에서는 이루다의 학습DB 데이터셋을 가명처리했다는 의견이 있었다. 위원회에서는 전체 중에서 데이터셋이 두 개 있다면 식별성 없게 가명처리를 한 부분이고 카톡은 가명처리를 안했기 때문에 이부분을 가지고 어디까지로 해야만 가명정보를 볼 수 있느냐 하는 부분이 논란이 됐다.

이 부분은 여기까지 하면 가명처리 다 한거다, 하고 말하기는 굉장히 어렵다. 저희도 가명부분에 대해 검토를 하고 진행해 나가면서 판단할 수밖에 없다 하는 부분을 말씀드리겠다.

참고로 이루다가 외부의 발화를 하는 부분은 과학적 연구에 해당되지 않는다고 판단했다. 이루다가 외부로 발화하는 경우 이용자의 동의를 받던지 익명화해서 하든지 해야 한다고 판단을 했다.

kuh@kukinews.com 기사모아보기