생성형 인공지능(AI) 모델 개발 시 활용되는 ‘인터넷상 공개 데이터’의 안전한 처리를 위한 정부의 가이드라인이 처음 공개됐다. 그동안 기준이 없어 개인정보 활용 및 보호에 한계가 있었으나, 이번 가이드라인을 통해 최소한의 ‘선’이 제시됐다는 평가다.
개인정보보호위원회(개인정보위)는 전날인 17일 ‘AI 개발·서비스를 위한 공개된 개인정보 처리 안내서’를 공개했다. AI 개발에 필수적인 공개 데이터를 현행 개인정보 규율 체계 내에서 적법하고 안전하게 처리하는 것을 돕기 위해서다.
공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터를 말한다. 이는 생성형 AI 개발을 위한 학습데이터의 핵심 원료로 쓰인다. AI 기업들은 공개 저장소인 ‘커먼크롤’과 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 자동으로 추출해 AI 학습데이터로 활용하기도 한다.
문제는 공개 데이터에 개인정보가 포함될 우려가 있다는 것이다. 주소와 고유식별번호, 신용카드번호 등이다. 현행법에는 공개된 개인정보 처리에 적용될 명확한 기준이 없다. 공개 데이터가 대규모로 처리되는 상황에서 정보주체의 개별 동의나 계약 체결 등의 조항을 적용하는 것도 어렵다. 언제, 어디서 개인정보가 데이터학습에 활용됐는지 정보주체나 AI 사업자 모두 파악이 힘들기 때문이다.
안내서에서는 공개된 개인정보 수집·활용의 법적 기준을 명확히 했다. AI 개발 및 서비스 단계에서 어떤 안전조치를 취하는 것이 적정한지에 대해 최소한의 기준을 담았다. 개인정보 침해 이슈를 최소화하는 동시에 법적 불확실성을 해소해 기업의 성장을 돕겠다는 취지다. 학계와 산업계, 시민단체와 소통하며 광범위한 의견수렴이 이뤄졌다. 국제적 상호운용성이 있는 기준 마련에도 중점을 뒀다.
안내서에 따르면 공개된 개인정보는 개인정보보호법의 ‘정당한 이익’ 조항에 따라 AI 학습·서비스 개발에 활용될 수 있다. 정당한 이익이 적용되기 위해서는 △AI 개발 목적의 정당성 △공개된 개인정보 처리의 필요성 △구체적 이익형량 등의 3가지 조건이 충족돼야 한다.
구체적으로 살펴보면 개발 목적의 정당성은 의료진단보조, 신용평가 등 공개된 개인정보 처리를 통해 개발하려는 AI의 목적·용도를 구체화 해야 한다는 것이다. 처리의 필요성은 목적과 관련 없는 개인정보를 학습에서 제외하는 것을 뜻한다. 예를 들어 의료진단보조 AI 개발 시 개인의 소득·재산 등 관련 없는 정보는 학습에서 배제하는 것이다. 구체적 이익형량은 개인정보처리자의 정당한 이익이 정보주체의 권리에 명백히 우선한다는 것이다. 이를 위해 개인정보처리자는 정보주체의 권익침해 방지를 위한 안전성 확보 조치와 정보주체 권리보장 방안을 마련해야 한다.
구체적 이익 형량과 관련해 개인정보처리자인 AI 기업이 할 수 있는 조치도 안내서에 담겼다. 기술적 안전조치로는 △학습데이터 수집 출처 검증 및 관리 △개인정보 유·노출 방지 △미세조정을 통한 안전장치 추가 등이 언급됐다. 관리적 안전조치는 △학습데이터 처리 기준 정립 및 개인정보처리방침 공개 △AI 프라이버시 ‘레드팀’ 구성 및 운영 △개인정보 영향평가 수행 고려 등이 제시됐다. 정보주체의 권리보장을 위해 공개된 정보 수집 사실과 주요 출처 등을 개인정보처리방침에 안내해야 된다는 내용도 포함됐다.
일부 한계도 있다. 이번 안내서에 담긴 내용은 ‘제안’에 그친다. AI 기업이 의무적으로 시행해야 하는 것은 아니다. 법적 구속력은 없다.
이날 브리핑에 나선 양청삼 개인정보위 개인정보정책국장은 “규제를 획일적으로 도입하는 게 아니라 혁신이 촉진되는 환경 마련에 중점을 뒀다. 이러한 환경 속에서 구체적인 위험성을 통제하고 제어하는 게 중요하다”며 “AI 데이터 처리 관련 법적 규제는 좀 더 기술 발전의 추세와 리스크의 구체화 정도를 지켜보고 논의한 후 검토해야 한다”고 설명했다.
이어 “당장 법을 만들어 규제하기보다는 안내서를 통해 ‘가드레일’을 만드는 데 집중하고 있다”며 “이같은 가이드라인이 현장에서 스타트업 및 국내 AI 기업에게 큰 도움이 될 것으로 기대한다. 기술의 발전 속도가 빠르기에 민관이 긴밀히 소통하며 업데이트하겠다”고 강조했다.
현장 반응은 긍정적이다. 안내서 관련 논의에 참여한 김병필 카이스트 교수는 “개인정보를 충실히 보호하면서도 AI 혁신을 장려하는 적정한 절충점을 찾고자 하는 노력의 일환”이라며 “신뢰할 수 있는 AI 개발, 이용을 위한 좋은 참고 자료가 될 것”이라고 말했다.
민·관정책협의회 공동의장인 배경훈 LG AI연구원장도 “이번 안내서 공개는 AI 기술 발전과 개인 데이터 보호를 동시에 달성하기 위한 첫걸음”이라며 “국민들이 신뢰할 수 있는 데이터 처리 환경에서 AI 기술의 혜택을 누릴 기반이 될 것”이라고 전망했다.
이소연 기자 soyeon@kukinews.com