정부, AI 학습데이터 대가 마련 검토…‘블로그’ 쟁점

기사승인 2023-11-25 06:05:02 업데이트 2023-11-25 06:10:22

인공지능(AI) 학습 데이터로 사용된 저작물 관련 가이드라인이 제작되고 있다. 다만 개인이 작성한 블로그와 카페 게시글 등에 대해서는 논란이 발생할 것으로 예상된다.

25일 문화체육관광부에 따르면 ‘AI 저작권 가이드라인’에는 ‘AI 학습데이터 사용 시 적절한 대가를 마련해야 한다’는 문구 삽입이 검토되고 있다. 저작권법상 ‘공정이용’ 개념이 있지만, 현재 관련 판례가 구체적으로 없기에 현행법상 정당한 대가 지급이 필요하다는 것이다. 공정이용은 저작물의 이용 목적 및 성격 등에 따라 저작자의 이익을 부당하게 해치지 않는 경우 허가를 구하지 않고 저작물을 이용할 수 있다는 개념이다.

가이드라인에는 구체적인 대가 산정기준 등은 명시되지 않을 방침이다. 각각 계약에 따라 해결할 사안이라는 것이다. 학습데이터의 출처를 명시하는 것 또한 내부적으로 논의되고 있다.

다음 달 발표될 AI 저작권 가이드라인에 강제성은 없다. 다만 정부가 만들어 배포하는 안내 사항이라는 점에서 AI 업계에 파장을 미칠 것으로 보인다. AI 업계에서는 그동안 학습데이터 출처에 대해 답변을 거부, “추후 법안이나 가이드라인이 만들어지면 따르겠다”는 입장을 고수해왔다.

15일 서울 종로구 정부서울청사 브리핑실에서 양청삼 개인정보정책국장이 데이터 경제 활성화 추진과제 관계부처 합동 발표를 하고 있다. 연합뉴스

AI 학습데이터 관련 논란은 거대언어모델(LLM) 등 생성형 AI가 등장하면서부터 불이 붙었다. 뉴스 콘텐츠를 생성하는 언론사들이 먼저 나섰다. 미국 뉴욕타임스 등은 챗GPT 개발사인 오픈 AI의 웹크롤링을 차단하는 강수를 뒀다. 이후 약관을 개정해 뉴욕타임스의 기사와 사진을 AI 학습에 무단으로 사용할 수 없도록 했다. 국내 언론사들도 AI 개발사가 무단으로 콘텐츠를 학습데이터로 사용할 수 없도록 약관 개정에 나섰다. 한국신문협회와 인터넷신문협회 등도 AI 학습데이터에 대한 대가가 필요하다는 목소리를 내왔다. 이번 가이드라인 방향에 대해 언론단체 등은 환영한다는 입장이다.

문제는 개개인이 온라인에 작성한 게시글이다. AI 학습데이터에는 뉴스 콘텐츠만 쓰인 것이 아니다. 업계에서는 명확한 학습 데이터 출처를 밝히지 않고 있으나 블로그와 카페 게시글 등이 사용된 것으로 추정된다. 실제로 네이버는 지난달부터 자사의 초거대 AI ‘하이퍼클로바X’ 기반 창작 도구인 ‘클로바 포 라이팅’을 일부 사용자에게 공개했다. AI를 활용한 블로그 글·제목 작성 및 요약 등이 주요 기능이다.

개인이 쓴 블로그와 카페 게시글도 창작성이 있다면 저작물로 인정받을 수 있다. 그러나 저작권 침해 여부를 판단하는 것은 여전히 법원의 몫이다. 많은 비용과 시간이 들기에 개개인이 AI 업계를 상대로 소송에 나서기 실질적으로 어렵다.

AI 학습데이터 대가 관련 블로그 이용자들의 의견은 다양했다. 블로그 운영 9년 차인 김모(30대·여)씨는 “내가 작성한 블로그 글이 학습에 사용됐는지 명확히 알 수도 없는 상황이다. 정보를 착취당하는 것 같다”며 “AD포스트처럼 학습 시 조금씩 대가가 주어지면 좋겠다”고 말했다.

반면 지난 2005년부터 블로그를 운영해 온 한 남성은 “AI 기술은 발전 중인 상황이고 판례도 없기에 저작물과 관련해 개인이 기업에 소송을 걸기는 힘들 것 같다”면서 “처음 블로그를 시작한 것도 기록을 공유해 활용하자는 취지였다. AI 기술 발전을 위해서라도 저작권 주장보다는 공유가 필요할 것 같다”고 했다.

AI 업계의 입장은 어떨까. 네이버는 현재 블로그·카페글 등에 따로 대가 제공을 고려하지 않고 있다. 약관에 따른 정당한 사용이라는 입장이다. 네이버는 지난 2018년 5월 이용 약관을 개정하면서 ‘이용자가 제공한 콘텐츠는 서비스 개선 및 새로운 서비스 제공을 위해 AI 기술 등의 연구개발 목적으로 네이버 및 네이버 계열사에 사용될 수 있다’는 문구를 넣었다.

변수는 있다. 공정거래위원회에서 네이버의 이용 약관에 대한 조사를 진행 중이다. 이용자의 허락과 보상 없이 콘텐츠를 AI 등 연구개발 목적으로 사용할 수 있도록 한 것이 불공정 약관에 해당할 수 있다는 주장이 나왔기 때문이다. 공정위 관계자는 해당 사안에 대해 “아직 조사를 진행 중”이라고 답했다.

전문가들은 추후 방향에 대해 살피고 제도를 보완해야 한다고 입을 모았다. 이대희 고려대학교 법학전문대학원 교수는 “블로그나 카페 게시글도 창작성이 있다면 저작물로 인정될 수 있다. 상업적 목적을 가진 생성형 AI에 사용될 경우, 공정이용에 포함되지 않을 가능성이 있다”며 “다만 약관의 위법성과 공정이용 여부 등은 추후 더 살펴봐야 할 문제”라고 진단했다.

인공지능법학회장인 최경진 가천대학교 법과대학 교수는 텍스트 데이터 마이닝(TDM) 면책 규정 도입을 이야기했다. 최 교수는 “수많은 학습 데이터 속에서 저작권자의 허락을 일일이 구하기는 어렵다”며 “일단 이용한 후 저작권자가 정당한 보상을 요구하면 적정한 금액을 지불하게 하는 체계로 보완돼야 한다”고 말했다. 이어 “TDM을 허용한다고 해서 저작권자가 권리를 주장하지 못하는 것은 아니다”라며 “제도적 변화가 필요한 상황”이라고 설명했다.

이소연 기자 soyeon@kukinews.com