네이버가 AI(인공지능) 기술을 이용한 스팸 문서 처리에 박차를 가한다.
스팸은 사용자에게 의미 없는 문서를 말한다. 문법에 맞지 않는 문서, 기계적으로 자동 생성된 콘텐츠, 태그를 써서 만든 히든 텍스트, 부정확한 정보를 전달하는 문서, 유사 공공 사이트, 유사 포털 사이트 등이 있다. 개인정보 수집을 목적으로 하는 사이트 및 성인‧도박 사이트 등도 포함된다.
네이버는 7일 서울 강남구 역삼동 네이버 파트너스퀘어에서 ‘웹커넥트 데이’를 진행했다. 행사에는 웹호스팅 업체, 웹사이트 제작 대행사 실무진, 광고‧마케팅 담당자들이 참여했다.
‘웹스팸과의 전쟁’이라는 주제로 단상에 선 강성구 네이버 웹스팸 엔지니어는 “스팸 문서와 고품질 문서를 구분하는 것은 기술적으로 쉽지 않은 문제”라며 “이는 명품과 아주 잘 만들어진 이미테이션을 구별하는 것”이라고 비유했다.
강 엔지니어에 따르면 스패머(spammer)들은 정상 사용자들보다 웹 환경 및 검색 엔진을 더 잘 이해하고 있다. 또 스팸 문서를 꾸준히 생성하는 성실함마저 갖췄다. 이러한 스패머들에 대응하기 위해서는 문서의 내용을 충분히 파악하고 있어야 한다.
스패머 대응을 위해 네이버는 지난해부터 문서 클러스터링(묶음)과 웹 스팸 추출 로직을 개발해왔다.
네이버가 개발한 웹 스팸 추출 로직은 ‘자연어 이해’(Natural Language Understanding) 방식을 통해 문서의 스팸 여부를 인식한다. 최근 개발된 ‘TextCNN’의 경우 스팸 문서들이 자주 사용하는 단어 셋(set)을 학습해 성인, 도박, 보험 관련 스팸들을 제거한다.
또 문서의 노출이나 클릭 패턴을 분석하고 내용의 충실성을 판단하기 위해 AI 기법(GRAPH, 클러스터링 등)을 활용, 복잡다단해진 스팸 패턴에 더 촘촘하게 대응한다.
이날 행사에서는 웹 현황과 수집에 대한 이야기도 나왔다.
네이버는 해외 SNS, 국내 스타트업 사이트, 해외 관광 사이트, 학술대회 사이트들을 대상으로 문서를 수집하고 있다. 검색 가능한 웹사이트는 최대 1000만개로 추정된다.
하루 평균 7%의 신규 사이트가 생성되고 있으며, 5%의 사이트는 문을 닫는다. 사용자의 선택을 받는 사이트 비중은 하루 평균 21%에 불과하며, 가치 있게 소비되는 브랜딩 사이트는 약 3% 수준이다.
만약 타 업체를 이용한 검색 빈도수가 높아진다면 네이버로서는 정보들의 흐름을 따라잡기 역부족이다. 이는 유저들이 떠나는 결과로 이어질 수 있다.
이에 네이버는 자체 네트워크를 구성, 확장하고 있다. 사용자의 검색에 의존하지 않고 자체적으로 정보 흐름을 놓치지 않기 위해서다.
뿐만 아니라 네이버는 AI 기반 기술을 적용한 ‘그리핀(Griffin) 프로젝트’ 일환으로 웹문서와 사이트 탭을 ‘웹사이트’ 탭으로 통합한다. 내년 1분기에는 통합검색에서 해당 서비스를 전면 적용할 계획이다.
이승희 기자 aga4458@kukinews.com