좌표찍기, 소비자운동, 신고… 변주하는 집단행동
실제로 일베에서 여성혐오 강도가 높게 나타난 상위 게시글을 구체적으로 살펴보면, 2011~2015년 가장 많이 등장한 단어가 ‘김치녀’였다. ‘김치녀의 술값 계산법’ ‘뇌 없는 김치녀 특징’과 같은 식이다. 2016년에도 이 추세가 이어지는데 메갈이 ‘페미니스트’ 전체와 치환되면서 새로운 멸칭으로 사용되기 시작했다는 정도의 차이만을 보인다.
펨코의 여성혐오 글 내용 역시 메르스갤러리 성장 이전(2012~2014년)에는 일베와 크게 다르지 않아, 대부분 여성을 성적 대상화하고 있다. 하지만 메갈이 등장한 뒤에는 조금씩 달라진다. 이들 커뮤니티에서는 메갈이 페미니스트, 페미니즘 전체를 가리키는 말로 쓰이는데 메갈 성향을 드러낸 사람을 범죄자 취급한다. 2016년에는 자신이 페미니스트임을 드러낸 이들이 근무하는 회사의 제품을 불매하거나 이들을 업계에서 쫓아내는 소비자운동의 형태까지 나타난다.(45쪽 그림5 참조) 넥슨의 한 게임 성우가 ‘여성은 왕자가 필요 없다’고 쓰인 티셔츠를 입었다는 이유로 게임 이용자들의 항의를 받은 뒤 계약이 해지된 사례가 대표적이다. 최태섭 문화평론가는 “남초 커뮤니티발 집단행동주의의 시초라고 볼 수 있는 넥슨 사태는 불매운동과 집단항의라는 여성들의 운동 방식을 모방한 측면이 컸다”고 말했다. 레진코믹스 소속 웹툰 작가들에게 이른바 ‘메갈 성향’이 보인다는 이유로 탈퇴 인증 게시글을 올리는 집단행동이 이어진 것도 이 무렵이다.
2017년 대선을 거치면서는 문재인 정부, 정의당, 여성가족부 등을 함께 언급하며 정치·정책적으로 비판하는 게시글의 형태가 나타났다. 2018년 5~12월엔 메갈과 페미니즘에 대한 반감이 더욱 높아지고 여성혐오 표현도 다양해졌다. 서울 혜화역에서 불법촬영 범죄에 항의하는 ‘불편한 용기’ 집회가 이어졌던 때다. 이 기간에 펨코 추천 비율 상위 10개 글 중 8개는 ‘페미’ ‘메갈’ ‘워마드’를 혼용한 비난글이었다. 특정 콘텐츠나 인물을 향한 ‘좌표찍기’도 더욱 활성화한다. <82년생 김지영>을 비난하고 여성 유튜버, 여성 게임 스트리머를 신고해달라고 부탁하는 글 등이 예다.
이처럼 매번 겉으로 드러나는 양상만 달라질 뿐 온라인 공간에서의 여성혐오는 지속돼왔다. 이런 맥락을 완전히 삭제한 채, 여성혐오를 ‘젠더갈등’이라는 구도로 치환하는 것은 과연 정당한가.
손희정 경희대 비교문화연구소 교수는 “온라인 남초 커뮤니티란 공간 안에서 (메르스갤러리 성장 등 페미니즘 리부트 이후) 혐오가 양적으로 확장되지 않았다면 이들의 말을 그대로 옮겨와 기삿거리나 의제로 만드는 언론과 정치권의 문제점을 짚어야 한다”고 지적했다. 혐오를 정치적 도구로만 활용하는 토양 위에서 혐오는 무럭무럭 다시 자라난다. 지금의 젠더갈등 프레임을 넘어서는, 혐오에 대한 새로운 질문이 필요한 이유다.
박다해 기자 doall@hani.co.kr
[어떻게 분석했나] 3만5천 개 텍스트 학습한 AI가 게시글·댓글 정밀분석‘혐오’를 주제로 한 <한겨레21>의 기획취재에서 언더스코어는 ‘헤이트스코어(HateScore) 알고리즘’을 바탕으로 에펨코리아, 일간베스트저장소 등 온라인 커뮤니티 게시물과 네이버와 다음 등 포털 뉴스 댓글을 분석했다. 사람이 직접 온라인 커뮤니티나 댓글을 하나하나 살펴볼 수도 있겠지만, 그 자의적인 판단 가능성을 최소화하고 몇십만 건에 이르는 대규모 데이터의 혐오표현 정도를 하나하나 측정하기 위해서는 정량적인 접근이 필요하기 때문이다.
‘헤이트스코어 알고리즘’은 언더스코어가 스마일게이트AI의 지원을 바탕으로 수집한 3만5천여 건의 온라인 텍스트 데이터를 머신러닝(기계학습)으로 학습했기에, 기존처럼 단순히 게시물 수, 특정 단어의 출현 빈도만을 분석하는 방법을 넘어선다. 또 이분법적으로 악플은 ‘1’, 악플이 아닌 댓글은 ‘0’으로 단순 분류하는 대신, 여성·지역·성소수자·외국인·연령 등 다양한 분야에 대한 다중레이블 방식으로 데이터를 학습하도록 했다.
다중레이블은 하나의 게시물 또는 댓글이 둘 이상의 집단을 동시에 혐오하는 표현을 포함하는 경우를 효과적으로 처리한다는 장점이 있다. 예를 들어 ‘좆족은 21세기의 홍어다’라는 문장에 입력값이 주어졌을 때, 단일레이블 방식으로는 여성/성소수자/남성/인종/지역/종교/연령 중 딱 한 가지만 선택해서 분류할 수 있다. 하지만 다중레이블 방식으로 학습한 헤이트스코어 모델은 해당 문장에 인종혐오와 지역혐오가 모두 포함됐다고 판단이 가능하도록 설계됐다.
헤이트스코어 모델을 활용하면 특정한 댓글이나 게시물의 혐오표현 비율이 어떻게 되는지, 시간의 흐름에 따라 그 변화 양상이 어떻게 되는지를 측정할 수 있다. 예를 들어 ‘퀴어문화축제가 열림으로써 온건층 또는 중도층의 성소수자에 대한 반발감을 오히려 높이는가’와 같은 질문에 성소수자와 관련한 포털 뉴스에 혐오 댓글을 남기는 이용자들의 혐오표현 비율 변화를 분석함으로써 답을 찾으려 한 것이다.
이렇듯 주어진 문장이 혐오발언인지 아닌지, 만약 혐오발언이라면 여성혐오인지 성소수자혐오인지 지역혐오인지 그 확률값을 0~100%에서 계산하도록 하는 헤이트스코어 모델 이외에, 텍스트의 특성을 정량화하기 위해 군집화(clustering) 알고리즘도 이번 분석에서 함께 활용했다. 예를 들어 드라마 <이상한 변호사 우영우>와 관련한 에펨코리아 게시물에서 ‘뒤로 갈수록 PC스러운 소재들이 계속 나오네’라는 문장은 명시적인 혐오발언이라고 볼 수는 없겠지만, 혐오와 관련 있는 소재를 언급했기에 추출할 가치가 있다. 군집화 알고리즘은 이를 위해 주어진 텍스트를 몇 가지 유형으로 나눈 뒤 각 유형이 다루는 주제를 살필 수 있게 돕는다.
지난 몇 년간 여성·성소수자 혐오 등은 소셜미디어에서 많이 회자됐지만, 데이터를 활용해 명확히 답해지지는 않았던 질문이 많았다. 헤이트스코어 모델을 바탕으로 한 정량적인 접근은 ‘지난 10년간 여성혐오의 추세가 어떻게 변화했는지’ ‘과연 퀴어문화축제는 중도층의 성소수자 여론에 대한 백래시(반발)를 유발하는지’ 등 ‘우리의 직관을 넘어 한 단계 더 들어간 질문에 답하기’를 도와준다.
강태영 언더스코어 대표*본 기획물은 정부 광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.