스팸업자와 퇴치연구자의 숨막히는 일대격돌… 일회용 주소에서 인공지능형 차단기까지 등장
우리나라에서 하루 동안 배달되는 스팸메일의 수가 8억통 정도 된다는 조사보고가 있다. 국내에서 사용가능한 전자우편 계정의 수를 대략 4천만개 정도라고 보았을 때, 이는 한 사람이 하루 평균 약 20개 정도를 받는 셈이다. 필자의 경우는 약 60통 정도. 지난해에 비하면 대략 20% 정도 증가하고 있는 추세이다. 일년 동안 한 사람이 받는 스팸메일의 수는 상당하다. 그런데 문제는 이 추세가 점점 증가한다는 것인데 2007년 정도에 이르면 1인당 약 70여개의 스팸메일을 받을 것으로 예상하고 있다.
스팸메일은 사이버 공간의 감기로서 실제의 감기와 비슷한 점이 있다. 감기는 아주 치명적인 질병은 아니지만 그 완치에 이르는 길은 상당히 번거롭고 짜증스럽다. 스팸메일 역시 일반적인 컴퓨터 바이러스와는 달리 컴퓨터 시스템에 치명적인 손상을 입히는 경우는 드물지만, 이것의 완전한 퇴치는 매우 번거롭다. 일반적으로 보통의 인터넷 사용자가 어떤 메일이 스팸메일인지 여부를 판단하는 데 대략 3초 정도 걸린다고 한다. 따라서 광고성 메일(Spam mail)이 의미 있는 메일(Ham mail)과 뒤섞여 있을 때, 즉 스팸을 햄과 구별하는 데 걸리는 시간은 무시할 수 없을 정도로 커지고 있다.
스팸과 햄을 어떻게 구분할 것인가
대형 인터넷사업자, 예를 들어 미국의 AOL과 같은 회사는 예산의 15%를 스팸메일 처리에 사용하고 있을 정도로 그 심각성이 커지고 있다. MSN Hotmail의 경우에도 회사 차원에서 스팸을 걸러주고 있다. 하지만 수많은 스팸메일들이 단순한 필터를 통과해 아무런 문제 없이 도착하고 있다. 공짜로 제공받는 AOL이나 MSN mail 등 전자우편의 80% 정도는 스팸메일로 보고되고 있다. 특히 어린 학생들에게까지 무차별적으로 뿌려지는 성인사이트 광고는 상당히 심각한 사회문제가 될 가능성이 있다. 스팸메일을 막아주는 가장 일반적인 방법은 필터를 사용하는 것이다. 받은 메일에서 특정한 단어나 표현이 있으면 이를 스팸으로 간주해 자동으로 지워버리는 방법이 많이 사용된다. 이는 간단하고 빠르긴 하다. 하지만 갈수록 지능화되는 스팸메일 업자들의 수법에 쉽게 뚫려버린다. 가장 간단한 방법은 사람이 인식하기에는 별 문제가 없지만 필터가 걸러내지 못하도록 일부런 틀린(?) 단어를 사용하는 것이다. 예를 들어 ‘성인용’을 ‘썽인용’으로, ‘화끈한”을 “하끈한”으로 보내도 수신자가 이것을 읽어서 내용을 판독하는 데는 별 무리가 없다. 때로는 교묘하게 틀리게 쓴 단어로 말미암아 기억에 더 남길 수 있는 부수적인 효과도 있다. 최근에 소개된 새로운 스팸퇴치 방식은 특별한 기능을 추가해 특정 년도에 사용하는 횟수를 제한하는 이메일 주소 방법이 고안되고 있다. 예를 들어 어떤 사용자의 이메일 주소를 공개할 때, 이 주소로 메일을 보낼 수 있는 사람이나 도메인의 이름, 사용횟수 등을 기록해 특별한 방법으로 암호화시켜둔다. 그리고 이 주소로 메일을 보내려는 사람은 앞서 암호화된 파일을 끼워서 특별한 이메일 프로그램을 통해서만 보낼 수 있도록 강제한다. 따라서 이렇게 공개된 이메일 주소는 그 이메일에 해당하는 추가의 파일과 함께 특별히 고안된 프로그램을 통해서만 보낼 수 있어 스팸을 막을 수 있도록 한다는 것이다. 일부 연구자들은 일회용 이메일 주소법도 개발하고 있다. 한번만 쓰이고 곧바로 의미를 잃어버리는 주소이다. 하지만 이러한 방식은 지금의 사용자에게도 상당한 불편함을 요구한다. 특정한 사이트에서 이메일 주소를 받아와야 하고, 특정한 소프트웨어를 통해서만 이메일을 받고 보내야 하므로 이러한 방법이 시장에서 성공할지는 좀더 지켜볼 일이다. 스팸메일의 피해가 매우 심각해 국제적인 분쟁이 될 정도가 된다면 국제적인 새로운 이메일 규약을 제정하는 과정에서 이런 방법이 강제될 가능성도 있다. 하지만 이전의 시스템을 모두 허물고 새로운 체제를 도입하는 과정은 매우 험난할 것임에는 분명하다. 다른 한 가지 방법은 이메일의 발송시간을 현저히 증가시켜 대용량으로 이메일을 보내는 업자들에게 시간적 부담을 가중시키는 방안도 시험 가동되고 있다. 예를 들어 한통의 이메일을 보내는 데 5초 정도만 소요되도록 시스템을 고치면 일반인들은 별 문제 없지만, 50만명에게 스팸을 보내기 위해서는 약 5일 정도가 소요되므로 스팸업자들에게는 상당한 부담이 될 수 있다. 알려진 방법 중에 가장 신뢰할 수 있는 방법은 인공지능을 사용해서 사람이 스팸을 판단하는 것과 비슷한 유추능력을 지닌 프로그램을 장착하는 것이다. 특히 통계학에서 사용하는 베이지안 추론 방법을 활용한 최근의 몇몇 프로그램은 상당한 능력을 보이고 있다. 예를 들어 POPfile(http://popfile.sourceforge.net/)이라는 프로그램은 뛰어난 능력을 보이고 있는 공개소프트웨어이다. 인공지능형 스팸차단 프로그램은 단순히 몇개의 단어로부터 유추하는 것이 아니라 이미 스팸으로 판별된 수많은 메일을 읽어서 그들의 전형적인 패턴을 분석해내는 능력, 그러니까 스스로 학습하는 능력을 가지고 있다. 따라서 사용자가 처음에 전형적인 스팸메일의 예를 지정해서 훈련시키고 나면 그 다음부터는 스스로 스팸을 걸러낸다. 이런 가운데 그야말로 기가 막힌 방법으로 이러한 인공지능형 필터를 통과하는 스팸메일 기술도 개발되고 있다. 보통 사용자가 받은 메일에서 스팸메일임을 판단하는 것은 메일 프로그램에 나타난 문구와 그림을 보고 판단한다. 그래서 스팸메일은 보통 광고효과를 높이기 위해서 홈페이지를 만들 때 사용하는 HTML이라는 형식을 사용한다. 그런데 사용자의 메일 프로그램에는 나타나지 않는 다른 문구를 보내는 메일의 텍스트에 HTML로 숨겨서 얼마든지 집어넣을 수 있다.
여전히 문제는 남는다. 이러한 숨겨진 글들도 인공지능형 스팸차단기에는 보통의 문자로 인식되어 프로그램의 판단을 크게 혼란스럽게 한다. 예를 들면 숨겨진 텍스트에 “형님, 지난 결혼식에 참석을… 다음 달에 외할머님이 오시면…”과 같은 글이 있다면 이를 스팸으로 분류하기는 힘들 것이다. 또 HTML의 특성을 이용해서 나타나는 글은 광고성 글이지만 실제 HTML로는 무의미한 글이 되도록 메시지를 세로로 잘라서 한칸씩 내려쓰는 수법도 있다. 왼쪽처럼 읽어들이는 프로그램은 ‘화끈한’이라는 단어를 인식하지 못하고 “화---”라는 단어와 “-끈--”을 독립된 단어로 인식하게 되므로 늠름하게 필터를 통과하게 된다.
기업의 사활이 스팸메일 퇴치에 달렸다
해마다 스팸메일을 막기 위한 국제적인 기술모임도 열리지만 이를 이겨내려는 스팸업자들의 필사의 기술 역시 만만치 않다. 어쩌면 기술적으로 스팸을 막는 것은 가까운 시일 내에 불가능할지도 모른다. 특히 최근에는 스팸메일을 이용해 특정인이나 사이트를 공격하는 예도 나타나고 있다. 즉 인터넷상에 공짜 회원가입용 사이트만을 골라서 여기에 자신이 공격할 사람의 주소를 집어넣는 것이다. 인터넷 프로그래밍에 약간의 지식만 있으면 이런 일을 하는 프로그램은 쉽게 작성할 수 있다. 따라서 이런 공격에 걸려든 사람은 하루에 수천 통의 광고용 메일, 정확히 말하자면 회원용 알림메일을 받게 되어 다른 이메일 작업을 할 수 없게 된다.
최근에는 악의적인 목적의 자동회원 가입을 막기 위해서, 프로그램이 아니라 사람이면 쉽게 풀 수 있는 회원가입용 테스트 문제를 가입절차에 넣고 있다. 예를 들면 “다음 빈칸에 들어갈 말을 입력하시오. - 예, 맞습니다. ○○○” 이 질문을 이해해 위 빈칸을 채울 정도의 인식을 가진 프로그램은 아직 없기 때문이다. 외국에서는 악의적인 스팸메일 발송자에게 1년 이상의 징역을 선고할 수 있는 법을 만들고 있다. 미국에서도 공정거래위원회 주최의 스팸메일 공청회가 열려 학계, 산업계(주로 광고대행사), 입법부 관계자들이 모여 토론을 했지만 별 소득 없이 끝났다. 유일한 결론이라면 스팸메일은 나쁘지만 아무도 어떤 것이 스팸메일인지를 판단할 수 없다는 것에 모두 동의했다는 것이다.
조환규 | 부산대 교수·컴퓨터과학

대형 인터넷사업자, 예를 들어 미국의 AOL과 같은 회사는 예산의 15%를 스팸메일 처리에 사용하고 있을 정도로 그 심각성이 커지고 있다. MSN Hotmail의 경우에도 회사 차원에서 스팸을 걸러주고 있다. 하지만 수많은 스팸메일들이 단순한 필터를 통과해 아무런 문제 없이 도착하고 있다. 공짜로 제공받는 AOL이나 MSN mail 등 전자우편의 80% 정도는 스팸메일로 보고되고 있다. 특히 어린 학생들에게까지 무차별적으로 뿌려지는 성인사이트 광고는 상당히 심각한 사회문제가 될 가능성이 있다. 스팸메일을 막아주는 가장 일반적인 방법은 필터를 사용하는 것이다. 받은 메일에서 특정한 단어나 표현이 있으면 이를 스팸으로 간주해 자동으로 지워버리는 방법이 많이 사용된다. 이는 간단하고 빠르긴 하다. 하지만 갈수록 지능화되는 스팸메일 업자들의 수법에 쉽게 뚫려버린다. 가장 간단한 방법은 사람이 인식하기에는 별 문제가 없지만 필터가 걸러내지 못하도록 일부런 틀린(?) 단어를 사용하는 것이다. 예를 들어 ‘성인용’을 ‘썽인용’으로, ‘화끈한”을 “하끈한”으로 보내도 수신자가 이것을 읽어서 내용을 판독하는 데는 별 무리가 없다. 때로는 교묘하게 틀리게 쓴 단어로 말미암아 기억에 더 남길 수 있는 부수적인 효과도 있다. 최근에 소개된 새로운 스팸퇴치 방식은 특별한 기능을 추가해 특정 년도에 사용하는 횟수를 제한하는 이메일 주소 방법이 고안되고 있다. 예를 들어 어떤 사용자의 이메일 주소를 공개할 때, 이 주소로 메일을 보낼 수 있는 사람이나 도메인의 이름, 사용횟수 등을 기록해 특별한 방법으로 암호화시켜둔다. 그리고 이 주소로 메일을 보내려는 사람은 앞서 암호화된 파일을 끼워서 특별한 이메일 프로그램을 통해서만 보낼 수 있도록 강제한다. 따라서 이렇게 공개된 이메일 주소는 그 이메일에 해당하는 추가의 파일과 함께 특별히 고안된 프로그램을 통해서만 보낼 수 있어 스팸을 막을 수 있도록 한다는 것이다. 일부 연구자들은 일회용 이메일 주소법도 개발하고 있다. 한번만 쓰이고 곧바로 의미를 잃어버리는 주소이다. 하지만 이러한 방식은 지금의 사용자에게도 상당한 불편함을 요구한다. 특정한 사이트에서 이메일 주소를 받아와야 하고, 특정한 소프트웨어를 통해서만 이메일을 받고 보내야 하므로 이러한 방법이 시장에서 성공할지는 좀더 지켜볼 일이다. 스팸메일의 피해가 매우 심각해 국제적인 분쟁이 될 정도가 된다면 국제적인 새로운 이메일 규약을 제정하는 과정에서 이런 방법이 강제될 가능성도 있다. 하지만 이전의 시스템을 모두 허물고 새로운 체제를 도입하는 과정은 매우 험난할 것임에는 분명하다. 다른 한 가지 방법은 이메일의 발송시간을 현저히 증가시켜 대용량으로 이메일을 보내는 업자들에게 시간적 부담을 가중시키는 방안도 시험 가동되고 있다. 예를 들어 한통의 이메일을 보내는 데 5초 정도만 소요되도록 시스템을 고치면 일반인들은 별 문제 없지만, 50만명에게 스팸을 보내기 위해서는 약 5일 정도가 소요되므로 스팸업자들에게는 상당한 부담이 될 수 있다. 알려진 방법 중에 가장 신뢰할 수 있는 방법은 인공지능을 사용해서 사람이 스팸을 판단하는 것과 비슷한 유추능력을 지닌 프로그램을 장착하는 것이다. 특히 통계학에서 사용하는 베이지안 추론 방법을 활용한 최근의 몇몇 프로그램은 상당한 능력을 보이고 있다. 예를 들어 POPfile(http://popfile.sourceforge.net/)이라는 프로그램은 뛰어난 능력을 보이고 있는 공개소프트웨어이다. 인공지능형 스팸차단 프로그램은 단순히 몇개의 단어로부터 유추하는 것이 아니라 이미 스팸으로 판별된 수많은 메일을 읽어서 그들의 전형적인 패턴을 분석해내는 능력, 그러니까 스스로 학습하는 능력을 가지고 있다. 따라서 사용자가 처음에 전형적인 스팸메일의 예를 지정해서 훈련시키고 나면 그 다음부터는 스스로 스팸을 걸러낸다. 이런 가운데 그야말로 기가 막힌 방법으로 이러한 인공지능형 필터를 통과하는 스팸메일 기술도 개발되고 있다. 보통 사용자가 받은 메일에서 스팸메일임을 판단하는 것은 메일 프로그램에 나타난 문구와 그림을 보고 판단한다. 그래서 스팸메일은 보통 광고효과를 높이기 위해서 홈페이지를 만들 때 사용하는 HTML이라는 형식을 사용한다. 그런데 사용자의 메일 프로그램에는 나타나지 않는 다른 문구를 보내는 메일의 텍스트에 HTML로 숨겨서 얼마든지 집어넣을 수 있다.










