인터넷사이트 색인화 과정의 정치경제학… 우선순위 판별에 공인 개념 도입해야
현재 약 8억개 정도의 웹페이지가 운영되고 있다. 가장 강력한 탐색엔진을 사용해도 대략 전체 웹의 20% 미만을 검색하는 수준이다. 야후나 알타비스타, 라이코스 등 잘 알려진 엔진을 병렬로 총동원해도 대략 전체의 40% 정도밖에 검색할 수 없다. 따라서 그 나머지에 해당되는 웹은 지금의 유명 탐색엔진을 사용해서는 검색이 불가능하다는 말이다. 그런데 유명 탐색 사이트가 지원하는 정보는 기술적인 문제뿐만이 아니라 정치적·경제적인 요인에 의해서 좌우될 수 있다.
사용자가 원하는 정보를 받아서 이에 해당되는 홈페이지를 찾아주는 핵심 소프트웨어를 탐색엔진이라고 부른다. 엔진이라고 부르는 이유는 그 소프트웨어의 기능이 전체 시스템에서 가장 핵심적인 기능을 담당하기 때문이다.
탐색엔진의 색인에 오르려는 각고의 노력
각 탐색엔진이 가지는 가장 기본적인 기능은 색인작업(indexing)이다. 즉 접근할 수 있는 모든 홈페이지를 그 주요기능별로 색인화시켜 놓는다. 예를 들어 ‘자동차’라는 색인단어에는 이와 관계가 있을 것이라고 여겨지는 모든 홈페이지의 주소를 달아놓는다. 이 작업은 ‘로봇’이라고 불리는 특별한 프로그램에 의해서 자동적으로 수행된다. 어떤 사이트는 색인작업만을 전문적으로 하는 편집자에 의해서 꼼꼼하게 수동적으로 정리된다. 알타비스타, 핫봇(Hotbot), 라이코스 등은 로봇 프로그램을 통하여 관련 웹 자료를 수집한다. 이와는 달리 야후나 알리웹(AliWeb), 웹마스터(Webmaster) 계열에서는 전문가의 수작업으로 색인이 정리된다. 보통 후자와 같은 탐색엔진을 디렉토리(directory)기반의 탐색엔진이라고 부른다. 로봇 프로그램이 필요한 정보를 모으는 과정은 다음과 같다. 일단 홈페이지를 방문해서 색인어로 쓰이는 단어를 그 홈페이지가 가지고 있는지를 살펴본다. 그리고 그 홈페이지와 연결된 다른 홈페이지가 있으면 그쪽으로 다시 건너가서 같은 작업을 되풀이한다. 즉 각 홈페이지를 징검다리로 전체 웹을 샅샅이 뒤져보는 것이다. 이에 비해서 디렉토리 기반의 탐색엔진은 사용자가 자신의 홈페이지를 그 탐색엔진에 올려달라는 요청을 해야 한다. 물론 요청한다고 순순히 모두 올려주는 것은 아니다. 신청에서 등록까지 길게는 반년이 넘게 걸리기도 한다. 이러한 요청을 받은 엔진 편집자는 그 해당 홈페이지의 충실도, 유명도 등을 세밀히 조사한 뒤에 그 정보가 가치가 있다고 생각되면 이를 디렉토리에 올려준다. 실제로는 이 두 가지 방법, 자동색인과 수동색인은 서로 보완적으로 사용된다. 홈페이지를 만드는 사람들은 상업적이든 아니든 그 존재를 널리 알리는 것이 일차적인 목적이다. 따라서 가장 좋은 방법은 유명한 탐색엔진의 색인에 올라가는 것이다. 탐색엔진의 색인에 올라가기 위해서는 일단 그 사이트의 ‘지명도’가 높아야 한다. 그런데 유명 사이트가 되기 위해서는 그 사이트를 알아보는(그쪽으로 안내해주는 링크를 가진) 사이트의 개수가 많아야 한다. 동시에 해당 사이트에 있는 정보내용이 색인단어와 강한 연관관계가 있어야 한다. 실제 각 사이트의 유명도를 평가하는 방법은 단순히 그 사이트를 참조하는 링크의 개수뿐만이 아니라, 그 참조하는 사이트의 유명도까지 고려한다. 예를 들어 별 내용없는 10여개의 사이트에 참조되는 것보다는 유명 사이트 한두개에 참조되는 것이 바람직하다. 따라서 지명도를 높이기 위해서 서로 링크를 달아주거나, 자신의 사이트를 링크로 달아주는 대형 사이트에 약간의 금전적인 보상이나 또는 무상의 서비스를 대가로 지불하는 방법이 쓰인다. 대형 탐색엔진의 색인화 과정에서 조금이라도 더 나은 대접을 받기 위한 각 홈페이지들의 편법은 기발하다. 예를 들어 어떤 신생 온라인 서점이 존재를 알리고 싶다고 하자. 그러면 그 홈페이지와 사용자 질의어와의 연관성을 높이기 위해서 사용자에게는 보이지 않거나, 또는 아주 작은 글씨의 ‘책 할인판매’라는 단어를 수십개씩 홈페이지에 숨겨두기도 한다. 아니면 아예 ‘섹스’라는 단어를 홈페이지에 숨겨놓고 이 단어를 검색하는 많은 사람들을 일단 이쪽으로 유도하고 보자는 식의 좀 치사한 수법도 있다. ‘스패머’(spammer)라고 불리는 이러한 일탈적인 웹의 장난을 막기 위해서 각 검색사이트는 자신의 색인순위 결정방법을 명확히 공개하지 않고 있다. 하지만 색인결과로부터 그 순위구성 방법을 역추적하는 방법이 이용될 만큼 색인화 경쟁은 치열하다. 색인에 올라가는 일도 중요하지만 그 안에서 정해지는 순위도 중요하다. 비록 색인에 올라가더라도 그 순서가 30번 이후로 밀린다면 큰 일이다. 탐색결과를 몇 페이지씩 넘겨가며 참을성 있게 살펴볼 사용자는 별로 없다. 연구에 의하면 일반 사용자는 탐색결과를 모두 살펴보고 그 중에서 가장 좋은 것을 고르는 것이 아니라 대충 만족하는 첫 번째 결과에서 탐색을 중지한다는 것이다. 따라서 색인으로 올라가더라도 첫 페이지에 나타나지 않으면 거의 무의미하다. 그래서 어떤 온라인 가격비교 쇼핑몰에서 비교 1순위를 차지하기 위해서 부가세, 탁송료, 그리고 기타 기본적인 부속장치까지도 뺀 어이없는 가격을 올리기도 한다. 극단적으로 표현하자면 1천만원짜리 자동차를 700만원에 판다고 해서 가보면 핸들, 바퀴, 앞뒤 유리창은 따로 구입해야 한다는 식이다. 몇몇 탐색 사이트는 비공개적으로 우선순위를 판다고 알려져 있다. 말하자면 급행료를 받는 셈이다. 최근 들어 알타비스타와 더블클릭은 공개적으로 색인결과의 제일 윗자리를 경매를 통해 팔고 있다. 미국 야후에 적절한 급행료를 내면 6개월 동안 상위순위를 유지시켜준다. 또 특정한 색인단어를 살 경우에는 그 단어가 탐색될 때마다 그에 해당되는 배너광고를 올려주기도 하는데 이는 반즈 앤 노블과 라이코스, 야후와 아마존에서 사용하고 있다. 우선순위 매매 행위도… 불평등 깊어간다 홈페이지만 만들어 두면 이것이 사이버공간에 저절로 알려질 것이라고 믿는다면 큰 오산이다. 우리가 탐색엔진으로 찾은 결과는 그 엔진의 탐색철학일 뿐이다. 비주류의 홈페이지는 당연히 색인화하지 못하고, 색인화가 되더라도 우선순위에서 밀리게 되므로 결국은 사라지게 된다. 따라서 각 탐색엔진이 강한 우성인자의 사이트만 더 편애한다면 실제 사용자에게 보여지는 전체 웹의 내용은 왜곡될 수 있다. 생물종의 다양성만큼이나 웹사이트의 다양성도 중요하다. 경제적 부가가치를 떠나서 작지만 의미있는 사이트는 충분히 알려져야 한다. 웹 안에서는 빈부격차나 기술력에 따른 불평등이 없어야 할 것이다. 혹자는 탐색엔진의 우열은 전적으로 시장에 맡겨야된다고 하지만 그것이 최선은 아니다. 가진 자와 못 가진 자의 격차가 사이버 세계에서 더 크고 빠르게 벌어지는 것은 사회를 불안하게 만들고, 결국에는 모두에게 불편함을 가중시킨다. 인터넷의 원래 취지가 자유와 평등이듯이 웹도 사회적 공공자원이라는 인식을 가져야 할 것이다. 따라서 각 탐색엔진에서 색인화, 색인 내에서의 순위작업에는 공익의 가치도 한 평가기준이 되어야 할 것이다. 조환규/ 부산대 교수·컴퓨터과학hgcho@hyowon.cc.pusan.ac.kr
![]() |
![]() |
각 탐색엔진이 가지는 가장 기본적인 기능은 색인작업(indexing)이다. 즉 접근할 수 있는 모든 홈페이지를 그 주요기능별로 색인화시켜 놓는다. 예를 들어 ‘자동차’라는 색인단어에는 이와 관계가 있을 것이라고 여겨지는 모든 홈페이지의 주소를 달아놓는다. 이 작업은 ‘로봇’이라고 불리는 특별한 프로그램에 의해서 자동적으로 수행된다. 어떤 사이트는 색인작업만을 전문적으로 하는 편집자에 의해서 꼼꼼하게 수동적으로 정리된다. 알타비스타, 핫봇(Hotbot), 라이코스 등은 로봇 프로그램을 통하여 관련 웹 자료를 수집한다. 이와는 달리 야후나 알리웹(AliWeb), 웹마스터(Webmaster) 계열에서는 전문가의 수작업으로 색인이 정리된다. 보통 후자와 같은 탐색엔진을 디렉토리(directory)기반의 탐색엔진이라고 부른다. 로봇 프로그램이 필요한 정보를 모으는 과정은 다음과 같다. 일단 홈페이지를 방문해서 색인어로 쓰이는 단어를 그 홈페이지가 가지고 있는지를 살펴본다. 그리고 그 홈페이지와 연결된 다른 홈페이지가 있으면 그쪽으로 다시 건너가서 같은 작업을 되풀이한다. 즉 각 홈페이지를 징검다리로 전체 웹을 샅샅이 뒤져보는 것이다. 이에 비해서 디렉토리 기반의 탐색엔진은 사용자가 자신의 홈페이지를 그 탐색엔진에 올려달라는 요청을 해야 한다. 물론 요청한다고 순순히 모두 올려주는 것은 아니다. 신청에서 등록까지 길게는 반년이 넘게 걸리기도 한다. 이러한 요청을 받은 엔진 편집자는 그 해당 홈페이지의 충실도, 유명도 등을 세밀히 조사한 뒤에 그 정보가 가치가 있다고 생각되면 이를 디렉토리에 올려준다. 실제로는 이 두 가지 방법, 자동색인과 수동색인은 서로 보완적으로 사용된다. 홈페이지를 만드는 사람들은 상업적이든 아니든 그 존재를 널리 알리는 것이 일차적인 목적이다. 따라서 가장 좋은 방법은 유명한 탐색엔진의 색인에 올라가는 것이다. 탐색엔진의 색인에 올라가기 위해서는 일단 그 사이트의 ‘지명도’가 높아야 한다. 그런데 유명 사이트가 되기 위해서는 그 사이트를 알아보는(그쪽으로 안내해주는 링크를 가진) 사이트의 개수가 많아야 한다. 동시에 해당 사이트에 있는 정보내용이 색인단어와 강한 연관관계가 있어야 한다. 실제 각 사이트의 유명도를 평가하는 방법은 단순히 그 사이트를 참조하는 링크의 개수뿐만이 아니라, 그 참조하는 사이트의 유명도까지 고려한다. 예를 들어 별 내용없는 10여개의 사이트에 참조되는 것보다는 유명 사이트 한두개에 참조되는 것이 바람직하다. 따라서 지명도를 높이기 위해서 서로 링크를 달아주거나, 자신의 사이트를 링크로 달아주는 대형 사이트에 약간의 금전적인 보상이나 또는 무상의 서비스를 대가로 지불하는 방법이 쓰인다. 대형 탐색엔진의 색인화 과정에서 조금이라도 더 나은 대접을 받기 위한 각 홈페이지들의 편법은 기발하다. 예를 들어 어떤 신생 온라인 서점이 존재를 알리고 싶다고 하자. 그러면 그 홈페이지와 사용자 질의어와의 연관성을 높이기 위해서 사용자에게는 보이지 않거나, 또는 아주 작은 글씨의 ‘책 할인판매’라는 단어를 수십개씩 홈페이지에 숨겨두기도 한다. 아니면 아예 ‘섹스’라는 단어를 홈페이지에 숨겨놓고 이 단어를 검색하는 많은 사람들을 일단 이쪽으로 유도하고 보자는 식의 좀 치사한 수법도 있다. ‘스패머’(spammer)라고 불리는 이러한 일탈적인 웹의 장난을 막기 위해서 각 검색사이트는 자신의 색인순위 결정방법을 명확히 공개하지 않고 있다. 하지만 색인결과로부터 그 순위구성 방법을 역추적하는 방법이 이용될 만큼 색인화 경쟁은 치열하다. 색인에 올라가는 일도 중요하지만 그 안에서 정해지는 순위도 중요하다. 비록 색인에 올라가더라도 그 순서가 30번 이후로 밀린다면 큰 일이다. 탐색결과를 몇 페이지씩 넘겨가며 참을성 있게 살펴볼 사용자는 별로 없다. 연구에 의하면 일반 사용자는 탐색결과를 모두 살펴보고 그 중에서 가장 좋은 것을 고르는 것이 아니라 대충 만족하는 첫 번째 결과에서 탐색을 중지한다는 것이다. 따라서 색인으로 올라가더라도 첫 페이지에 나타나지 않으면 거의 무의미하다. 그래서 어떤 온라인 가격비교 쇼핑몰에서 비교 1순위를 차지하기 위해서 부가세, 탁송료, 그리고 기타 기본적인 부속장치까지도 뺀 어이없는 가격을 올리기도 한다. 극단적으로 표현하자면 1천만원짜리 자동차를 700만원에 판다고 해서 가보면 핸들, 바퀴, 앞뒤 유리창은 따로 구입해야 한다는 식이다. 몇몇 탐색 사이트는 비공개적으로 우선순위를 판다고 알려져 있다. 말하자면 급행료를 받는 셈이다. 최근 들어 알타비스타와 더블클릭은 공개적으로 색인결과의 제일 윗자리를 경매를 통해 팔고 있다. 미국 야후에 적절한 급행료를 내면 6개월 동안 상위순위를 유지시켜준다. 또 특정한 색인단어를 살 경우에는 그 단어가 탐색될 때마다 그에 해당되는 배너광고를 올려주기도 하는데 이는 반즈 앤 노블과 라이코스, 야후와 아마존에서 사용하고 있다. 우선순위 매매 행위도… 불평등 깊어간다 홈페이지만 만들어 두면 이것이 사이버공간에 저절로 알려질 것이라고 믿는다면 큰 오산이다. 우리가 탐색엔진으로 찾은 결과는 그 엔진의 탐색철학일 뿐이다. 비주류의 홈페이지는 당연히 색인화하지 못하고, 색인화가 되더라도 우선순위에서 밀리게 되므로 결국은 사라지게 된다. 따라서 각 탐색엔진이 강한 우성인자의 사이트만 더 편애한다면 실제 사용자에게 보여지는 전체 웹의 내용은 왜곡될 수 있다. 생물종의 다양성만큼이나 웹사이트의 다양성도 중요하다. 경제적 부가가치를 떠나서 작지만 의미있는 사이트는 충분히 알려져야 한다. 웹 안에서는 빈부격차나 기술력에 따른 불평등이 없어야 할 것이다. 혹자는 탐색엔진의 우열은 전적으로 시장에 맡겨야된다고 하지만 그것이 최선은 아니다. 가진 자와 못 가진 자의 격차가 사이버 세계에서 더 크고 빠르게 벌어지는 것은 사회를 불안하게 만들고, 결국에는 모두에게 불편함을 가중시킨다. 인터넷의 원래 취지가 자유와 평등이듯이 웹도 사회적 공공자원이라는 인식을 가져야 할 것이다. 따라서 각 탐색엔진에서 색인화, 색인 내에서의 순위작업에는 공익의 가치도 한 평가기준이 되어야 할 것이다. 조환규/ 부산대 교수·컴퓨터과학hgcho@hyowon.cc.pusan.ac.kr











