이 글은 2017 가을 카오스재단의 강연 “미래과학”에서 [구글 신은 아직도 모든 것을 알고 있다]라는 제목으로 한 카이스트 물리학과 정하웅 교수의 강연과 토론 내용을 바탕으로 작성한 것입니다. 2017년 강연 동영상은 어떤 이유인지 일부 삭제되어 카오스재단의 홈피에서도 찾을 수 없으나, 다행히 같은 강사가 다른 곳에서 같은 주제로 강연한 내용과 글이 있어 보완하여 완성할 수 있었습니다. 이 글은 강연 내용에 대한 이해를 바탕으로 강연에서 언급되지 않은 것도 보완하여 작성되었기 때문에 연사의 견해와 조금 차이가 있을 수 있습니다. 이 글은 2021년 3월호에 실린 [디지털 인문학과 데이터 과학]과 연관하여 보시면 좋습니다.
현대 사회는 복잡계 네트워크
현대 사회는 매우 복잡합니다. 그래서 사회가 어떻게 작동되는지 이해하기가 쉽지 않습니다. 사회를 구성하는 사람 하나하나를 이해했다고 해서 그 사회의 작동원리가 이해되는 것은 아닙니다. 그래서 현대 사회를 복잡계라는 용어로 설명하고 있습니다. 복잡계란 다양하고 많은 수의 구성요소들이 서로 간의 상호작용으로 구성요소 하나하나의 특성과는 사뭇 다른 새로운 복잡한 현상이지만, 나름의 질서를 보여주는 시스템이라고 할 수 있습니다.
가장 대표적인 복잡계는 사람의 뇌입니다. 뇌의 기능을 규명하기 위하여 아인슈타인의 뇌를 240조각으로 잘라서 연구했으나 밝힌 것이 하나도 없다고 합니다. 뇌를 기능하게 하는 것은 뉴런이라는 신경세포인데, 뉴런이 하는 일은 단지 전기신호를 발생시키는 것인데 그걸 모아 놓으니 이해할 수 없는 일을 하는 것입니다. 그런데 뉴런은 서로 연결되어 네트워크로 일합니다. 우리 여러 종류의 물질들이 여러 가지의 생화학반응을 통해 에너지를 만들어 우리를 살아 있게 만드는 생명현상이 되는 겁니다. 이것을 유전자 바이오 네트워크라 합니다.
사람이 사는 사회도 마찬가지입니다. 우리 사회는 사람이라는 점과 사람과 사람을 연결해주는 선으로 구성되어 있는데 이것이 네트워크입니다. 지구에 살아가는 인구수가 70억이라고 하는데, 이 70억의 사람의 네트워크가 다섯 사람만 거치면 다 연결될 수 있다고 합니다. 이는 1967년 하버드 대학의 밀그램 (Stanley Milgram) 교수의 편지 전달 실험을 통하여 증명되었습니다. 이를 ‘여섯 단계 분리(Six degrees of separation)’라고 합니다.
현대 사회를 가장 효율적으로 연결시켜 주고 있는 네트워크가 인터넷입니다. 인터넷은 1990년대부터 사용되기 시작했는데 불과 30년이 지난 지금은 인터넷 없는 세상은 상상하기 어려울 정도로 그 의존도가 높아졌습니다. 지구 상에 존재하는 웹 페이지는 1999년 조사에 따르면 약 10억 개라고 했는데 그 후 기하급수적으로 증가하고 있기 때문에 지금은 100억 개도 넘을 거라고 합니다. 그런데 이 많은 웹 페이지도 몇 번의 마우스 클릭으로 다 도달할 수 있다고 합니다. 이것을 ‘좁은 세상 효과 Small World Effect’라고 하는데, 인터넷 네트워크의 도움으로 우리는 전 세계에서 일어나고 있는 일들에 쉽게 다가갈 수 있는 겁니다.
인간 뿐만 아니라 지구 상의 모든 생명은 네트워크에 의존하여 살아가고 있습니다. 그 생존 여부는 네트워크에 대한 적응력에 달린 것입니다. 지금까지 과학은 연구대상을 잘게 쪼개서 분석하는 데 주력해왔습니다. 연구하기 쉽게 잘게 쪼개서 하나하나 분석하여 이해하고 그것을 합하여 보면 전체를 이해할 수 있다는 것인데, 이것을 환원주의적 접근방식이라고 합니다. 이러한 환원주의적 접근 방식은 19~20세기에 걸쳐 자연이나 사회를 이해하는 데 크게 기여했습니다.
그런데 잘게 쪼개진 부분에 관한 수많은 정보, 즉 생태계를 이루고 있는 생물들이나 경제활동에 참가하는 개개인에 관한 정보가 아무리 많다고 해도, 전체로 모일 때 생기는 특이한 현상들을 설명해주지는 못한다는 것을 알게 되었습니다. 즉, 각 개체를 다 안다고 해서 그 개체가 모인 사회 전체의 작동원리를 안다고 할 수 없다는 것입니다. 그래서 이 점을 선으로 연결해 주는 복잡한 네트워크의 구조와 작동원리를 정확히 꿰뚫어 볼 수 있는 통찰력이 필요하게 되었습니다.
이 세상은 다 네트워크로 이루어져 있습니다. 도시와 도시를 이어주는 도로망도 네트워크입니다. 전기가 흐르게 하는 전선망도, 상하수도 시설도 네트워크입니다. 뿐만 아니라 돈이 흐르는 경제 네트워크도 있고, 생태계도 먹이사슬의 네트워크이고 생명체도 바이오 네트워크입니다. 이 복잡한 네트워크를 가장 잘 이해할 수 있게 해 주는 학문이 데이터 과학입니다. 그런데 이 네트워크들을 분석하면서 특이한 현상을 발견했습니다. 모든 네트워크가 다 서로 균일한 것이 아니라(포아송 분포를 이루는 무작위 네트워크) 연결의 중심이 되는 허브가 존재한다는 것입니다.
예를 들어 100억 개 이상으로 추산되는 웹 페이지도 서로 균일하게 연결되는 것이 아니라 몇 개의 허브를 중심으로 연결된다는 것입니다(멱 함수 분포). 이는 전 세계의 주요 도시가 도로나 철도가 아니라 허브 공항을 중심으로 연결되고 있다는 것을 보면 알 수 있습니다. 그래서 각국은 자기 나라의 공항을 허브 공항으로 육성하기 위한 치열한 경쟁을 하고 있습니다. 인터넷 마케팅에서도 입소문을 잘 내는 파워 블로그 찾는 것도 바로 같은 이유입니다. 인터넷 업체의 포탈 경쟁도 바로 이러한 것입니다.
복잡계 네트워크의 중심에 있는 구글
정보 네트워크에서 새로운 네트워크를 발견하기 위해서는 빅데이터가 필요합니다. 빅 데이터는 흔히 생각하듯이 정보의 양이 많은 것(Volume)만 의미하지 않습니다. 그 형태를 정형화할 수 없을 정도로 매우 다양하고(Variety), 복잡하며(Complexity), 데이터의 가치는 시간이 지날수록 떨어지기 때문에 빨리 생성되고 실시간으로 분석하는 것(Velocity)이 생명입니다. 그래서 빅 데이터의 분석은 기준 통계학적 도구나 모델만으로는 불가능하며, 통계학 물리학 수학 컴퓨터과학뿐만 아니라 경제학, 사회학 및 인문학 분야까지 다양한 분야의 전문가 그룹이 협업하고, 고성능 컴퓨터를 이용하여 데이터를 들여 다 보면서 새로운 분석방법과 유용한 정보를 계속 찾아내고 있습니다.
데이터 과학에서 가장 앞서 가고 있는 회사가 구글입니다. 1998년 설립된 구글은 구글의 검색엔진을 통해 검색하는 사람들로부터 데이터를 수집하고 관리하고 분석하여 활용해오고 있습니다. 구글은 이렇게 하여 전 세계에서 데이터를 가장 많이 가지고 있는 회사가 되었습니다. 구글은 2018년 5월 기준 세계 검색시장의 90%를 장악하고 있는 것으로 조사되었습니다. 지금은 업종을 가릴 것 없이 많은 회사가 미래사회의 먹거리로서 빅데이터 시장에 뛰어들고 있지만 아직은 구글이 절대적인 지위를 차지하고 있는 것으로 보입니다.
구글 신은 어떻게 탄생했는가
그런데 이 데이터가 미래를 미리 아는 신이 되고 있습니다. 그것이 ‘구글 신’입니다. 어떻게 신이 되는가? 현재 네이버 지도에 들어가 보면 청와대가 안 나와 있습니다. 그러나 구글 지도에는 청와대가 나옵니다. 그런데 구글은 청와대의 위치뿐만 아니라 청와대의 주인이 누가 될지도 미리 압니다.
2007년 대선에서 후보로 출마한 이명박 정동영 등 각각의 후보에 대하여 구글로 검색해보면 알 수 있습니다. 투표 전날 ‘이명박’으로 검색한 웹페이지 숫자가 약 1천만 페이지인데(검색창에 ‘이명박’을 입력하면, 그 단어로 검색된 웹페이지의 숫자가 바로 확인됩니다), 득표수가 1천만 표 나왔습니다. ‘정동영’은 500만 페이지로, 득표수도 500만 표로 정확하게 비례했습니다! Pearson 상관계수가 0.98796이나 됩니다. 네이버 검색 0.95919는 물론 동아일보 여론조사의 상관계수 0.98598보다 더 정확했습니다.
2011년 서울시장 선거에서는 나경원 박원순 후보가 맞붙었습니다. 선거 전날 밤 11시에 구글에서 검색한 데이터가 나경원 4,660만 개, 박원순 5,430만 개입니다. 선거 결과도 46.2 : 53.4로 박원순 후보가 이겼습니다. 2014 /6/4 서울시장 선거에서 맞붙은 정몽준 박원순에 대하여도 6/3 밤 9시 42분 데이터를 보면 정몽준 9,760만 개, 박원순 1억 1600만 개로 이를 비율로 계산하면 45.7 : 54.3입니다. 선거 결과 43.1 : 56.1로 나왔습니다. 구글만 있으면 여론조사기관이 필요 없다는 말이 나오고 있습니다. 이게 빅데이터의 힘입니다.
저도 이게 정말 맞는지 확인하고 싶어서 [구글 트렌드]로 이번 서울 시장 보궐선거를 한번 검색해봤습니다. [구글 트렌드]는 구글에서 2006년부터 서비스하고 있는 웹 사이트로, 검색어의 인기를 분석하는 사이트입니다. 단순 검색은 검색한 시점의 웹 페이지 숫자만 보여주지만, [구글 트렌드]에서는 과거의 특정 시점도 보여주고, 그래프를 사용하여 시간에 따른 여러 검색어의 검색량을 비교할 수 있어 훨씬 편리합니다.
2021/4/7 서울시장 선거에서는 오세훈 후보가 2,798,788(57.5%) 득표로 1,907,336(39.2%) 득표에 그친 박영선 후보를 예상을 뛰어넘는 압도적인 차이로 이겼습니다. 구글 트렌드로 선거 기간인 2개월 전부터 당일까지 추세를 비교해봤습니다. 그래프는 선거 초반에는 박영선 후보가 앞서다가 오세훈 후보가 국민의 힘 후보로 결정된 이후 역전되기 시작하여 선거 당일에는 큰 차이로 벌어진 것을 보여줍니다. 이것은 여론 조사와도 정확하게 일치하는 것으로 보입니다.
혹시 궁금해서 내년 유력 대선 후보로 거론되는 윤석열과 이재명도 1년 트렌드를 비교해 봤습니다.
서로 엎치락뒤치락하다가 최근에 비슷해지는 경향을 보이고 있습니다. 한국사회여론연구소(KSOI)가 TBS 의뢰로 4/23~24일 ‘차기 대선후보 적합도’ 조사에서 윤석열 31.2%, 이재명 24.1%로 나타난 것과, 조금 앞서 19~21일 엠브레인· 케이스탯· 코리아리서치· 한국리서치의 합동조사인 전국지표조사(NBS)에서 윤석열 22%, 이재명 25%로 나타난 것과 상당히 유사한 것으로 보입니다. 참 신기합니다! 구글 검색은 거짓말을 안 합니다. 우리의 생각을 그대로 실시간으로 보여줍니다.
구글은 자사가 가지고 있는 데이터를 분석하여 여러 가지 유용한 모델을 만들고 있습니다. 독감 예측 모델을 만들고, 주가 예측모델도 만들었습니다. 보스턴 대학 스탠리 교수팀은 구글 데이터를 이용하여 어떤 단어가 주가 움직임과 연관성이 높은가 찾았습니다. 구글에서 ‘빚(debt)’이라는 단어가 많이 검색되면 경기가 안 좋은 징조이고 검색이 줄어들면 경기가 회복되는 징조로 보고 2004년에서 2011년까지 7년간 모의실험을 해봤더니 326%의 수익률을 올렸습니다.
구글 신은 모든 것을 알고 있다(2)에서 계속
글 | 송윤강
과신대 기자단으로 활동하면서 과학강연, 영화, 도서 등 과학 관련 리뷰를 기고하고 있다. 현재 아름다운서당에서 대학생들을 가르치고 있다.
'과신뷰 > 기자단 칼럼' 카테고리의 다른 글
제26회 콜로퀴움 "창조-진화 논쟁의 역사와 쟁점" 리뷰 (2) | 2021.06.07 |
---|---|
구글 신은 모든 것을 알고 있다(2) (0) | 2021.05.03 |
프롤로그: 섹슈얼리티란 무엇인가 (2) | 2021.04.07 |
무덤 속 예수 (1) | 2021.04.06 |
다윈주의의 도전! 숙제인가, 선물인가? (0) | 2021.04.06 |
댓글