이 글은 카오스 재단에서 주최한 2018 봄 카오스 강연 ‘모든 것은 數다’ 중에서 서울대 통계학과 장원철 교수의 주제 강연과 서울대 통계학과 임채영 교수 그리고 연세대 물리학과 김근수 교수 사이의 패널 토의 내용을 요약한 것입니다. ( http://ikaos.org/kaos/video/view.php?id=697)
현대를 빅 데이터의 시대라고 한다.
유사 이래 2003년까지 인류가 만들어 낸 데이터의 크기는 5 EB(TB의 백만 배) 정도인데, 요즈음은 이틀에 한 번 꼴로 이 정도의 데이터가 생성되고 있다. 뉴욕 타임스의 하루 기사 양이 17세기 영국 성인 남성이 평생 얻는 정보의 양과 같다고 한다. 이러한 데이터가 원유라면 분석은 엔진과 같은 것이다.
보통 4V (Volume 대용량, Velocity 빠른 처리, Variety 다양성, Veracity정확성)로 특징짓는 빅데이터는 대용량 자료와 고차원 자료로 분류할 수 있다.
대용량 데이터란 대상자의 크기는 방대하나 속성 정보는 상대적으로 적은 경우를 말한다. 예를 들어 신용카드 고객의 소비패턴을 분석한다고 할 경우 고객 수는 수백만 수천만에 달하지만 소비 항목은 세밀하게 분류해도 3천 개 정도다. 이를 분석하기 위해서는 대용량 컴퓨터가 필요하다.
고차원 데이터란 이와 반대로 대상자는 크지 않지만 속성 정보가 큰 경우이다. 예를 들어 마이크로 어레이(유전자 발현 정도를 측정하는 바이오칩)를 이용하여 특정인의 유전병에 걸릴 확률을 조사할 수 있다. 이 경우 2만 개의 유전자를 가지고 정상인과 병에 걸린 사람을 비교하여 차이를 보이는 특정 유전자(바이오 마크)를 찾아낸다. 이때 대상자는 80명 정도면 충분하다. 이런 비정형 데이터의 분석은 기존의 통계학 방법으로는 불가능하여 1990년 이후 새로운 분석 방법이 개발되었다. 이러한 데이터는 복잡하기는 하지만 크지 않기 때문에 일반 PC로도 가능하다. 이처럼 빅 데이터는 단순히 대용량 데이터만을 말하는 것이 아니다.
빅 데이터로 하는 일
빅데이터를 이용한 연관성 분석을 통하여 다양한 분야에 활용할 수 있다. 사람들이 트위터에 자기 기분 상태를 나타내는 글을 올리는 경우가 많다. 금융기관에서는 이런 감성 정보를 주가 예측에 활용하고 있다. 또 미국의 CDC(질병관리본부)에서는 사람들이 구글에서 독감 정보를 검색한 기록을 가지고 독감 예측 모형을 만들어 독감 경보에 활용하고 있다. 이런 자료들을 활용할 때는 시간에 따라 변화되는 속성을 주의 깊게 관찰하여 모형을 조정해야 한다. 그렇지 않으면 처음에는 잘 맞더라도 소셜 미디어를 사용하는 사람들의 구성이 달라지면 예측이 크게 빗나갈 수도 있기 때문이다.
데이터 과학의 등장
데이터 과학(data science)은 통계학과 컴퓨터 과학을 융합하여 응용 분야인 의학, 공학, 유전학, 경영, 금융 등 각 분야의 지식과 연결되어, 새로운 지식을 창출하는 새로운 융합학문이다. 구글에서는 ‘구글 도서관 프로젝트’와 ‘구글 아트 프로젝트’라는 빅 데이터 프로젝트를 진행하고 있다. ‘구글 도서관 프로젝트’는 1450년 이후에 출판된 전 세계 모든 책의 12%에 해당하는 1500만 권의 책을 디지털 형태로 변환하는 것이다. 이렇게 디지털화된 자료를 텍스트 마이닝이란 기법으로 분석하여 인문학 연구에 활용하고 있다. 또 ‘구글 아트 프로젝트’는 2011년부터 전세계 박물관의 전시품들을 고화질 이미지로 만들어 갤러리 구축하는 것이다. 지금까지 40개국 151개 박물관과 제휴하여 3만 2천 점 이상의 작품을 고화질 디지털 이미지로 만들었다.
양식측정학(Stylometry)
양식측정학이란 문학작품의 진위 여부를 판단하기 위해 디지털화한 작품의 양식을 정량적으로 분석하는 것을 말한다. 이러한 분석 방법은 문학작품뿐만 아니라 음악, 미술 등 문화예술 전 분야로 확장하여 적용된다. 예를 들면 전에 큰 논란이 되었던 천경자 작품의 진위 여부도 이런 정량적 분석을 통하여 좀 더 설득력 있는 판정을 할 수 있다. 폴란드 언어학자 빈센티 루투슬라브스키가 플라톤의 각 작품에서 연대별 수치적 특징을 찾은 후 이를 이용하여 연대가 알려져 있지 않은 플라톤 작품들의 연대 추정한다. 1985년에 옥스퍼드 대학 도서관에서 발견된 세익스피어의 작품이라고 추정되는 “Shall I die?”라는 짧은 시의 진위 여부도 이러한 방법으로 가렸다.
(이런 분석 방법은 성경에도 적용할 수 있을 것 같다. 성경은 이미 디지털화된 자료가 많이 있기 때문에 성경의 저작 시기, 저자, 나중에 첨가된 구절인지 여부 등을 이런 데이터 분석 방법을 통하여 할 수 있을 것이다. 성경의 정경과 외경을 구분하는 데에 4,5세기 공의회에서는 수많은 논란이 있었다. 만일 이러한 양식측정학 방법이 활용될 수 있었더라면 좀 더 객관적인 판단을 할 수 있지 않을까 하는 생각이 든다-요약자 주)
Co-sponsorship의 네트워크 분석
국회의원의 공동법안 발의 기록(법안 발의에는 동료의원 10명 이상 서명 필요)을 바탕으로 의원 사이의 네트워크를 분석 연구한다. 그렇게 하여 소속 정당, 개인 친밀도, 선수 등이 공동법안 발의에 어떻게 영향을 미쳤는지, 또 공동법안 발의의 중심인물은 누구인지 알아낼 수 있다. 국내에서는 디지털화한 조선왕조실록을 이용하여 조선 왕의 통치 스타일, 특정 사건과 관련된 정치 역학관계를 분석하고 중심인물을 찾아낸다. 미국에서도 911 테러에 관련된 통화기록에 대해 이러한 분석 방법으로 중심인물을 찾아냈다.
심슨의 역설
영국의 통계학자 에드워드 심슨이 정리한 역설로 데이터 과학에서 대표적인 오류 사례다. 이는 각 개별 변수를 무시하고 전체 통계만 가지고 유추하면 엉뚱한 결론이 나올 수 있다는 것이다. 예를 들어 우리나라 대표적인 농구 선수 두 사람의 슛 성공률을 비교한다.(가정한 수치)
|
3점 슛 성공률 |
2점 슛 성공률 |
전체 슛 성공률 |
||||||
선수 |
시도 |
성공 |
성공률 |
시도 |
성공 |
성공률 |
시도 |
성공 |
성공률 |
하승진 |
50 |
20 |
40% |
64 |
31 |
48% |
114 |
51 |
45% |
양동근 |
54 |
22 |
41% |
39 |
19 |
49% |
93 |
41 |
44% |
누가 슛 성공률이 높은가?
3점 슛이나 2점 슛이나 성공률에 있어서 양동근이 하승진을 다 앞서고 있지만, 전체를 합산한 계산은 하승진이 앞서는 것으로 나온다! 이는 두 선수의 전체 슛에서 3점 슛/2점 슛 구성비에 큰 차이가 있기 때문이다. 하승진은 성공률이 높은 2점 슛(56%)을, 양동근(41%) 보다 많이 던진다.
이런 사례가 미국에서 실제 있었다. 미국 버클리 대학에서 수년간 남학생의 합격률이 여학생의 합격률보다 높은 것은 성차별 때문이라고 여학생들이 소송을 했다. 그러나 전체적으로 남학생의 합격률이 높았지만 전공별로 보면 오히려 남학생 합격률이 낮았다. 이는 여학생은 합격이 어려운 의대, 법대, 전문대학원을 남학생보다 더 많이 지원했기 때문이었다. 이처럼 개별 변수를 보지 않고 전체 통계만 보면 다른 결과가 나올 수 있다.
예측과 오류
미국에서 선거 예측을 제일 잘하는 사람은 통계학자이자 정치분석가인 네이트 실버다. 그는 2008년 대선, 상원의원 선거, 2012년 대선 결과를 정확히 예측하여 명성을 얻었지만 2016년 클린턴과 트럼프가 대결한 대선 예측에서 클린턴이 승리한다고 잘못 예측했다. 이때 빅 데이터를 기반으로 하는 구글 트렌드는 트럼프의 승리를 예측하여 각 언론은 인공지능이 인간을 이겼다고 보도했다. 네이트 실버의 예측은 빅데이터 기반이 아니고, 여러 개의 여론조사 결과를 통계모형을 이용하여 합친 후 이를 바탕으로 예측한 것이다.
그러면 인공지능과 구글 트렌드는 정말 미국 대선을 제대로 예측한 것일까? 미국 대선은 각 주별로 선출된 선거인단을 통한 간접선거 방식이다. 선거인단 확보에서는 클린턴이 트럼프에 뒤졌지만 선거인단을 뽑는 일반투표(popular vote) 투표에서는 힐러리가 3백만 표, 득표율로는 2% 트럼프를 앞섰다. 트럼프가 이긴다고 예측한 구글 트렌드는 이러한 일반투표를 예측한 것으로 사실 잘못 예측한 것이다. 예측의 정확성은 당선 유무보다는 각 주별 투표의 실제 득표율과 예상치의 차이를 비교하여 판단할 수 있다. 각주의 득표율 예측을 보면 여전히 네이터 실버의 예측이 제일 잘 맞았다. 실버는 이를 기반으로 51:49로 힐러리가 이긴다고 예측했다. 박빙의 승부에서 오차 범위 내에서 틀린 것이다. (실버는 2018년 중간선거와 2020년 대선을 정확히 예측하여 명예회복을 했다-요약자 주)
선거 예측에서는 조사 대상자의 크기보다는 대표성이 중요하다. 1936년 한 조사기관은 루스벨트와 랜던이 대결한 미국 대선 결과 예측을 위하여 천만 명이라는 어마어마한 수의 유권자를 대상으로 우편 조사하여 랜던이 앞서는 것으로 예측했다. 많은 돈은 썼지만 결과가 안 좋아서 그 조사기관은 문을 닫았다. 모집단 샘플링에 문제가 있었다. 대상자 선정에서 바이어스가 있었던 것이다. 전화번호부와 동호회 명부를 이용하였는데, 이는 잘 사는 사람만 대상으로 한 것이다. 대표성을 띄지 못했다. 모집단의 크기가 중요한 것이 아니라 불편부당한 표본집단 추출방법이 중요하다. 우리나라에서도 수만 명을 대상으로 조사하여 불과 몇 천 명 회신받은 여론조사 결과가 타당한가 하는 의문을 품는 사람이 많지만, 샘플 사이즈보다는 대표성이 중요하다. 집전화와 휴대폰 비율에 따라 여론조사 결과가 다르게 나오는 경우가 종종 있다.
김정일 사망 예측/911 테러징후
2011년 김정일 사망 당시 몇몇 일간지는 그의 사망을 정확히 예측한 족집게 역술가들을 보도했다. 이들 역술가들은 정말 족집게인가? 이 보도에는 이 역술가들이 평소에 한 수많은 틀린 예측에 대하여는 전혀 언급이 없고 특정 사건에 대하여만 잘 맞췄다고 족집게라고 보도하고 있다.(실제 이들은 김정일 죽음을 예언하면서 북한 세습 정권은 운을 다했다고 했지만 10년이 지난 지금도 건재하다-요약자 주)
미국 언론들도 911 테러가 터졌을 때 FBI가 사전 징후를 포착한 보고서를 무시해서 참사를 막지 못했다고 보도했었다. 과연 그런가? 언론들은 6건이나 되는 보고서들을 왜 미스했느냐고 지적했지만 그 당시 비슷한 내용의 잘못된 알람은 하루에도 몇 백 건 씩 있었다. 이 중 진짜를 고르는 것은 건초더미에서 바늘 찾기다. 언론에서는 바늘 여섯 개만 이야기하지, 이 바늘이 건초더미에 던져져 있었다는 이야기는 하지 않는다.
예측에서 오류 없애는 것은 불가능하다. 기존의 방법보다 새로운 방법에서 조금 줄면 만족한다. 오류를 확인하기 위하여 데이터를 나누어 일부 떼어 놓고 확인용으로 쓴다. 서로 비교하여 차이가 발생하면 모형을 조정하는 방법으로 오차를 줄이는 노력을 하는 것이다.
시공간 자료를 활용한 예측
시공간 자료란 관측된 자료의 위치와 시간을 같이 기록한 데이터를 말한다. 위치만 있으면 공간 자료이며, 시간만 있으면 시계열 자료이다. 이런 자료를 이용하여 관측된 위치나 시간의 데이터로 관측되지 않은 위치나 시간의 값을 예측할 수 있다.
서울시에는 미세먼지 관측 장비가 56군데 설치되어 있다. 여기서 관측된 데이터를 통계적 방법으로 분석하여 관측 장비가 설치되지 않은 장소의 미세먼지도 예측할 수 있다. 범죄 발생률, 실업률, 독감 걸린 사람이 사는 위치 이런 것도 공간자료를 활용하여 예측한다. 천문학에서도 빅 데이터를 활용하여 별자리나 블랙홀의 발견 가능성을 예측한다. 제2차 세계대전에서 당시 세계 최초로 개발된 독일의 미사일 성능을 파악하는 데에도 통계적 기법이 사용되었다. 영국 런던에 떨어진 미사일의 위치 데이터를 분석하여 이는 타겟을 정확히 겨냥하여 떨어진 미사일이 아니고 상당수가 무작위로 떨어진 것으로 제대로 된 미사일이 아니라는 결론을 내렸다.
자연과학과 응용과학에서 데이터 과학의 활용
2016년에 그동안 이론적으로 추정했던 중력파의 존재를 실제 관측하였다. 과연 이 관측이 맞는지는 통계적 신뢰도를 통하여 탐지 확정하였다. 통계적 신뢰도 -4 시그마 이상(-99.99367%;1만 번 중 한 번 정도 틀릴 확률)이었다.
지문 인식에도 통계적 방법이 활용된다. 손가락에서 지문이 끊기고 퍼지는 지점을 미뉴샤minutiae라 하는데, 이 위치와 개수는 사람마다 다르다. 현재 지문인식 기술은 통계적 방법을 사용하여 13개 미뉴샤가 일치하면 같은 지문으로 판정하고 있다. 범인을 특정하기 위한 디지털 포렌식에도 데이터 과학이 활용된다. 그러나 이는 절대적인 것은 아니다. DNA 검사도 오염에 따른 오류가 있을 수 있다. 그래서 통계적 결론은 언제나 확률로 제시된다.
데이터 활용의 한계와 오남용 예방
특히 개인의 질병 데이터의 익명화는 매우 중요하다. 그러나 데이터를 익명화하더라도 개인 프라이버시를 완전히 예방하기는 힘들다. 이종의 데이터를 결합하다 보면 감춰졌던 개인 정보가 드러날 수도 있기 때문이다. 그래서 데이터의 불법 거래를 철저히 막아야 하지만, 상업적 거래도 신중해야 한다. 범죄 예측에 대하여도 도덕적 논란이 있다. 따라서 통계적 예측으로만 결론을 내리는 것은 곤란하다.
에필로그 (강의 후기)
데이터 과학은 빅데이터라는 기름을 연소하여 추진력을 만들어내는 엔진이라는 말은 아주 적절한 비유다. 이 엔진이 4차 산업혁명이라는 자동차를 힘차게 달릴 수 있게 할 거라는 생각이 든다. 프랜시스 콜린스 박사는 2003년에 인간이 가진 31억 개의 유전자 서열을 해독하여 인간게놈지도를 완성하였다. 이를 통하여 모든 인류의 유전적 질병을 사전에 예측하여 예방하거나 치료할 수 있는 길이 열렸다고 열광했다. 그러나 바로 윤리적 문제에 봉착했다. 한 개인의 유전자 정보가 노출되었을 경우 그로 인하여 발생할 수 있는 사회적 차별 문제 등 부작용은 매우 심각한 것이다. 그로 인하여 그 후 상업적 이용에 대한 규제로 유전자 산업은 발전이 더디게 된 측면도 있다.
데이터 산업도 마찬가지라 생각된다. 구글이나 아마존 같은 세계적 플랫폼 기업들은 물론이고 국내에서도 네이버, 카카오, 신용카드사 쿠팡 같은 회사들도 미래의 먹거리가 될 데이터 사업에 사활을 걸고 있다. 많은 사람들은 이미 자기도 모르는 사이에 디지털 유목민(Digital Nomad)이 되어 자신의 신상정보를 이들 기업에 무방비로 노출시키고 있는 형편이다. 하루 종일 스마트폰에서 논을 떼지 못하는 우리의 행동거지는 다른 사람이 실시간으로 들여다보고 있다 해도 과언이 아닐 것이다. 이 강연을 들으면서 데이터 과학이 편리한 것이기는 하지만 이로 인하여 발생할 수 있는 직간접적인 사회적 문제를 생각하면 양면의 칼이라는 생각이 들었다.
글 | 송윤강
과신대 기자단으로 활동하면서 과학강연, 영화, 도서 등 과학 관련 리뷰를 기고하고 있다. 2021년에는 "카오스와 과신대의 만남"이라는 주제로 글을 기고할 예정이다. 현재 아름다운서당에서 대학생들을 가르치고 있다.
'과신뷰 > 기자단 칼럼' 카테고리의 다른 글
다윈주의의 도전! 숙제인가, 선물인가? (0) | 2021.04.06 |
---|---|
"코스모스 : 가능한 세계들"을 읽고 / 앤 드루얀과의 데이트 (1) | 2021.04.01 |
두 책 읽기의 성숙과정 (0) | 2021.03.04 |
역사란 정답을 추구하는 학문이 아니다 (0) | 2021.01.11 |
<기초과정2> 1강을 듣고: Why & How (0) | 2021.01.11 |
댓글