빅데이터: 이론의 종말 아닌 질문의 시작

아래 글은 슬로우뉴스에 게재된 글입니다.

——————

바야흐로 빅데이터 전성시대가 시작됐다. 박근혜 정부부터 시작해서 대학교 빅데이터 동아리까지, 각종 빅데이터 행사(를 빙자한 컴퓨터 시스템 판매업자의 마케팅)에서부터 다양한 학술단체 학회에 이르기까지 빅데이터는 정부, 산업계, 학계 등 다양한 영역에서 화두로 자리 잡고 있다. 경험과 감각에 의존한 경영, 천 명 샘플링에 기초한 학술논문, 개인의 차별성을 고려하지 않는 커뮤니케이션 등과 대비되는 빅데이터는 과학의 새로운 가능성에 대한 은유까지 담고 있다.

infocux Technologie (CC BY NC)

infocux Technologie (CC BY NC)

롱테일(Long tail) 현상을 소개한 뛰어난 안목의 소유자 크리스 앤더슨(Chris Anderson), 그는 전통 (통계)연구방법론과 빅데이터가 가져오는 연구대상의 확장이 충돌하게 되는 현상을 지난 2008년 “이론의 종말(The End of  Theory: The Data Deluge Makes the Scientific Method Obsolete)“을 통해 분석한 바 있다. 앤더슨은 지금까지 이론을 입증하는 것으로만 데이터의 역할이 한정됐다면, 이제는 빅데이터로부터 다양한 이론화가 가능하다고 주장한다. 이렇게 이론(theory) 생산을 위한 전통적 방법을 비판하고 사실(fact)에 집중하는 경향을 최근 한국사회에서도 어렵지 않게 만날 수 있다. 그러나 찾고자 하는 바를 알고 있을 때에만, 끝없는 질문을 이어가며 가설을 검증하는 과정이 존재할 때에만 빅데이터 분석은 유용한 결과를 만들어 낼 수 있다.

신생아와 황새, 기저귀와 맥주: 상관관계와 인과관계의 차이

첫 번째 고백: 통계프로그램 하나 제대로 돌릴 수 없고, 통계방법론으로 학술논문 한 편 써본 경험은 없지만, 독일에서 경제학 석사과정을 공부할 때 나의 부전공은 통계학이었다. 석사논문도 통계방법론에 대한 비판적 분석이었다. 통계학을 배우다 보면 꼭 듣게 되는 이야기가 있다. 바로 ‘신생아와 황새’의 상관관계다. 19세기 유럽 도시에 황새가 증가할 때 새로 태어나는 아기의 숫자도 함께 늘어났다. 일부 사람들은 황새와 신생아 사이의 ‘관계’를 주장했다. 이 주장이 옳건 그르건, 신생아와 황새의 증가 및 감소 사이에서 우리는 상관관계와 인과관계의 차이를 명쾌하게 이해할 수 있다. 두 개의 값 사이에 관계성 및 상관관계가 존재한다고 해도, 하나의 값이 또 다른 값의 원인이 된다고 주장해서는 결코 안 된다. 따뜻한 도시 주택가의 굴뚝에 늘어나는 황새와 도시화로 인한 거주민의 증가에 따른 출생률의 상승 사이에는 원인과 결과라는 인과관계가 성립할 수 없기 때문이다. 기저귀와 맥주의 연관성(출처)

기저귀와 맥주의 연관성(출처)

그러나 두 가지 현상 사이의 상관성을 밝혀내는 일은 매우 가치 있는 일이다. 예를 들어 빨간색, 은색, 파란색, 녹색, 회색 자동차가 흰색 자동차보다 자동차 사고율이 높은 경향이 존재한다. 그 이유는 (아직) 알 길이 없다. 하지만 자동차 색상과 자동차 사고율의 관계에 대한 정보는 자동차 구매자와 판매자에게는 높은 가치를 지닌다. 1990년대 미국 월마트 영수증 분석을 통한 기저귀와 맥주 판매의 연관성 발견은 ‘기저귀와 맥주 묶음상품’으로 탄생했다. 기업에는 매출 증가라는 유익으로, 소비자에게는 상대적으로 저렴한 상품구매라는 유익으로 이어진 것이다. 이렇게 상관관계는 데이터 연구에서 매우 가치 있는 보물이다.

가치가 매우 높은 수많은 상관관계를 숨기고 있는 데이터 덩어리가 빅데이터다. 그러나 이러한 보물이 존재한다는 것을 예감할 수 있지만, 아직 그 보물이 어디에 존재하는지 알지 못하는 것 또는 그 보물을 찾을 수 있는 도구를 갖고 있지 못한 것이 빅데이터 연구의 현재 한계이기도 하다. 데이터 덩어리가 지나치게 크고 터무니없이 복잡하다.

빅데이터: 지나치게 많아서 관계를 이해하기 힘들다

빅데이터는 두 가지 특징을 가지고 있다. 첫 번째 특징은 데이터의 ‘양’이 과하게 많다는 점이고, 두 번째 수집 가능한 데이터 대부분이 정리되어 있지 않은 비정형 상태라는 점이다. 이 두 가지 특징이 보물을 찾을 수 있는 도구가 없는 이유이기도 하다. 전통적인 데이터베이스 질의문(SQL)이 제 기능을 하지 못하고, 전통적인 서버 시스템은 연산처리 속도에서 한계를 보이고 있다. 이러한 한계를 극복하는 과정에서 하둡(Hadoop), 맵리듀스(MapReduce) 등 대용량 데이터 분산처리 기술 및 시스템이 발전하고 있다.

수집 가능한 데이터의 원천은 크게 두 가지로 구별될 수 있다. 첫 번째는 인터넷 이용자가 생산하는 데이터다. 블로그, 위키피디아, 유튜브, 트위터, 페이스북, 텀블러, 스포티파이 등 소셜 미디어 서비스와 G마켓, 아마존 등 소비자 구매정보가 생산되는 온라인 쇼핑 서비스 등이 여기서 큰 역할을 맡고 있다.

두 번째 데이터 원천은 인터넷과 연결된 기계로서, 데이터 규모 면에서 첫 번째 그것과 비교할 수 없을 정도로 크다. (무인) 비행기 센서에서 생산되는 정보, 스마트폰의 위치정보, 인터넷에 연결된 CCTV, 날씨측정 정보 그리고 무인 자동차, 구글 글래스 등이 두 번째 예이다. 사물의 인터넷이 빠르게 현실화될수록 이와 관련된 데이터의 양과 영역은 무한하게 확대될 것이다. 이에 조응하는 자료수집 시스템은 더욱 빨라질 것이고 자료수집 대상도 인간 삶의 대부분을 포괄할 것이다.

첫 번째 데이터 원천은 전통적인 데이터 마이닝(data-mining)과 비교하여 규모가 매우 증가했을 뿐이지 데이터 수집, 처리 및 분석에 있어 새로운 도전은 아니다. 이 영역의 데이터 수집과 분석을 적지 않게 ‘빅데이터’로 칭하고 있는데, 이는 빅데이터를 잘못 이해하는 데서 비롯된다. 수집 및 분석, 상품화, 그리고 학술적 연구 측면에서 도전과 위협(!)이 존재하는 영역은 오히려 두 번째 데이터 원천이다.

글로벌 데이터 네트워크의 정점: 육체와 인터넷의 연결, 구글 글래스

인터넷은 전 세계 인간과 사물을 연결하는 방향으로 발전하고 있다. 그 과정에서 무한에 가까운 데이터를 생산하고, 이를 수집하며, 관계화한다. (데이터) 네트워크는 크게 네 단계로 진행되고 있다.

첫 번째 단계는 존재하는 컴퓨터가 인터넷에 연결되는 과정이다. 이 단계는 현재 사실상 완료된 상태다. 인터넷에 연결되지 않은 컴퓨터를 더 이상 정상적인 컴퓨터로 간주하지 않는 최근의 인식이 그 결과라고 볼 수 있다.

두 번째 단계는 인터넷에 연결되는 모바일 기기 및 태블릿의 확산이다. 이 과정은 현재 완료형은 아니지만, 전 세계의 대다수 사회에서 빠른 속도로 진행되고 있으며 일상의 많은 영역을 변화시키고 있다.

세 번째 단계는 이른바 ‘사물의 인터넷’으로 지칭되는 인터넷과 연결된 기계의 확산이다. 사진기, 자동차, 냉장고, 각종 감지기 등이 인터넷으로 연결되고 있으며, 우리를 둘러싼 모든 기계가 인터넷과 연결되는 시대가 성큼성큼 다가오고 있다. 사물의 인터넷과 함께 비로소 빅데이터는 수많은 상관관계 연구를 가능케 할 것이다.

구글 글래스=몸:육체+망:인터넷

마지막 네 번째 단계는 육체와 인터넷이 연결되는 과정이다. 2013년 말에 상용화가 예정된 구글 글래스가 그 첫 번째 시도가 될 것으로 보인다. 인간의 귀와 눈 등 감각기관이 네트워크로 연결되는 것이다. 그러나 인간 감각기관의 인터넷 확장은, 그 환상적인 가능성에도 불구하고, 타인이 인지하지 못하는 상황에서 동영상 촬영(Always-on-Camera), 사기업 구글 서버에 전 세계 영상 및 소리 데이터가 수집되는 문제 등 다양한 윤리문제, 법률문제, 사회문제를 안고 있다.

질문이 없으면 답변도 없다

빅데이터는 기계에 의해 데이터가 생산 및 수집되는 세 번째 네트워크 단계와 관련이 깊다. 첫 번째 단계와 두 번째 단계의 경우, 1990년대 시작된 데이터 마이닝과 빅데이터 사이에서 차별점을 찾을 수 없기 때문이다. 빅데이터에 대한 정의보다 중요하고 해결되지 않는 질문은 이렇다: 가치 있는 데이터 사이의 상관관계를 어떻게 찾을 수 있을 것인가. 이 또한 기계가 자동으로 수행할 수 있는 영역일까? 보석에 접근하기 위한 도구는 무엇일까? 하둡과 맵리듀스가 그 도구일까?

한국에도 소셜 데이터를 분석하는 다양한 기업 및 서비스가 존재한다. 또한 매장, 온라인 쇼핑몰, 스마트TV 등 소비자 행위를 분석하는 시스템을 구축하고 관련 분석 서비스를 운영하는 기업들도 속속 등장하고 있다. 이러한 데이터 분석에서 중요시되는 것은 패턴(pattern)이다. A란 재화를 구매한 소비자가 B라는 재화를 구매할 가능성 등이 조사된다. 특히 지금까지 알려지지 않은 패턴을 발견하고자 엄청난 노력이 집중된다.

예를 들어 페이스북 ‘좋아요(like)’와 정치정당 선호도의 상관관계 분석이 진행되기도 하고, 음악 파일공유가 디지털 판매에 도움이 되는 패턴과 그렇지 않은 패턴이 서로 충돌하며 조사되기도 한다. 또는 지금까지 알려지지 않은 패턴, 다시 말해 대답은 고사하고 질문조차 하지 않았던 그 무언가를 찾기 위해 수많은 노력이 집중된다. 신생아와 황새의 상관관계가 여기에 해당할 것이다. 그렇다면 이러한 패턴, 질문이 비로소 가능해지는 패턴은 어떻게 찾을 수 있을까? 수리적 알고리즘으로? 아니면 뛰어난 프로그래밍 능력으로?

빅데이터는 이론의 종말이 아니라 질문의 시작이다

크리스 앤더슨은 빅데이터가 이론의 종말로 이어지고 있다고 주장한다. 무한한 사실이 데이터로 존재한다. 그래서 중요한 과제는 이 데이터를 효과적으로 수집하는 일이다. 이론이 왜 필요하단 말인가? 데이터를 관계화하는 멋진 알고리즘과 빠른 연산능력을 자랑하는 훌륭한 컴퓨팅 파워가 필요할 뿐이다. 직관, 모델 그리고 이론 등 분석을 통해 인식에 이르게 하는 전통적인 방법론은 이제 쓸모 없는 것이 되었다.

과연 그런가?
아니다!

작은 답변을 얻기 위해서도 질문을 던지고 질문을 검증하는 과정이 필요하다. 의미 있는 질문을 던지는 것을 우리는 ‘가설’이라고 칭한다. 그리고 현실에 던지는 질문인 가설은 이론으로부터 도출된다.

데이터를 수집한 결과값을 늘어놓는 방식인 서술식(descriptive) 분석 또는 네트워크 분석은 물론 그 자체로도 가치 있는 행위이다. 그러나 그 한계 또한 명확하다. 개인적으로 참여하고 있는 음악 데이터 분석 서비스 ‘더 보다‘가 계속해서 한계에 부닥치는 이유도 가설 없는 서술식 분석에 머물고 있기 때문이다. 찾고자 하는 것이 무엇인지 정확하게 모르는 것은 찾고자 하는 바를 질문으로 표현하지 못하기 때문이다. 서술식 분석 또는 네트워크 분석을 통해 얻을 수 있는 것은 ‘우연하게(!)’ 상관관계를 발견하는 것뿐이다. 추가적인 분석과 상업적인 활용으로 이어질 수 있는 상관관계 그리고 나아가 인과관계를 찾아내기 위해서는 다양한 질문을 제기하는 것이 무엇보다 중요하다.

스스로 말하는 데이터는 존재하지 않는다. 데이터는 언제나 해석을 기다리고 있다. 무엇을 찾고자 하는지를 알지 못할 때 알고리즘을 만들 수는 없는 노릇이다. 무엇이 의미 있는 질문인지 아닌지를 판단하는 기준은 이론에서 나온다. 이론이 질문을 만들고 질문의 의미를 찾게 도와주며 이론이 원인을 발견하게 한다. 그래서 빅데이터는 이론의 종말이 아니다. 데이터와 이론, 이론과 데이터는 선후의 문제가 아니다. 오히려 빅데이터는 모든 고민과 근심, 그 도전어린 질문의 시작인 것이다.

Kevin Krejci (CC BY)

Kevin Krejci (CC BY)

참조: 혁신과 위험의 빅데이터

[연구노트] 혁신과 위험의 빅데이터, 긴장과 균형

(미 완성 글이지만, 피드팩을 부탁드립니다.)

“The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it — that’s going to be a hugely important skill in the next decades.” (Varian, H. R. 2009)

1. 도입: 빅데이터의 도전

인 터넷은 지난 반세기 동안 기계와 기계사이 소통수단, 사람과 사람사이 소통수단, 사물과 사물사이 소통수단 등으로 기능을 확장하며 상하수도망, 전기망과 같은 사회운영의 기본망으로 성장 및 진화하고 있다. 나아가 인터넷과 월드와이드웹을 통해 형성되고 있는 가상세계는 첨차 실세계와 유사성을 띄어가면서 가상세계와 실세계 사이의 차이가 첨차 사라지고 있다는 주장도 등장하고 있다(Adams 2012, Dueck 2012). 세계 곳곳에서 진행되는 주식거래 및 은행거래가 디지털 처리되고 있으며, 슈퍼마켓에서 이루어지는 개별 소비자의 구매행위가 신용카드 및 고객카드를 통해 해당 기업의 전산망에서 디지털 데이터 형식으로 기록, 저장 및 분석되고 있다. 또한 개인 휴대폰에 데이터로 저장된 전화번호는 개인과 개인을 연결하는 식별자(identifier) 및 노드(node)에서 최근 스마트폰의 대중화와 함께 매일 수백만 개의 메시지 데이터가 오고가는 ‘거대 네트워크 노드’로 진화하고 있다. 실세계의 모든 객체 (node)정보, 객체 사이의 연결(edge)정보, 연결망(network)을 통해 교환 및 집적되는 상태정보, 행위 정보 및 상호작용 정보가 가상세계에서 비트 데이터 형식으로 존재하면서 가상세계는 실세계와 보다 유사해지고 있다.

CCTV 정보, 전자지문 정보, 유전자 정보 등 국가기구에 의해 수집되는 센서 데이터의 증가, 오픈 데이터 정책에 따라 공개되는 정부 및 의회 정보의 확대, 빠른 속도로 늘어나는 디지털 개인 의료정보, 기업활동에 의해 생산된 기업정보와 기업과 소비자 사이에서 발생하는 상호작용정보와 소비자 행위정보의 증가, 인터넷과 월드와이드웹을 통해 생산 및 처리되는 데이터 양의 팽창 등 데이터의 총량은 최근 폭발적 상승세를 보이고 있다. 또한 데이터 분석시스템이 전통적인 데이터 분석도구로서는 데이터 증가 속도를 따라가지 못하는 현상과 대용량 데이터를 분석하는 전문 인력이 부족한 현상 등이 사회문제 및 경제문제로 지적되고 있다. 이렇게 ① 전례없이 빠른 속도로 급팽창하는 데이터의 양, ② 이를 저장, 분석 및 해석하는 전통 기술시스템의 한계[1], ③ 대용량 데이터에 대한 진화된 저장기술, 분석기술 및 시각화기술 그리고 ④ 대용량 데이터에 기반으로 컴퓨터과학 및 사회과학에서 진행되는 새로운 연구방법 등과 관련된 현상을 미디어, 산업계, 학술 영역에서 총칭하는 개념으로 ‘빅데이터’가 사용되고 있다(Albanese 2010, Boyd 2010, Economist 2010, Loukides 2011a, Croll 2012, Dumbill 2012).

또 한 빅데이터 현상을 분석하는 일렬의 분석에는  빅데이터 처리능력이 기업 또는 국민경제의 생산성 향상 및 경쟁력 강화로 이어질 수 있다는 “데이터 산업혁명(Economist 2010, McKinsey 2011)” 주장과 전통적 학술 방법론으로는 트위터 및 페이스북 사용자의 관계망과 행위 정보를 (실시간으로) 분석할 수 없다는 이른바 “이론의 종말 The End of Theory(Anderson 2008)” 주장 등도 포함되어 있다. 그러나 생산성 및 경쟁력과 결부된 ‘시장재화로서의 빅데이터’는 과연 무엇을 의미하는가, ‘시장재화로서의 빅데이터’의 생산구조 및 가치창출구조의 특징은 무엇인가 등 빅데이터의 시장구조에 대한 질문은 여전히 그 답을 기다리고 있다. 다시 말해 빅데이터와 관련된 다양한 시장행위자와 이들의 의해 진행되는 시장행위 그리고 이를 둘러싼 시장환경에 대한 체계적인 연구는 아직까지 시작되지 못하고 있다. 다른 한편 연구자가 대용량 데이터에 손쉽게 접근할 수 있는 가능성[2]이 확대되면서 설문, 인터뷰 및 실험 등 표본조사에 기초한 연구방법론에 대한 무용론도 등장하고 이다(Boyd 2010). 그러나 표본의 절대량 증가가 전체성(wholeness) 및 표본의 대표성(representativeness)으로 대치될 수는 없다. 따라서 빅데이터 기반 연구방법론에 대한 비판적 성찰이 절실하다(ibid.).

따 라서 본 연구는 빅데이터에 대한 비판적 분석체계를 구성하는 것을 목표로 ① 빅데이터의 물리적 특성 분석, ② 시장에서 거래되는 상품으로서의 데이터에 대한 정의와 데이터 상품의 가치창출구조 및 특성 분석, ③ 데이터 상품화 과정과 관련된 다양한 기술적 도전, ④ 빅데이터 생산, 유통 및 소비과정에서 발생할 수 있는 ‘개인정보보호’ 등 사회적 위험성과 빅데이터 기반 연구방법론의 위험성을 살펴보고자 한다.

2. 상품으로서의 빅데이터

2.1. 데이터와 해석된 데이터

빅 데이터에서 지칭되는 ‘데이터 (data)’에 대한 정의는 이를 다루는 학문영역에 따라서 작지않은 차이를 보이고 있다. (네트워크) 경제학자인 Shapiro와 Varian의 경우 데이터와 정보 (information)를 동일시하며 이를 매우 포괄적으로 해석하고 있다(Shapiro/Varian 1999). 그들은 디지털화가 가능한 모든 것을 정보 또는 정보재(information goods)로 정의[3]하고 “야구경기 점수, 책, 데이터베이스, 매거진, 영화, 음악, 주식 시세, 웹 페이지” 등을 데이터 및 정보재로 분류하고 있다(ibid.). 이에 반해 기호학의 경우 기호와 기호를 통해 표현된 사물의 관계를 연구하는 의미론(semantics), 기호와 기호 사이의 연결 및 관계를 연구하는 통사론(syntactics) 그리고 기호 사용자(subject)에 대한 기호의 영향을 분석하는 화용론 (Pragmatics) 등 3개 층위에서 각각 기호(sign), 데이터(data) 그리고 정보(information)를 구별한다(Liebenau/Back- house 1990, Wikipedia 2012). 이러한 기호학의 인식은 컴퓨터 과학에서 데이터를 기호 및 정보와 구별하는 접근법과 유사성을 가지고 있다(Stamper 1985). 아래 <그림 1>처럼 신호는 규칙(semantics)과 연결되어 데이터로 변화한다. 또한 컴퓨터 과학에서는 데이터가 특수한 의미문맥을 통해 해석된 것이 정보로 간주된다(ibid.). 다시 말해 특정 데이터가 분석가 또는 분석 시스템에 해석된 결과물이 정보이다. 본 연구에서는 컴퓨터 과학의 분류법을 따라 시스템 및 인간행위의 결과물로서의 데이터를 데이터 상품(data product) 또는 해석된 데이터 (interpreted data)로 칭하고 데이터 생산물을 해석과정 이전의 데이터(data itself/data as data)와 구별하고자 한다.

<그림 1: 데이터와 해석된 데이터> (강정수)

2.2. 데이터 생산과정 및 가치창출구조: 피드백 경제

빅 데이터의 경제성을 논한다면 이는 인터넷, 월드와이드웹 등 디지털 네트위크에서 분산되어 존재하는 거대한 규모의 데이터 자체(data itself/data as data)에 기초한 것이 아니라 이를 처리하여 다양한 경제 및 학술 분야에서 활용되는 해석된 데이터(interpreted data)  또는 데이터 생산물(data product)를 대상으로 한다. 따라서 데이터 자체가 데이터 생산물로 전환 및 변화 (transition & transformation)되는 과정에 대한 체계적 이해는 빅데이터 경제성 연구의 주요한 분석틀[4]로 기능할 수 있다. 아래에서는 문헌연구와 실제 데이터 분석 경험[5]에 기초하여 데이터 가치창출구조에 대한 형상화를 시도한다(<그림 2> 참조). <그림 2: 데이터 가치창출 구조> (강정수, 참조: Dumbill 2012)

 데이터 가치창출의 첫번째 단계는 데이터 수집(data collection)이 다. 데이터는 상거래 정보 및 공공 정보 등 전통적인 데이터 공급원 뿐 아니라 월드와이드웹과 스마트미디어에 남겨지는 개별 사용자의 ‘사용자취(digital trace/information trails/data shadows/data exhaust)[6]’를 통해 수 집된다. 또한 페이스북, 트위터, 유튜브, 사운드클라우드 등 일렬의 웹서비스는 풍부한 API를 통해 외부 서비스 사업체 및 개별 개발자에게 전례없이 손쉬운 방식으로 사용자 데이터에 대한 탐색 가능성을 제공하고 있다. 한편 데이터 수집이 주는 기술적 도전은 이러한 수집 가능한 데이터 양의 상대적 증가와 함께 데이터 수집의 속도에 놓여 있다. 다양한 공급처로부터 실시간으로 수집되는 대용량 데이터는 수집 병행성이라는 과제와 함께 수집 속도의 과제를 제기하고 있기 때문이다(Agrawal et. al. 2011, Dumbill 2012)[7].

데이터 수집의 다음 단계는 데이터 조절(data conditioning)이 다. 수집되는 데이터의 대부분은 ① 동일한 구조형식의 데이터가 아니며[8], ② 대량의 불필요한 데이터(data garbage)를 포함하고 있기 때문에 이후 단일한 구조 내에서 조작가능한 형식으로 전환되어야 함과 동시에 불필요한 데이터에 대한 정제작업이 필요하다. 또한 데이터를 분류하기 위한 해석 작업이 동시에 진행된다. 이를 위해 다양한 파싱(parsing) 기법과 의미가 모호한 데이터를 분류하기 위해 자연어 사전에 기초한 기계학습(machine learning) 프로그램[9]이 사용된다. 그러나 이러한 자연어 처리 과정을 통해 모든 데이터가 이후 분석 및 분류 가능한 형태로 정제되지는 않는다. 이때 인간의 판단력이 직접 투입되어야 하는 필요성이 제기된다. 아마존이 운영하는 Mechanical Tuck은 기계학습에 의해 처리되지 못한 불필요한 데이터를 사람의 해석 및 판단에 따라 정제 및 분류하는 대표적인 시스템이다. 이러한 사람에 의한 데이터 정제과정을 인간탐사(human exploration)라 칭한다(Dumbill 2012).

이러한 기계와 사람의 정제과정과 동시에[10] 데이터는 데이터 저장과정(data storage operation)을 거치게 된다. 저장기술과 관련된 도전 또한 데이터 ‘양’이 아닌 ① 분산되고 탈구조화된 데이터 수집원과 ② 수집된 데이터의 비일관성과  복잡성에 놓여있다(Loukides2011a). 이러한 데이터 저장에서 발생한 기술적 도전과 관련하여 NoSQL, Cassandra, HBase 등 비관계형 데이터베이스 기술이 지속적으로 발전하고 있다. 비관계형 데이터베이스에 저장된 대용량 데이터의 연산처리를 위한 MapReduce[11] 등 다양한 병렬연산처리 기술영역과 이에 기초한 분산형 파일시스템 기술영역에서 혁신이 진행되고 있다.

데이터 저장과정과 동시에 또는 그 이후 진행되는 단계는 데이터 분석과 통합(data analysis & mashup)이다. 데이터 저장과 함께 방대하고 분산되고 일치성이 떨어지는 데이터에 대한 서로 다른 가설에 대한 검증작업과 이에 필요한 서로 다른 알고리즘 적용이 이뤄진다. 이러한 실시간 데이터 분석을 위해 Hadoop Online Prototype(HOP)과 같은 스트림 프로세싱 연산처리 기술과 R Language 등 다양한 통계 기법이 사용된다. 빅데이터의 가치는 거대한 양의 데이터의 존재를 의미하는 것이 아니라 일치성이 떨어지고 분산되어 존재하는 데이터로 사용자 및 소비자에게 유의미한 결과값을 도출하는 작업에 놓여있다(Boyd 2010, Loukides 2011a). 따라서 표본에 기초하고 있는 전통적인 통계 방법론은 새로운 병렬연산처리 기술 및 대용량처리 기술과 상호보완 관계를 이루며 데이터 분석과정에서 유효성을 상실하지 않고 있다. 또한 데이터 통합과 분석에서 개발, 검증 및 적용되는 알고리즘은 통계적 연산 방정식과 다름 없다. 가설을 세우고 검증하는 과정에서 중요한 또 다른 과정은 서로 다른 데이터베이스의 통합 또는 융합(mashup)이다(Loukides 2011b). 예를들어 음악추천 알고리즘위해 개별 사용자의 음악소비 역사데이터 뿐 아니라 해당 사용자의 문화소비패턴 분석데이터, 친구관계망에서 수집된 음악 관련 상호작용데이터 등이 결합된 데이터 집합이 활용되고 있다.

데이터 수집, 처리 및 분석의 결과물이 상품화되는 마지막 단계는 데이터 스토리텔링 및 시각화(data storytelling & visualization)다. 데이터 분석 및 통합 과정을 거친 결과는 언제나 수치(numerical value)다. 수치가 의미하는 것을 전달하기 위해서는 결과값에 대한 시각화가 필수적이다. 지도데이터와 결합된 전염병 확산데이터, 위치데이터와 시간데이터가 결합된 ‘시내버스’ 앱, 음향파동을 형상화한 사운드클라우드(www.soundcloud.com)의 개별 음악데이터 등 시각화[12]는 데이터 상품화의 마지막 단계로서 데이터의 문맥화를 통한 해석작업이다.

상 품화되어 사용자 및 소비자에게 제공되는 데이터는 그 소비과정에서 사용자에 의한 사용자취(digital trace) 생산의 매개가 된다. 이렇게 생산된 사용자취는 데이터 수집 단계로 이어지면서 데이터 수집원으로 기능한다. 예를 들면 개별 소비자의 아마존(amazon) 책 구매 데이터 또는 평가 데이터는 다시 데이터 분석대상이 되어 아마존의 추천 알고리즘을 진화시키는 추가가치(added value)를 가지고 있다. 다시 말해 소비과정에서 발생하는 사용자취는 데이터 가치창출과정의 첫 단계인 데이터 수집과 연결되는 피드백 고리(feedback loop)의 역할을 담당한다. 이러한 피드백 고리는 데이터 수집, 데이터 조절, 데이터 분석 등과 사용자취를 반복(iteration)적으로 연결시키는 것을 통하여 빅데이터 기술진화에 주요 역할을 담당하게 된다(Loukides 2011a, Loukides 2011b, Dumbill 2012). 이러한 반복성 또는 재귀성 (recursiveness)은 데이터 가치창출구조의 구조적 특징[13]이라 할 수 있다.

한편 데이터 상품의 가치창출구조 전체의 순환성을 가능케하는 것이 피드백 고리라면 클라우드 컴퓨팅(cloud computing)은 데이터 상품 가치창출구조의 기술적 기반시설 역할을 담당한다(Agrawal et. al. 2011). 대용량 데이터 처리에 있어 높은 기술 탄력성, 사용량에 따른 요금제와 이에 따른 낮은 초기 비용투자, 위험 분산효과, 데이터 상품의 시장진출 시간단축(low time to market) 등 클라우드 컴퓨팅 기술은 빅데이터의 수집, 조절, 저장, 분석, 시각화 과정에서 다양한 경제적 장점을 제공한다. 클라우드 컴퓨팅은 이와 동시에 거대한 양의 데이터 처리능력을 제공하고 데이터 수집, 조절 및 분석의 동시작업을 가능케 하는 등 클라우드 컴퓨팅은 데이터 상품 전체 생산과정에서 반드시 필요한 기술조건이다(ibid.)[14][15].

그 러나 <그림 2>에 표현된 데이터 가치창출구조는 ‘하나의’ 데이터 상품과 관련된  가치창출구조를 보여주고 있을 뿐 독립된 복수의 데이터 상품이 데이터 분석 및 통합 단계에서 결합되는 과정을 형상화하지 못하는 약점을 가지고 있다. 예를들어 페이스북 개별 사용자의 뉴스피드 분석을 기초로 개별 사용자에게 방송프로그램, 음악, 영화를 추천하는 데이터 상품에는 이미 뉴스피드에 적용되고 있는 페이스북 엣지랭크(EdgeRank)라는 데이터 상품이 결합되고 있다. 이렇게 공존하며 상호작용하는 서로 다른 데이터 상품의 가치창출구조 사이에 존재하는 관계성 및 의존성에 대해 <그림 2>는 설명하지 못하고 있다. 이를 위해서는 서로 다른 데이터 가치창출구조를 연결하는 API(Application Program Interface)의 역할 분석, 서로 다른 데이터 상품 사이에 존재하는 가치창출 기여도에 대한 분석 등 보다 실증적인 연구가 요구된다[16].

2.3. 데이터 상품 분류: 가시적 데이터 상품과 비가시적 데이터 상품

데 이터 가치창출과정에서 생산되는 데이터 상품, 다시 말해 시스템과 인간의 해석과정을 거친 데이터 상품은 구글의 페이지랭크(PageRank)처럼 소비자의 눈에 직접 보이지는 않으나 검색결과의 품질을 결정하는 중간재(intermediary goods)[17]로 기능하거나 또는 ‘서울버스’ 앱처럼 버스의 GPS기반 위치정보를 시각화한 최종 소비재의 형태로도 제공되기도 있다[18]. 디지털 오디오 파일, 디지털 비디오 파일, 전자책 등은 디지털 데이터 형식을 띄고 있는 미디어 콘텐츠로서 본 연구에서는 데이터 상품으로 분류하지 않는다. 여기서 언급한 미디어 콘텐츠는 디지털 데이터 그 자체이며 이에 반해 데이터 상품은 ‘데이터에 기초한 결과물’이다. 예를 들어 미디어 콘텐츠인 디지털 오디오 파일의 메타데이터(metadata)를 시각화한 것에 다름아닌 아이튠즈(iTunes)는 데이터 상품이다[19].

Loukides(2011b) 는 중간재, 최종 소비재 등 전통적인 시장재화 구분법이 아닌 다른 방식으로 데이터 상품을 분류하고 있다. 오디오 CD의 데이터 상품인 CDDB[20], 페이스북의 친구추천, 트위터의 팔로잉 추천, 버스 도착시간 및 버스 위치를 알려주는 ‘서울버스’ 앱, 교통혼잡 정도를 시각화하여 보여주는 ‘다음지도’ 앱과 ‘네이버 지도’ 앱 등은 데이터에 기초한 결과물을 다시금 (시각화된) 데이터로 보여주는 데이터 상품으로 분류할 수 있다. Loukides(ibid.)는 이를 가시적 데이터 상품(overt data product)이라 칭하면서 현존하는 대다수의 데이터 상품을 가시적 데이터 상품으로 분류하고 있다. 가시적 데이터 상품보다 진일보한 데이터 상품은 Loukides의 주장에 따르면 비가시적 데이터 상품(covert data product)이다. 비가시적 데이터 상품의 대표적인 예는 구글과 포드(Ford)에 의해 공동으로 개발되고 있는 ‘하이브리드 자동차 스마트 서비스’다.  이 서비스는 운전자의 과거 운전 데이터를 기계학습하고 실시간으로 수집되는 교통정보 데이터를 분석하여 교통혼잡지역을 피함과 동시에 운전자의 운전습관에 기초하여 가장 에네지를 절약하는 방식으로 운전자의 목적지 경로를 추천한다. 다시 말해 구글과 포드의 이 서비스는 자동차 엔진의 효율적 사용과 에너지 절약을 교통정보 및 도로정보 제공보다 부각시킨다. 이렇게 데이터 분석의 결과물에서 데이터 스스로가 강조되지 않는 상품을 Loukides는 비가시적 데이터 상품으로 분류[21]하며 실생활의 편익을 증대시킬 수 있는 비가시적 데이터 상품의 확대에서 데이터 상품의 긍정적 경제 및 사회 기여도를 찾고 있다(ibid.).

3. 빅데이터 가능성과 위험성의 긴장관계

3.1 가능성: 데이터 상품시장과 데이터 기술시장

전 사회적인 디지털화는 현재 빠른 속도로 진행되고 있다. 스마트폰 3천 만 시대가 눈 앞으로 다가오고 있으며 다양한 가전제품과 자동차 등이 인터넷으로 연결되는 사물의 인터넷(internet of things) 또한 초기단계를 넘어 본격적인 발전경로에 진입하고 있다. 또한 디지털화는 인간 개개인과 사물을 데이터 생산체(digital data generator)이자 동시에 데이터 소비자로 전환시키고 있다. 한편 1장과 2장에서 살펴본 것처럼 데이터의 경제적 가치는 기하급수적으로 증가하는 데이터의 양에 존재하지 않는다. 분산되어 존재하고 일관성 없는 거대한 양의 데이터를 분석 및 해석을 통해 소비자 편익을 증대시킬 수 있는 다양한 데이터 상품이 형성하는 데이터 상품시장의 규모와 수준에 따라 데이터 경제성은 평가 및 예측될 수 있다. 따라서 개별 경제주체-개인, 기업 및 국가-에게 중요한 것은 데이터 소유가 아닌 2장에서 서술된 각 데이터 가치창출단계의 기술능력 및 해석능력[22]과 각 가치창출단계를 아우르는 Enabling Technology인 클라우드 컴퓨팅 능력이다.

따라서 ‘빅데이터 미래(시장)가치’를 논하기에 앞서 한 사회가 가지고 있는 기술능력, 해석능력 그리고 클라우드 컴퓨팅 능력에 대한 정밀한 평가가 선행되어야 한다. 이러한 관점에서 볼 때 최근 한국 대중매체를 통해 쏟아지는 ‘빅데이터 바람’[23]은 근거없는 낙관에 불과하다.

3.2 위험성: 개인식별정보와 해석과정

빅데이터 가치창출구조와 데이터 상품시장의 위험성은 크게 두가지 차원에서 논의할 수 있다.

첫 째는 데이터 수집 및 분석 과정에서 개인식별정보(Personally Identifiable Information)가 활용될 수 있다는 점이다. 온라인 실명제-제한적 본인확인제-와 연관되어 웹 서비스 업체에 입력된 주민등록번호, 전화번호 등 개인식별정보가 유출되어 보이스피싱, 선거용 문자메시지 등에 활용되고 있는 점에서 유추가능한 것은 개인식별정보에 대한 수요시장이 존재한다는 점이다. 개인식별정보에 대한 수요시장은 데이터 가치창출구조의 데이터 수집 단계에서 개인식별정보가 수집, 활용 및 유출될 수 있는  강력한 위험요소다. 또한 IP주소가 나라에 따라 개인식별정보로 분류되는 경우와 그렇지 않은 경우가 존재하듯[24], 소셜 미디어, 사물의 인터넷 등을 통해 현재 생산되고 있고 이후 생산될 수 있는 다양한 종류의 데이터 중 개인식별정보에 대한 지속적인 분류와 이에 대한 법적, 윤리적 규제 장치 마련에 어려움이 존재한다.

두 번째 위험성은 데이터 해석과정에서 나타날 수 있는 연구방법론의 오류이다. Boyd(2010)는 전체성 함정, 정확성 함정, ‘what’과 ‘why’의 혼동, 해석의 오류 가능성 등 네 가지의 빅데이터 기반 연구방법론의 위험성을 지적하고 있다. 전체성 함정은 표본의 절대량 증가에 따라 전체성(wholeness)과 표본의 대표성 (representativeness)을 혼동하는데서 발생할 수 있다. 정확성 함정은 데이터 양이 증가하면 바이어스가 축소되어 정확성이 높아진다는 잘못된 ‘믿음’에서 기인한다. ‘what’과 ‘why’의 혼동은 특히 소셜 데이터 중 행위데이터와 상호작용데이터를 분석하는 과정에서 빈번하게 발생한다. 코카콜라 페이스북 팬페이지의 행위데이터 및 상호행위데이터-좋아요 수, 댓글 수 등-는 현재 약 5천만 명이 넘는 페이스북 사용자가 ‘왜’ 코카콜라의 포스트를 구독하는지에 대한 이유는 설명하지 못한다. Boyd에 따르면 소셜 데이터 분석을 통해 어떤 질문에 대해서 답변이 가능한지 반대의 경우는 무엇인지에 대한 인식이 대다수 연구자에게 결여되어 있다. 끝으로 질적 방법 연구자는 스토리를 해석하고 양적 방법 연구자는 사실(fact)을 찾아낸다는 잘못된 믿음이 빅데이터 연구에도 유지되고 있다. < 그림 2>의 ①, ②, ③, ④, ⑤은 데이터 가치창출단계에서 진행되는 해석작업을 표시하고 있다. 어떤 데이터를 수집하고, 무엇을 계측할지 등 데이터 연구는 언제나 해석의 연장성이다.

- 참고문헌 -

Adams, P., 2012. Grouped: How small groups of friends are the key to influence on the social web, Berkeley, CA.

Agrawal, D. / Das, S. / Abbadi, A. E., 2011. “Big Data and Cloud Computing: Current State and Future Opportunities”, in: EDBT/ICDT ’11 Proceedings of the 14th International Conference on Extending Database Technology, New York. http://dl.acm.org/citation.cfm?id=1951432

Anderson, C., 2008. “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, in: Wired (16.07) http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

Albanese, E., 2010. “Scaling Social Science with Hadoop”,
http://www.cloudera.com/blog/2010/04/scaling-social-science-with-hadoop/

Boyd, D., 2010. “Privacy and Publicity in the Context of Big Data”, WWW. Raleigh, North Carolina, April 29, http://www.danah.org/papers/talks/2010/WWW2010.html

Croll, A., 2012. “The Feedback Economy”, in: Dumbill (Edt.). Planning for Big Data, eBook, http://shop.oreilly.com/product/0636920025559.do

Dueck, G., 2012. Professionelle Intelligenz: Worauf es morgen ankommt, Frankfurt am Main.

Dumbill, E., 2012. “What is Big Data”, in: Dumbill E. (Edt.), Planning for Big Data, eBook, http://shop.oreilly.com/product/0636920025559.do

Economist 2010. “Data, data everywhere”, http://www.economist.com/node/15557443

Hammerbacher, J. 2009. “information platforms as dataspaces”, in: Segaran, T. / Hammerbacher, J. (edit.). Beautiful Data: The Stories Behind Elegant Data Solutions, eBook, http://shop.oreilly.com/product/9780596157128.do

Liebenau, J. / Backhouse, J., 1990. Understanding Information: An Introduction, Basingstoke.

Loukides, M., 2011a. “What is data science?”, in: O’Reilly Radar Team (Edt.). Big Data Now, eBook, http://shop.oreilly.com/product/0636920022640.do

Loukides, M., 2011b. The Evolution of Data Products, eBook, http://radar.oreilly.com/2011/09/evolution-of-data-products.html

McKinsey Global Institute 2011. Big data: the next frontier for innovation, competition, and productivity, McKinsey & Company, http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

Neches, R., Fikes, R. E., Finin, T., Gruber, T., Patil, R., Senator, T., Swartout, W. R. 1991. “Enabling Technology for Knowledge Sharing”, in: AI Magazine, Vol. 12, No. 3., p. 47-56.

Porter, M., 1985. Competitive Advantage: Creating and Sustaining Superior Performance, New York et al.

Shapiro, C. / Varian, H. R., 1999. Information Rules – a strategic guide to the network economy, Boston, Mass.

Stamper, R. K., 1985. “Toward a theory of information: Mystical fluid or a subject for scientific enquiry?” in: The Computer Journal, Vol. 28, No. 3, p 195-199.

Wikipedia 2012. Semiotics, http://en.wikipedia.org/wiki/Semiotics (2002. 3. 26.)

Footnotes    (↵ returns to text)
  1. 데이터의 양(quantity)은 ‘빅’데이터를 정의할 수 있는 기준이 될 수 없다. 이미 1990년대부터 통신회사 및 은행 등은 거대한 양의 디지털 데이터를 저장하고 있기 때문이다. Loukides(2011a)은 “big data is when the size of the data itself becomes part of the problem.”, Dumbill(2012)은 “Big data is data that becomes large enough that it cannot be processed using conventional methods”라고 정의하면서 현존하는 데이터 시스템으로 분석하지 못하는 규모의 데이터를 빅데이터로 정의하면서 데이터 양의 기술적 상대성을 강조하고 있다.
  2. Vinton Cerf의 표현을 재인용(Boyd 2010): “We never, ever in the history of mankind have had access to so much information so quickly and so easily”.
  3. “Anything that can be digitized – encoded as a stream of bits – is information” (Shapiro/Varian 1999: 3).
  4. Porter(1985)의 가치창출구조(Value Chain) 분석방법론은 하나의 재화가 생산, 유통 및 소비되는 과정에 참여하는 개별 경제주체의 ‘추가가치(added value)’ 행위와 이들 사이의 관계를 분석하는 틀이다. Porter의 가치창출구조는 1개 기업차원(firm level)의 분석틀에서 관련 산업계(industry level)의 분석틀-공급사슬(supply chain)-까지 확장가능하다.
  5. 2011년 11월부터 831개에 이르는 국내 뮤지션 및 밴드의 소셜 데이터-facebook, twitter, youtube- 마이닝 작업이 진행되고 있다. 참조: http://chart.muzrang.com/
  6. 월드와이드웹에서 방문 시간, 체류시간, 클릭 패턴, 검색 역사 등의 사용자취는 로그파일(logfile)에 매우 자세하게 기록된다. 또한 진화하는 스마트폰 기술은 개별 사용자의 위치정보, 날씨정보, 인근 네트워크 망 정보 등의 데이터 수집을 가능하게 한다. 이 때 스마트폰은 데이터를 공급하는 ‘데이터 센서(data sensor)’ 기능을 담당한다(Dumbill 2012). 따라서 스미트 미디어 및 사물의 인터넷(internet of things)의 확산 등 사회의 디지털화는 인간 일상의 부산물로 방대한 양의 데이터를 생산 가능케 한다(Albanese 2010).
  7. 데이터 수집 과정에는 개인식별정보(Personally Identifiable Information) 수집 금지 등 다양한 법적 제약이 존재한다.
  8. 수집되는 데이터의 대다수는 기계에 의해 자동으로 읽힐 수 있는(machine-readable) 형식이 아니다. 또한 동일 데이터도 데이터 저장 및 생산 디바이스에 따라 다른 형식으로 수집되는 경우도 존재한다. 그러나 최근 수집되는 많은 데이터 형식은 XML 등 기계수집이 가능한 구조형식으로 진화하고 있다(Loukides 2011a).
  9. 기계학습 프로그램은 이를 위한 라이브러리를 필요로 한다. 관련 오픈소스 라이브러리는 다음과 같다: http://pybrain.org/, http://elefant.developer.nicta.com.au/, http://mahout.apache.org 등.
  10. (빅)데이터 가치창출과정은 실시간으로 수집 및 분류되고 또한 실시간으로 저장 및 연산처리 과정이 진행되기 때문에 단계별 진행이라기 보다는 동시진행의 특징을 가지고 있다. 본 단락에서는 그러나 가치창출과정에 대한 분석의 편의성을 위해 단계별로 서술되고 있다.
  11. MapReduce의 오픈소스 실현 형태가 Hadoop이다: http://hadoop.apache.org/mapreduce/
  12. 대용량 데이터 시각화와 관련된 기술은 다음과 같다: GnuPlot(http://www.gnuplot.info/), Processing (http://processing.org/), ManyEyes(http://www-958.ibm.com/software/data/cognos/manyeyes/) 등.
  13. 이와 대조적으로 Porter(1985)의 가치창출구조 또는 공급사슬 이론은 생산, 유통 그리고 소비로 이어지는 단계성 및 선형성(linearity)을 그 특징으로 하고 있으며, 최종 단계에 있는 소비자의 추가가치 행위에 대한 분석을 결여하고 있다.
  14. 월드와이드웹, 클라우드컴퓨팅, 스마트폰처럼 독립적인 복수의 기술이 결합되어 새로운 기술 및 경제 혁신을 가능케하는 기술을 “Enabling Technology”라고 한다(Neches, et. al. 1991). Enabling Technology는 관련 플랫품의 형성, 유지, 발전에 기여하는 기초 기술환경이며 Enabling Technology의 진화는 관련 플랫품의 경제성 상승과 정(+)의 상관관계를 가지고 있다(ibid.).
  15. 클라우드 컴퓨팅은 데이터 상품의 가치창출구조 또는 생산과정 전체 단계에서 요구되는 기술이기에 에서 클라우드 컴퓨팅은 점선 형식으로 프로세스 전체를 포괄하고 있다.
  16. Hammerbacher(2009)는 서로 다른 데이터 상품이 관계 맺는 플랫폼을 ‘데이터 공간(Dataspace)’라 칭하고 있다.
  17. 또 다른 중간재의 예로는 페이스북의 엣지랭크(EdgeRank)를 들 수 있다. 개별 사용자의 뉴스피드의 양은 해당 사용자의 친구관계망이 확장될 수록 증가한다. 이 때 발생되는 정보과잉(information overload)을 해결하기 위해 페이스북에 의해 제공되는 데이터 상품이 엣지랭크다. 엣지랭크는 페이스북 친구 사이의 상호작용 빈도 및 시기를 기준으로 뉴스피드의 순서를 결정하는 ‘추천 알고리즘’이다.
  18. 2.1.에서 설명한 것처럼 가공되지 않은 데이터 또는 해석과정 이전의 데이터(data as data)는 데이터 상품으로 볼 수 없다.
  19. 디지털 미디어 콘텐츠와 데이터 상품을 구별하는 특징에 대한 보다 자세한 연구는 다음 기회에 진행할 계획이다.
  20. CDDB는 오디오 CD의 개별 곡(track)에서 뮤지션, 제목, 길이, 장르 등의 데이터를 추출해 이를 웹에서 사용할 수 있게한 데이터베이스다. 참조: http://en.wikipedia.org/wiki/CDDB
  21. 비가시적 데이터 상품의 다양한 사례는 Loukides 2011b 참조.
  22. 데이터 가치창출구조의 각 단계에서 해석능력이 요구되는 단계는 에서 ①, ②, ③, ④, ⑤로 표시되어 있다.
  23. 특히 김성태 한국정보화진흥원장 서울신문 기고 (2012년 3월 28일). http://muz.lu/CbfcE
  24. 미국 연방법원은 2009년 IP 주소를 개인식별정보가 아니라고 판결하였으나 유럽연합 국가들은 IP 주소를 개인식별정보로 분류하고 있다. 참조: http://www.mediapost.com/publications/article/109242/