[연구노트] 혁신과 위험의 빅데이터, 긴장과 균형

(미 완성 글이지만, 피드팩을 부탁드립니다.)

“The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it — that’s going to be a hugely important skill in the next decades.” (Varian, H. R. 2009)

1. 도입: 빅데이터의 도전

인 터넷은 지난 반세기 동안 기계와 기계사이 소통수단, 사람과 사람사이 소통수단, 사물과 사물사이 소통수단 등으로 기능을 확장하며 상하수도망, 전기망과 같은 사회운영의 기본망으로 성장 및 진화하고 있다. 나아가 인터넷과 월드와이드웹을 통해 형성되고 있는 가상세계는 첨차 실세계와 유사성을 띄어가면서 가상세계와 실세계 사이의 차이가 첨차 사라지고 있다는 주장도 등장하고 있다(Adams 2012, Dueck 2012). 세계 곳곳에서 진행되는 주식거래 및 은행거래가 디지털 처리되고 있으며, 슈퍼마켓에서 이루어지는 개별 소비자의 구매행위가 신용카드 및 고객카드를 통해 해당 기업의 전산망에서 디지털 데이터 형식으로 기록, 저장 및 분석되고 있다. 또한 개인 휴대폰에 데이터로 저장된 전화번호는 개인과 개인을 연결하는 식별자(identifier) 및 노드(node)에서 최근 스마트폰의 대중화와 함께 매일 수백만 개의 메시지 데이터가 오고가는 ‘거대 네트워크 노드’로 진화하고 있다. 실세계의 모든 객체 (node)정보, 객체 사이의 연결(edge)정보, 연결망(network)을 통해 교환 및 집적되는 상태정보, 행위 정보 및 상호작용 정보가 가상세계에서 비트 데이터 형식으로 존재하면서 가상세계는 실세계와 보다 유사해지고 있다.

CCTV 정보, 전자지문 정보, 유전자 정보 등 국가기구에 의해 수집되는 센서 데이터의 증가, 오픈 데이터 정책에 따라 공개되는 정부 및 의회 정보의 확대, 빠른 속도로 늘어나는 디지털 개인 의료정보, 기업활동에 의해 생산된 기업정보와 기업과 소비자 사이에서 발생하는 상호작용정보와 소비자 행위정보의 증가, 인터넷과 월드와이드웹을 통해 생산 및 처리되는 데이터 양의 팽창 등 데이터의 총량은 최근 폭발적 상승세를 보이고 있다. 또한 데이터 분석시스템이 전통적인 데이터 분석도구로서는 데이터 증가 속도를 따라가지 못하는 현상과 대용량 데이터를 분석하는 전문 인력이 부족한 현상 등이 사회문제 및 경제문제로 지적되고 있다. 이렇게 ① 전례없이 빠른 속도로 급팽창하는 데이터의 양, ② 이를 저장, 분석 및 해석하는 전통 기술시스템의 한계[1], ③ 대용량 데이터에 대한 진화된 저장기술, 분석기술 및 시각화기술 그리고 ④ 대용량 데이터에 기반으로 컴퓨터과학 및 사회과학에서 진행되는 새로운 연구방법 등과 관련된 현상을 미디어, 산업계, 학술 영역에서 총칭하는 개념으로 ‘빅데이터’가 사용되고 있다(Albanese 2010, Boyd 2010, Economist 2010, Loukides 2011a, Croll 2012, Dumbill 2012).

또 한 빅데이터 현상을 분석하는 일렬의 분석에는  빅데이터 처리능력이 기업 또는 국민경제의 생산성 향상 및 경쟁력 강화로 이어질 수 있다는 “데이터 산업혁명(Economist 2010, McKinsey 2011)” 주장과 전통적 학술 방법론으로는 트위터 및 페이스북 사용자의 관계망과 행위 정보를 (실시간으로) 분석할 수 없다는 이른바 “이론의 종말 The End of Theory(Anderson 2008)” 주장 등도 포함되어 있다. 그러나 생산성 및 경쟁력과 결부된 ‘시장재화로서의 빅데이터’는 과연 무엇을 의미하는가, ‘시장재화로서의 빅데이터’의 생산구조 및 가치창출구조의 특징은 무엇인가 등 빅데이터의 시장구조에 대한 질문은 여전히 그 답을 기다리고 있다. 다시 말해 빅데이터와 관련된 다양한 시장행위자와 이들의 의해 진행되는 시장행위 그리고 이를 둘러싼 시장환경에 대한 체계적인 연구는 아직까지 시작되지 못하고 있다. 다른 한편 연구자가 대용량 데이터에 손쉽게 접근할 수 있는 가능성[2]이 확대되면서 설문, 인터뷰 및 실험 등 표본조사에 기초한 연구방법론에 대한 무용론도 등장하고 이다(Boyd 2010). 그러나 표본의 절대량 증가가 전체성(wholeness) 및 표본의 대표성(representativeness)으로 대치될 수는 없다. 따라서 빅데이터 기반 연구방법론에 대한 비판적 성찰이 절실하다(ibid.).

따 라서 본 연구는 빅데이터에 대한 비판적 분석체계를 구성하는 것을 목표로 ① 빅데이터의 물리적 특성 분석, ② 시장에서 거래되는 상품으로서의 데이터에 대한 정의와 데이터 상품의 가치창출구조 및 특성 분석, ③ 데이터 상품화 과정과 관련된 다양한 기술적 도전, ④ 빅데이터 생산, 유통 및 소비과정에서 발생할 수 있는 ‘개인정보보호’ 등 사회적 위험성과 빅데이터 기반 연구방법론의 위험성을 살펴보고자 한다.

2. 상품으로서의 빅데이터

2.1. 데이터와 해석된 데이터

빅 데이터에서 지칭되는 ‘데이터 (data)’에 대한 정의는 이를 다루는 학문영역에 따라서 작지않은 차이를 보이고 있다. (네트워크) 경제학자인 Shapiro와 Varian의 경우 데이터와 정보 (information)를 동일시하며 이를 매우 포괄적으로 해석하고 있다(Shapiro/Varian 1999). 그들은 디지털화가 가능한 모든 것을 정보 또는 정보재(information goods)로 정의[3]하고 “야구경기 점수, 책, 데이터베이스, 매거진, 영화, 음악, 주식 시세, 웹 페이지” 등을 데이터 및 정보재로 분류하고 있다(ibid.). 이에 반해 기호학의 경우 기호와 기호를 통해 표현된 사물의 관계를 연구하는 의미론(semantics), 기호와 기호 사이의 연결 및 관계를 연구하는 통사론(syntactics) 그리고 기호 사용자(subject)에 대한 기호의 영향을 분석하는 화용론 (Pragmatics) 등 3개 층위에서 각각 기호(sign), 데이터(data) 그리고 정보(information)를 구별한다(Liebenau/Back- house 1990, Wikipedia 2012). 이러한 기호학의 인식은 컴퓨터 과학에서 데이터를 기호 및 정보와 구별하는 접근법과 유사성을 가지고 있다(Stamper 1985). 아래 <그림 1>처럼 신호는 규칙(semantics)과 연결되어 데이터로 변화한다. 또한 컴퓨터 과학에서는 데이터가 특수한 의미문맥을 통해 해석된 것이 정보로 간주된다(ibid.). 다시 말해 특정 데이터가 분석가 또는 분석 시스템에 해석된 결과물이 정보이다. 본 연구에서는 컴퓨터 과학의 분류법을 따라 시스템 및 인간행위의 결과물로서의 데이터를 데이터 상품(data product) 또는 해석된 데이터 (interpreted data)로 칭하고 데이터 생산물을 해석과정 이전의 데이터(data itself/data as data)와 구별하고자 한다.

<그림 1: 데이터와 해석된 데이터> (강정수)

2.2. 데이터 생산과정 및 가치창출구조: 피드백 경제

빅 데이터의 경제성을 논한다면 이는 인터넷, 월드와이드웹 등 디지털 네트위크에서 분산되어 존재하는 거대한 규모의 데이터 자체(data itself/data as data)에 기초한 것이 아니라 이를 처리하여 다양한 경제 및 학술 분야에서 활용되는 해석된 데이터(interpreted data)  또는 데이터 생산물(data product)를 대상으로 한다. 따라서 데이터 자체가 데이터 생산물로 전환 및 변화 (transition & transformation)되는 과정에 대한 체계적 이해는 빅데이터 경제성 연구의 주요한 분석틀[4]로 기능할 수 있다. 아래에서는 문헌연구와 실제 데이터 분석 경험[5]에 기초하여 데이터 가치창출구조에 대한 형상화를 시도한다(<그림 2> 참조). <그림 2: 데이터 가치창출 구조> (강정수, 참조: Dumbill 2012)

 데이터 가치창출의 첫번째 단계는 데이터 수집(data collection)이 다. 데이터는 상거래 정보 및 공공 정보 등 전통적인 데이터 공급원 뿐 아니라 월드와이드웹과 스마트미디어에 남겨지는 개별 사용자의 ‘사용자취(digital trace/information trails/data shadows/data exhaust)[6]’를 통해 수 집된다. 또한 페이스북, 트위터, 유튜브, 사운드클라우드 등 일렬의 웹서비스는 풍부한 API를 통해 외부 서비스 사업체 및 개별 개발자에게 전례없이 손쉬운 방식으로 사용자 데이터에 대한 탐색 가능성을 제공하고 있다. 한편 데이터 수집이 주는 기술적 도전은 이러한 수집 가능한 데이터 양의 상대적 증가와 함께 데이터 수집의 속도에 놓여 있다. 다양한 공급처로부터 실시간으로 수집되는 대용량 데이터는 수집 병행성이라는 과제와 함께 수집 속도의 과제를 제기하고 있기 때문이다(Agrawal et. al. 2011, Dumbill 2012)[7].

데이터 수집의 다음 단계는 데이터 조절(data conditioning)이 다. 수집되는 데이터의 대부분은 ① 동일한 구조형식의 데이터가 아니며[8], ② 대량의 불필요한 데이터(data garbage)를 포함하고 있기 때문에 이후 단일한 구조 내에서 조작가능한 형식으로 전환되어야 함과 동시에 불필요한 데이터에 대한 정제작업이 필요하다. 또한 데이터를 분류하기 위한 해석 작업이 동시에 진행된다. 이를 위해 다양한 파싱(parsing) 기법과 의미가 모호한 데이터를 분류하기 위해 자연어 사전에 기초한 기계학습(machine learning) 프로그램[9]이 사용된다. 그러나 이러한 자연어 처리 과정을 통해 모든 데이터가 이후 분석 및 분류 가능한 형태로 정제되지는 않는다. 이때 인간의 판단력이 직접 투입되어야 하는 필요성이 제기된다. 아마존이 운영하는 Mechanical Tuck은 기계학습에 의해 처리되지 못한 불필요한 데이터를 사람의 해석 및 판단에 따라 정제 및 분류하는 대표적인 시스템이다. 이러한 사람에 의한 데이터 정제과정을 인간탐사(human exploration)라 칭한다(Dumbill 2012).

이러한 기계와 사람의 정제과정과 동시에[10] 데이터는 데이터 저장과정(data storage operation)을 거치게 된다. 저장기술과 관련된 도전 또한 데이터 ‘양’이 아닌 ① 분산되고 탈구조화된 데이터 수집원과 ② 수집된 데이터의 비일관성과  복잡성에 놓여있다(Loukides2011a). 이러한 데이터 저장에서 발생한 기술적 도전과 관련하여 NoSQL, Cassandra, HBase 등 비관계형 데이터베이스 기술이 지속적으로 발전하고 있다. 비관계형 데이터베이스에 저장된 대용량 데이터의 연산처리를 위한 MapReduce[11] 등 다양한 병렬연산처리 기술영역과 이에 기초한 분산형 파일시스템 기술영역에서 혁신이 진행되고 있다.

데이터 저장과정과 동시에 또는 그 이후 진행되는 단계는 데이터 분석과 통합(data analysis & mashup)이다. 데이터 저장과 함께 방대하고 분산되고 일치성이 떨어지는 데이터에 대한 서로 다른 가설에 대한 검증작업과 이에 필요한 서로 다른 알고리즘 적용이 이뤄진다. 이러한 실시간 데이터 분석을 위해 Hadoop Online Prototype(HOP)과 같은 스트림 프로세싱 연산처리 기술과 R Language 등 다양한 통계 기법이 사용된다. 빅데이터의 가치는 거대한 양의 데이터의 존재를 의미하는 것이 아니라 일치성이 떨어지고 분산되어 존재하는 데이터로 사용자 및 소비자에게 유의미한 결과값을 도출하는 작업에 놓여있다(Boyd 2010, Loukides 2011a). 따라서 표본에 기초하고 있는 전통적인 통계 방법론은 새로운 병렬연산처리 기술 및 대용량처리 기술과 상호보완 관계를 이루며 데이터 분석과정에서 유효성을 상실하지 않고 있다. 또한 데이터 통합과 분석에서 개발, 검증 및 적용되는 알고리즘은 통계적 연산 방정식과 다름 없다. 가설을 세우고 검증하는 과정에서 중요한 또 다른 과정은 서로 다른 데이터베이스의 통합 또는 융합(mashup)이다(Loukides 2011b). 예를들어 음악추천 알고리즘위해 개별 사용자의 음악소비 역사데이터 뿐 아니라 해당 사용자의 문화소비패턴 분석데이터, 친구관계망에서 수집된 음악 관련 상호작용데이터 등이 결합된 데이터 집합이 활용되고 있다.

데이터 수집, 처리 및 분석의 결과물이 상품화되는 마지막 단계는 데이터 스토리텔링 및 시각화(data storytelling & visualization)다. 데이터 분석 및 통합 과정을 거친 결과는 언제나 수치(numerical value)다. 수치가 의미하는 것을 전달하기 위해서는 결과값에 대한 시각화가 필수적이다. 지도데이터와 결합된 전염병 확산데이터, 위치데이터와 시간데이터가 결합된 ‘시내버스’ 앱, 음향파동을 형상화한 사운드클라우드(www.soundcloud.com)의 개별 음악데이터 등 시각화[12]는 데이터 상품화의 마지막 단계로서 데이터의 문맥화를 통한 해석작업이다.

상 품화되어 사용자 및 소비자에게 제공되는 데이터는 그 소비과정에서 사용자에 의한 사용자취(digital trace) 생산의 매개가 된다. 이렇게 생산된 사용자취는 데이터 수집 단계로 이어지면서 데이터 수집원으로 기능한다. 예를 들면 개별 소비자의 아마존(amazon) 책 구매 데이터 또는 평가 데이터는 다시 데이터 분석대상이 되어 아마존의 추천 알고리즘을 진화시키는 추가가치(added value)를 가지고 있다. 다시 말해 소비과정에서 발생하는 사용자취는 데이터 가치창출과정의 첫 단계인 데이터 수집과 연결되는 피드백 고리(feedback loop)의 역할을 담당한다. 이러한 피드백 고리는 데이터 수집, 데이터 조절, 데이터 분석 등과 사용자취를 반복(iteration)적으로 연결시키는 것을 통하여 빅데이터 기술진화에 주요 역할을 담당하게 된다(Loukides 2011a, Loukides 2011b, Dumbill 2012). 이러한 반복성 또는 재귀성 (recursiveness)은 데이터 가치창출구조의 구조적 특징[13]이라 할 수 있다.

한편 데이터 상품의 가치창출구조 전체의 순환성을 가능케하는 것이 피드백 고리라면 클라우드 컴퓨팅(cloud computing)은 데이터 상품 가치창출구조의 기술적 기반시설 역할을 담당한다(Agrawal et. al. 2011). 대용량 데이터 처리에 있어 높은 기술 탄력성, 사용량에 따른 요금제와 이에 따른 낮은 초기 비용투자, 위험 분산효과, 데이터 상품의 시장진출 시간단축(low time to market) 등 클라우드 컴퓨팅 기술은 빅데이터의 수집, 조절, 저장, 분석, 시각화 과정에서 다양한 경제적 장점을 제공한다. 클라우드 컴퓨팅은 이와 동시에 거대한 양의 데이터 처리능력을 제공하고 데이터 수집, 조절 및 분석의 동시작업을 가능케 하는 등 클라우드 컴퓨팅은 데이터 상품 전체 생산과정에서 반드시 필요한 기술조건이다(ibid.)[14][15].

그 러나 <그림 2>에 표현된 데이터 가치창출구조는 ‘하나의’ 데이터 상품과 관련된  가치창출구조를 보여주고 있을 뿐 독립된 복수의 데이터 상품이 데이터 분석 및 통합 단계에서 결합되는 과정을 형상화하지 못하는 약점을 가지고 있다. 예를들어 페이스북 개별 사용자의 뉴스피드 분석을 기초로 개별 사용자에게 방송프로그램, 음악, 영화를 추천하는 데이터 상품에는 이미 뉴스피드에 적용되고 있는 페이스북 엣지랭크(EdgeRank)라는 데이터 상품이 결합되고 있다. 이렇게 공존하며 상호작용하는 서로 다른 데이터 상품의 가치창출구조 사이에 존재하는 관계성 및 의존성에 대해 <그림 2>는 설명하지 못하고 있다. 이를 위해서는 서로 다른 데이터 가치창출구조를 연결하는 API(Application Program Interface)의 역할 분석, 서로 다른 데이터 상품 사이에 존재하는 가치창출 기여도에 대한 분석 등 보다 실증적인 연구가 요구된다[16].

2.3. 데이터 상품 분류: 가시적 데이터 상품과 비가시적 데이터 상품

데 이터 가치창출과정에서 생산되는 데이터 상품, 다시 말해 시스템과 인간의 해석과정을 거친 데이터 상품은 구글의 페이지랭크(PageRank)처럼 소비자의 눈에 직접 보이지는 않으나 검색결과의 품질을 결정하는 중간재(intermediary goods)[17]로 기능하거나 또는 ‘서울버스’ 앱처럼 버스의 GPS기반 위치정보를 시각화한 최종 소비재의 형태로도 제공되기도 있다[18]. 디지털 오디오 파일, 디지털 비디오 파일, 전자책 등은 디지털 데이터 형식을 띄고 있는 미디어 콘텐츠로서 본 연구에서는 데이터 상품으로 분류하지 않는다. 여기서 언급한 미디어 콘텐츠는 디지털 데이터 그 자체이며 이에 반해 데이터 상품은 ‘데이터에 기초한 결과물’이다. 예를 들어 미디어 콘텐츠인 디지털 오디오 파일의 메타데이터(metadata)를 시각화한 것에 다름아닌 아이튠즈(iTunes)는 데이터 상품이다[19].

Loukides(2011b) 는 중간재, 최종 소비재 등 전통적인 시장재화 구분법이 아닌 다른 방식으로 데이터 상품을 분류하고 있다. 오디오 CD의 데이터 상품인 CDDB[20], 페이스북의 친구추천, 트위터의 팔로잉 추천, 버스 도착시간 및 버스 위치를 알려주는 ‘서울버스’ 앱, 교통혼잡 정도를 시각화하여 보여주는 ‘다음지도’ 앱과 ‘네이버 지도’ 앱 등은 데이터에 기초한 결과물을 다시금 (시각화된) 데이터로 보여주는 데이터 상품으로 분류할 수 있다. Loukides(ibid.)는 이를 가시적 데이터 상품(overt data product)이라 칭하면서 현존하는 대다수의 데이터 상품을 가시적 데이터 상품으로 분류하고 있다. 가시적 데이터 상품보다 진일보한 데이터 상품은 Loukides의 주장에 따르면 비가시적 데이터 상품(covert data product)이다. 비가시적 데이터 상품의 대표적인 예는 구글과 포드(Ford)에 의해 공동으로 개발되고 있는 ‘하이브리드 자동차 스마트 서비스’다.  이 서비스는 운전자의 과거 운전 데이터를 기계학습하고 실시간으로 수집되는 교통정보 데이터를 분석하여 교통혼잡지역을 피함과 동시에 운전자의 운전습관에 기초하여 가장 에네지를 절약하는 방식으로 운전자의 목적지 경로를 추천한다. 다시 말해 구글과 포드의 이 서비스는 자동차 엔진의 효율적 사용과 에너지 절약을 교통정보 및 도로정보 제공보다 부각시킨다. 이렇게 데이터 분석의 결과물에서 데이터 스스로가 강조되지 않는 상품을 Loukides는 비가시적 데이터 상품으로 분류[21]하며 실생활의 편익을 증대시킬 수 있는 비가시적 데이터 상품의 확대에서 데이터 상품의 긍정적 경제 및 사회 기여도를 찾고 있다(ibid.).

3. 빅데이터 가능성과 위험성의 긴장관계

3.1 가능성: 데이터 상품시장과 데이터 기술시장

전 사회적인 디지털화는 현재 빠른 속도로 진행되고 있다. 스마트폰 3천 만 시대가 눈 앞으로 다가오고 있으며 다양한 가전제품과 자동차 등이 인터넷으로 연결되는 사물의 인터넷(internet of things) 또한 초기단계를 넘어 본격적인 발전경로에 진입하고 있다. 또한 디지털화는 인간 개개인과 사물을 데이터 생산체(digital data generator)이자 동시에 데이터 소비자로 전환시키고 있다. 한편 1장과 2장에서 살펴본 것처럼 데이터의 경제적 가치는 기하급수적으로 증가하는 데이터의 양에 존재하지 않는다. 분산되어 존재하고 일관성 없는 거대한 양의 데이터를 분석 및 해석을 통해 소비자 편익을 증대시킬 수 있는 다양한 데이터 상품이 형성하는 데이터 상품시장의 규모와 수준에 따라 데이터 경제성은 평가 및 예측될 수 있다. 따라서 개별 경제주체-개인, 기업 및 국가-에게 중요한 것은 데이터 소유가 아닌 2장에서 서술된 각 데이터 가치창출단계의 기술능력 및 해석능력[22]과 각 가치창출단계를 아우르는 Enabling Technology인 클라우드 컴퓨팅 능력이다.

따라서 ‘빅데이터 미래(시장)가치’를 논하기에 앞서 한 사회가 가지고 있는 기술능력, 해석능력 그리고 클라우드 컴퓨팅 능력에 대한 정밀한 평가가 선행되어야 한다. 이러한 관점에서 볼 때 최근 한국 대중매체를 통해 쏟아지는 ‘빅데이터 바람’[23]은 근거없는 낙관에 불과하다.

3.2 위험성: 개인식별정보와 해석과정

빅데이터 가치창출구조와 데이터 상품시장의 위험성은 크게 두가지 차원에서 논의할 수 있다.

첫 째는 데이터 수집 및 분석 과정에서 개인식별정보(Personally Identifiable Information)가 활용될 수 있다는 점이다. 온라인 실명제-제한적 본인확인제-와 연관되어 웹 서비스 업체에 입력된 주민등록번호, 전화번호 등 개인식별정보가 유출되어 보이스피싱, 선거용 문자메시지 등에 활용되고 있는 점에서 유추가능한 것은 개인식별정보에 대한 수요시장이 존재한다는 점이다. 개인식별정보에 대한 수요시장은 데이터 가치창출구조의 데이터 수집 단계에서 개인식별정보가 수집, 활용 및 유출될 수 있는  강력한 위험요소다. 또한 IP주소가 나라에 따라 개인식별정보로 분류되는 경우와 그렇지 않은 경우가 존재하듯[24], 소셜 미디어, 사물의 인터넷 등을 통해 현재 생산되고 있고 이후 생산될 수 있는 다양한 종류의 데이터 중 개인식별정보에 대한 지속적인 분류와 이에 대한 법적, 윤리적 규제 장치 마련에 어려움이 존재한다.

두 번째 위험성은 데이터 해석과정에서 나타날 수 있는 연구방법론의 오류이다. Boyd(2010)는 전체성 함정, 정확성 함정, ‘what’과 ‘why’의 혼동, 해석의 오류 가능성 등 네 가지의 빅데이터 기반 연구방법론의 위험성을 지적하고 있다. 전체성 함정은 표본의 절대량 증가에 따라 전체성(wholeness)과 표본의 대표성 (representativeness)을 혼동하는데서 발생할 수 있다. 정확성 함정은 데이터 양이 증가하면 바이어스가 축소되어 정확성이 높아진다는 잘못된 ‘믿음’에서 기인한다. ‘what’과 ‘why’의 혼동은 특히 소셜 데이터 중 행위데이터와 상호작용데이터를 분석하는 과정에서 빈번하게 발생한다. 코카콜라 페이스북 팬페이지의 행위데이터 및 상호행위데이터-좋아요 수, 댓글 수 등-는 현재 약 5천만 명이 넘는 페이스북 사용자가 ‘왜’ 코카콜라의 포스트를 구독하는지에 대한 이유는 설명하지 못한다. Boyd에 따르면 소셜 데이터 분석을 통해 어떤 질문에 대해서 답변이 가능한지 반대의 경우는 무엇인지에 대한 인식이 대다수 연구자에게 결여되어 있다. 끝으로 질적 방법 연구자는 스토리를 해석하고 양적 방법 연구자는 사실(fact)을 찾아낸다는 잘못된 믿음이 빅데이터 연구에도 유지되고 있다. < 그림 2>의 ①, ②, ③, ④, ⑤은 데이터 가치창출단계에서 진행되는 해석작업을 표시하고 있다. 어떤 데이터를 수집하고, 무엇을 계측할지 등 데이터 연구는 언제나 해석의 연장성이다.

- 참고문헌 -

Adams, P., 2012. Grouped: How small groups of friends are the key to influence on the social web, Berkeley, CA.

Agrawal, D. / Das, S. / Abbadi, A. E., 2011. “Big Data and Cloud Computing: Current State and Future Opportunities”, in: EDBT/ICDT ’11 Proceedings of the 14th International Conference on Extending Database Technology, New York. http://dl.acm.org/citation.cfm?id=1951432

Anderson, C., 2008. “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, in: Wired (16.07) http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

Albanese, E., 2010. “Scaling Social Science with Hadoop”,
http://www.cloudera.com/blog/2010/04/scaling-social-science-with-hadoop/

Boyd, D., 2010. “Privacy and Publicity in the Context of Big Data”, WWW. Raleigh, North Carolina, April 29, http://www.danah.org/papers/talks/2010/WWW2010.html

Croll, A., 2012. “The Feedback Economy”, in: Dumbill (Edt.). Planning for Big Data, eBook, http://shop.oreilly.com/product/0636920025559.do

Dueck, G., 2012. Professionelle Intelligenz: Worauf es morgen ankommt, Frankfurt am Main.

Dumbill, E., 2012. “What is Big Data”, in: Dumbill E. (Edt.), Planning for Big Data, eBook, http://shop.oreilly.com/product/0636920025559.do

Economist 2010. “Data, data everywhere”, http://www.economist.com/node/15557443

Hammerbacher, J. 2009. “information platforms as dataspaces”, in: Segaran, T. / Hammerbacher, J. (edit.). Beautiful Data: The Stories Behind Elegant Data Solutions, eBook, http://shop.oreilly.com/product/9780596157128.do

Liebenau, J. / Backhouse, J., 1990. Understanding Information: An Introduction, Basingstoke.

Loukides, M., 2011a. “What is data science?”, in: O’Reilly Radar Team (Edt.). Big Data Now, eBook, http://shop.oreilly.com/product/0636920022640.do

Loukides, M., 2011b. The Evolution of Data Products, eBook, http://radar.oreilly.com/2011/09/evolution-of-data-products.html

McKinsey Global Institute 2011. Big data: the next frontier for innovation, competition, and productivity, McKinsey & Company, http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation

Neches, R., Fikes, R. E., Finin, T., Gruber, T., Patil, R., Senator, T., Swartout, W. R. 1991. “Enabling Technology for Knowledge Sharing”, in: AI Magazine, Vol. 12, No. 3., p. 47-56.

Porter, M., 1985. Competitive Advantage: Creating and Sustaining Superior Performance, New York et al.

Shapiro, C. / Varian, H. R., 1999. Information Rules – a strategic guide to the network economy, Boston, Mass.

Stamper, R. K., 1985. “Toward a theory of information: Mystical fluid or a subject for scientific enquiry?” in: The Computer Journal, Vol. 28, No. 3, p 195-199.

Wikipedia 2012. Semiotics, http://en.wikipedia.org/wiki/Semiotics (2002. 3. 26.)

Footnotes    (↵ returns to text)
  1. 데이터의 양(quantity)은 ‘빅’데이터를 정의할 수 있는 기준이 될 수 없다. 이미 1990년대부터 통신회사 및 은행 등은 거대한 양의 디지털 데이터를 저장하고 있기 때문이다. Loukides(2011a)은 “big data is when the size of the data itself becomes part of the problem.”, Dumbill(2012)은 “Big data is data that becomes large enough that it cannot be processed using conventional methods”라고 정의하면서 현존하는 데이터 시스템으로 분석하지 못하는 규모의 데이터를 빅데이터로 정의하면서 데이터 양의 기술적 상대성을 강조하고 있다.
  2. Vinton Cerf의 표현을 재인용(Boyd 2010): “We never, ever in the history of mankind have had access to so much information so quickly and so easily”.
  3. “Anything that can be digitized – encoded as a stream of bits – is information” (Shapiro/Varian 1999: 3).
  4. Porter(1985)의 가치창출구조(Value Chain) 분석방법론은 하나의 재화가 생산, 유통 및 소비되는 과정에 참여하는 개별 경제주체의 ‘추가가치(added value)’ 행위와 이들 사이의 관계를 분석하는 틀이다. Porter의 가치창출구조는 1개 기업차원(firm level)의 분석틀에서 관련 산업계(industry level)의 분석틀-공급사슬(supply chain)-까지 확장가능하다.
  5. 2011년 11월부터 831개에 이르는 국내 뮤지션 및 밴드의 소셜 데이터-facebook, twitter, youtube- 마이닝 작업이 진행되고 있다. 참조: http://chart.muzrang.com/
  6. 월드와이드웹에서 방문 시간, 체류시간, 클릭 패턴, 검색 역사 등의 사용자취는 로그파일(logfile)에 매우 자세하게 기록된다. 또한 진화하는 스마트폰 기술은 개별 사용자의 위치정보, 날씨정보, 인근 네트워크 망 정보 등의 데이터 수집을 가능하게 한다. 이 때 스마트폰은 데이터를 공급하는 ‘데이터 센서(data sensor)’ 기능을 담당한다(Dumbill 2012). 따라서 스미트 미디어 및 사물의 인터넷(internet of things)의 확산 등 사회의 디지털화는 인간 일상의 부산물로 방대한 양의 데이터를 생산 가능케 한다(Albanese 2010).
  7. 데이터 수집 과정에는 개인식별정보(Personally Identifiable Information) 수집 금지 등 다양한 법적 제약이 존재한다.
  8. 수집되는 데이터의 대다수는 기계에 의해 자동으로 읽힐 수 있는(machine-readable) 형식이 아니다. 또한 동일 데이터도 데이터 저장 및 생산 디바이스에 따라 다른 형식으로 수집되는 경우도 존재한다. 그러나 최근 수집되는 많은 데이터 형식은 XML 등 기계수집이 가능한 구조형식으로 진화하고 있다(Loukides 2011a).
  9. 기계학습 프로그램은 이를 위한 라이브러리를 필요로 한다. 관련 오픈소스 라이브러리는 다음과 같다: http://pybrain.org/, http://elefant.developer.nicta.com.au/, http://mahout.apache.org 등.
  10. (빅)데이터 가치창출과정은 실시간으로 수집 및 분류되고 또한 실시간으로 저장 및 연산처리 과정이 진행되기 때문에 단계별 진행이라기 보다는 동시진행의 특징을 가지고 있다. 본 단락에서는 그러나 가치창출과정에 대한 분석의 편의성을 위해 단계별로 서술되고 있다.
  11. MapReduce의 오픈소스 실현 형태가 Hadoop이다: http://hadoop.apache.org/mapreduce/
  12. 대용량 데이터 시각화와 관련된 기술은 다음과 같다: GnuPlot(http://www.gnuplot.info/), Processing (http://processing.org/), ManyEyes(http://www-958.ibm.com/software/data/cognos/manyeyes/) 등.
  13. 이와 대조적으로 Porter(1985)의 가치창출구조 또는 공급사슬 이론은 생산, 유통 그리고 소비로 이어지는 단계성 및 선형성(linearity)을 그 특징으로 하고 있으며, 최종 단계에 있는 소비자의 추가가치 행위에 대한 분석을 결여하고 있다.
  14. 월드와이드웹, 클라우드컴퓨팅, 스마트폰처럼 독립적인 복수의 기술이 결합되어 새로운 기술 및 경제 혁신을 가능케하는 기술을 “Enabling Technology”라고 한다(Neches, et. al. 1991). Enabling Technology는 관련 플랫품의 형성, 유지, 발전에 기여하는 기초 기술환경이며 Enabling Technology의 진화는 관련 플랫품의 경제성 상승과 정(+)의 상관관계를 가지고 있다(ibid.).
  15. 클라우드 컴퓨팅은 데이터 상품의 가치창출구조 또는 생산과정 전체 단계에서 요구되는 기술이기에 에서 클라우드 컴퓨팅은 점선 형식으로 프로세스 전체를 포괄하고 있다.
  16. Hammerbacher(2009)는 서로 다른 데이터 상품이 관계 맺는 플랫폼을 ‘데이터 공간(Dataspace)’라 칭하고 있다.
  17. 또 다른 중간재의 예로는 페이스북의 엣지랭크(EdgeRank)를 들 수 있다. 개별 사용자의 뉴스피드의 양은 해당 사용자의 친구관계망이 확장될 수록 증가한다. 이 때 발생되는 정보과잉(information overload)을 해결하기 위해 페이스북에 의해 제공되는 데이터 상품이 엣지랭크다. 엣지랭크는 페이스북 친구 사이의 상호작용 빈도 및 시기를 기준으로 뉴스피드의 순서를 결정하는 ‘추천 알고리즘’이다.
  18. 2.1.에서 설명한 것처럼 가공되지 않은 데이터 또는 해석과정 이전의 데이터(data as data)는 데이터 상품으로 볼 수 없다.
  19. 디지털 미디어 콘텐츠와 데이터 상품을 구별하는 특징에 대한 보다 자세한 연구는 다음 기회에 진행할 계획이다.
  20. CDDB는 오디오 CD의 개별 곡(track)에서 뮤지션, 제목, 길이, 장르 등의 데이터를 추출해 이를 웹에서 사용할 수 있게한 데이터베이스다. 참조: http://en.wikipedia.org/wiki/CDDB
  21. 비가시적 데이터 상품의 다양한 사례는 Loukides 2011b 참조.
  22. 데이터 가치창출구조의 각 단계에서 해석능력이 요구되는 단계는 에서 ①, ②, ③, ④, ⑤로 표시되어 있다.
  23. 특히 김성태 한국정보화진흥원장 서울신문 기고 (2012년 3월 28일). http://muz.lu/CbfcE
  24. 미국 연방법원은 2009년 IP 주소를 개인식별정보가 아니라고 판결하였으나 유럽연합 국가들은 IP 주소를 개인식별정보로 분류하고 있다. 참조: http://www.mediapost.com/publications/article/109242/

3 thoughts on “[연구노트] 혁신과 위험의 빅데이터, 긴장과 균형

  1. 빅데이터에 대한 통합적 관점에서의 글이네요
    학문적 고찰, 기술적 관점, 비즈니스적 관점 등
    잘 읽고 갑니다
    글 완성되면 저희 빅데이터 커뮤니티에도 보내주세요

  2. Pingback: 빅데이터: 이론의 종말 아닌 질문의 시작 | 베를린로그 by 강정수

  3. Pingback: 빅데이터: 이론의 종말 아닌 질문의 시작 | 르호봇

Leave a Reply

Your email address will not be published. Required fields are marked *

* Copy This Password *

* Type Or Paste Password Here *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>