기자명 한국편집기자협회 (edit@edit.or.kr)

윤여광의 편집인사이트


<11>뉴스 콘텐츠의 새로운 가치 ‘빅데이터(Big Data)’


에릭 슈미트 전 구글 회장은 2010년 한 콘퍼런스에서 다음과 같은 말을 했다.
“인류문명이 시작된 이래 2003년까지 만들어진 데이터 양은 5엑사바이트(exa byte: *엑사바이트는 십진법으로 표현하면 ‘10의 18제곱’이다. 미국 의회도서관에 소장된 장서가 약 1억5000만 종인데, 이는 1엑사바이트의 ‘10만분의 1’ 분량이라고 한다)에 불과했다. 그러나 지금은 이틀마다 그만큼의 데이터가 새로 추가되고 있으며 이 속도는 점차 빨라지고 있다.”
이렇듯 지금은 빅데이터(big data) 시대이다. 트위터에는 하루 2억 개 이상의 트윗(tweet)이 올라오고, 페이스북에는 하루 5억 건 이상의 콘텐츠가 업로드 된다. 하지만 역설적으로 폭증하는 정보 더미에서 내가 원하는 콘텐츠를 찾아내기는 점점 어려워지고 있다. 온라인 중심 시대에는 거대 언론사나 일부 블로거 중심으로 한정된 콘텐츠가 생산됐다면, 소셜미디어 시대에는 누구나 실시간으로 콘텐츠를 생산하고 유통할 수 있게 됨으로써 무한 정보 시대를 맞게 된 것이다.
볼거리와 읽을거리, 그리고 즐길거리가 차고 넘치는 현재의 멀티미디어 콘텐츠 시장 상황은 수요보다 공급이 훨씬 많은 특징을 보이고 있다. 이와 같은 빅데이터 환경에서는 정보가 있는 위치를 정확하게 아는 ‘know-where’와 정보 검색 방법을 아는 ‘know-how’가 더욱 중요시되고 있다. 즉, 내게 꼭 맞는 콘텐츠를 효과적으로 ‘발견’하는 일이 정보 소비의 핵심으로 부상한 것이다. 콘텐츠가 부족했던 시절에는 기사나 사진, 그리고 동영상 등을 ‘수집’하는 데 대부분의 노력을 쏟아 부어야 했으나 빅데이터 시대에는 콘텐츠의 ‘처리’가 더 중요해졌다는 의미다. 따라서 누군가는 빅데이터를 걸러내고, 데이터의 흐름을 분석해서 수용자에게 값진 정보를 빠르게 제공해줄 필요성이 대두되고 있다.


 
빅데이터 큐레이션은 유용한 정보를 조합
빅데이터란 데이터의 양, 실시간 생산속도, 콘텐츠 형식(숫자뿐만 아니라 사진과 동영상 같은 비정형 데이터 포함)이 과거에 비해 크고 다양해서 기존 방법으로는 수집→저장→검색→분석이 어려워진 상태를 의미한다.
가트너(Gartner)는 빅데이터의 3대 요소를 데이터 크기(volume), 데이터 입출력 속도(velocity), 데이터 다양성(variety)으로 정의했다.
데이터 크기는 스마트 디바이스의 다양화와 네트워크의 고도화로 정보 생산량이 기하급수적으로 증가하는 것을 의미한다. 이것은 단순 저장되는 물리적 데이터양의 증가뿐 아니라 이를 분석하고 처리하는 데 따르는 네트워크 데이터 증가까지 의미하는 것으로서 빅데이터의 가장 기본적인 특징이라고 할 수 있다.
데이터 입출력 속도는 정보를 배열하고 배치하는 시간만 의미하는 것이 아니라 어떤 수용자가 특정 정보를 이용하고자 할 때 그 정보를 실시간으로 처리한 후 결과를 정확하게 알려주는 품질과도 연관이 있다. 즉, 생성된 데이터의 불필요하고 무의미한 부분을 필터링하는 속도, 그리고 정제된 데이터를 분석하고 의미를 추출해서 수용자에게 전달해주는 속도까지를 포함한다.
데이터 다양성은 숫자나 텍스트뿐만 아니라 사진과 동영상 등 현존하는 모든 형태의 콘텐츠를 의미한다. 멀티미디어를 통해 생성되는 데이터의 90% 이상은 통일된 구조(숫자나 텍스트)로 정리하기 어려운 비정형(사진이나 동영상 등)으로 이루어지고 있다.
여기에 두 가지 개념을 더 추가할 수 있는데, 가치(value)와 복잡성(complexity)이다. 가치는 빅데이터를 분석해서 유용한 정보를 조합하거나 새로운 정보 패턴을 찾아내는 것이고, 복잡성은 데이터의 생성→처리(filtering)→정제(curation) 등의 과정에 포함된 모든 요소가 양방향적인 것을 의미한다.
빅데이터는 다양한 영역에서 정보원으로 활용
빅데이터는 정치·경제·사회·문화·과학기술·언론 등 전 영역에 걸쳐서 수용자에게 가치 있는 정보를 빠르고 정확하게 제공할 수 있는 가능성을 제시하고 있다. 빅데이터 기술의 발전은 다변화된 스마트미디어 사회를 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 수용자들에게는 맞춤형 정보를 제공해서 스스로 관리→분석을 가능케 해준다. 빅데이터와 빅데이터의 큐레이션은 국가 경쟁력을 높이고, 기업과 개인의 생산성을 향상시키고, 혁신을 위한 새로운 가치를 창출하고 있다.
이러한 빅데이터는 미디어 분야에서도 주목을 받고 있다. 포털과 SNS를 통해 특정 인물과 특정 사건사고에 대한 데이터가 급속하게 생성된다면 그 대상은 미디어 이슈로 발전할 가능성이 높다. 올드미디어 시절에는 전통 미디어에서 취재→보도를 해야 특정 인물이나 사건사고가 이슈화됐으나 이제는 실시간 축적되는 데이터의 많고 적음에 따라 이슈 중요도와 등급을 측정할 수 있게 됐다.
빅데이터의 미디어적 가치는 실시간 쏟아져 들어오는 콘텐츠를 거르고, 골라 전체적인 맥락을 관통하게 하고, 우리가 미처 알지 못했던 새로운 사실과 진실에 다가서게 해주는 데 있다. 궁극적으로는 콘텐츠에 대한 부가가치를 창출하게 함으로써 미디어산업의 활로를 개척할 수도 있다.
그런데 혹시 빅데이터에 함정은 없을까? 데이터는 생산자의 의도나 유통자의 이데올로기에 따라 얼마든지 사실이 왜곡되고 진실이 조작될 위성험이 있다. 즉, 데이터가 거짓말을 할 수 있다는 이야기다. 또한 데이터는 파편화된 사실의 나열일 수도 있다. 개별 수용자들은 빅데이터의 숲에서 전체를 보지 못하고 나무와 나무 사이를 헤맬 위험성이 있다는 것이다. 이렇게 전체 맥락 속에서 개별 데이터의 가치를 찾고 의미를 부여하는 것은 빅데이터 그 자체가 아니라 큐레이터의 역할이다. 전문적인 지식과 비판정신, 그리고 사물에 대한 통찰력을 지닌 큐레이터가 빅테이터의 숲 속에 길을 내야하고, 이정표를 만들어야 하고, 길과 길을 연결해서 새로운 가치를 창출해야 한다.  

 yyk2020@nate.com