[DX 특집] 데이터 전성시대의 딜레마

‘빅데이터’와 ‘인공지능’은 디지털 혁신을 이끄는 최신 IT 기술 중에서도 대표 기술로 언급됩니다. 인공지능이 좀 더 ‘기술(Technology)’적 느낌을 준다면, ‘데이터’는 인공지능이 읽고 분석해야 하는 ‘텍스트’ 개념에 가깝습니다. 인공지능이 텍스트인 ‘데이터’를 분석하여 결과를 도출하면, 그 결과 데이터를 다양한 산업 영역에 적용하여 직접적인 ‘변화’를 이끌어내는 것은 인간의 몫이 됩니다. ‘디지털 혁신’은 이 모든 과정이 원활하게 진행될 때 비로소 실체적 현상으로 나타납니다.

사람들이 빅데이터를 통한 디지털 혁신을 보다 직접적으로 체감하게 되는 것은 ‘개인화’ (personalization) 때문일 것입니다. 개인화는 이용자의 정보를 기반으로 이용자의 ‘필요’를 파악하여 맞춤형의 정보나 솔루션을 제공하는 것인데요. 일례로 이커머스 사업자들이 이메일, 문자, 팝업 등을 활용하여 고객 개개인에게 다른 메시지의 맞춤형 광고를 발송한다거나, 내비게이션 앱이 실시간으로 도로 상황을 파악하여 운전자에게 효율적인 이동 동선을 제시하는 것 등은 데이터를 활용한 대표적인 ‘개인화’ 구현 사례들입니다.

개인화 구현을 위한 필수조건, ‘데이터 공유’

정보 과잉의 시대에서 ‘개인화’는 개인에게 필요한 정보만을 골라서 효율적인 대안을 제공받는 것이기 때문에 어느 때보다 바쁘게 살고 있는 현대인들에게 더없이 유용합니다. 그런데 이러한 ‘개인화’가 가능하려면 ‘데이터 공유’가 전제되어야 합니다. 인공지능이 수많은 데이터 중에 가장 적합한 시간에, 내 필요에 맞는 데이터를 찾아서 최상의 솔루션을 제안하려면 나의 평소 데이터를 알고 있어야 할 테니까요.

스필버그의 영화 <마이너리티 리포트>를 기억하시나요? 20년 전 개봉된 영화에서 스필버그는 데이터 기반의 ‘맞춤형 광고’가 일상화된 세상을 실감나게 표현했습니다. 영화에서는 주인공 ‘존 앤더튼’(톰 크루즈)이 거리를 걸어갈 때마다 그의 홍채를 인식한 인공지능이 그가 당장 필요할 것 같은 제품의 구매를 권유하는 장면이 수시로 등장합니다. 이는 극중 주인공의 생활 패턴이 모두 데이터로 공유되어 있었기에 가능한 것이었습니다.

<그림 1> 마이너리티 리포트의 한 장면.

2012년 미국 유통기업 ‘타겟(Target)’이 고교생 임산부에게 출산시기에 맞춰 출산용품 쿠폰을 보낸 일화도 유명한데요. 고교생 임산부의 평소 온라인 몰에서 구매한 패턴을 분석하여 출산이 임박할 시기에 출산용품 쿠폰을 발송하였습니다.

이러한 ‘데이터 공유’는 이용자 편의성을 증진시킴으로써 산업 발전과 혁신에 기여합니다. 대표적으로 코로나19의 다양한 백신들이 빠르게 상용화될 수 있었던 것은 ‘데이터 공유’에 기인합니다. 보통의 백신은 소수의 샘플을 활용하기 때문에 임상실험기간이 오래 걸리는 것이 일반적이지만, 코로나19 백신의 경우 사안이 시급한 만큼, 백신 사용자 데이터를 빠른 기간에 대량 확보할 수 있었기 때문에 단기간 상용화와 지속적인 성능개발이 가능할 수 있었습니다.

현재 데이터 공유는 산업 전 영역에서 활발히 이루어지고 있습니다. IT는 물론이고, 제조, 상거래, 물류, 금융, 미디어, 모빌리티, 교육, 법률, 의료 등 많은 분야에서 빅데이터를 활용한 비즈니스 개선이 빠르게 진행 중입니다. 이때 확보한 데이터가 많을수록 예측의 정확성은 높아집니다. 이는 데이터 기반 비즈니스가 실현되는 바탕이 되며, 개인화를 구현함으로써 이용자 편의성을 증대시킬 뿐만 아니라 기업의 비용 효율성도 개선할 수 있습니다. 이처럼 디지털 혁신이 일어나는 선순환 구조의 출발은 ‘데이터 공유’에서 시작합니다.

데이터 공유의 거대 장벽, ‘프라이버시’ 이슈

하지만 데이터 공유는 필연적으로 ‘개인정보’ 혹은 ‘프라이버시’와 충돌을 일으킨다는 문제점을 안고 있습니다. “모든 것이 데이터가 된다”는 것은 우리의 모든 행동과 모든 움직임이 노출될 수 있는 위험성을 안고 있다는 뜻이기도 합니다. 내비게이션 앱이 실시간 교통정보를 반영하는 것은 편의성을 제공하는 부분도 있지만, 이를 위해서는 현재 나의 위치가 노출되는 것을 감내해야 합니다. 아직 우리나라에서는 활성화되지 않았으나, 미국, 일본, 중국 일부 지역에서는 의료 빅데이터를 활용한 불치병이나 난치병을 비롯한 다양한 질병들의 초기 발견율이나 진료정확도를 높이기 위해, (그 지역 다수의 합의가 있었다고는 하지만) 개인들의 각종 크고 작은 진료데이터 공유가 당연시되고 있습니다.

일반적으로 이용자들은 ‘나의 정보를 공유하는 것’에 대한 심리적 거부감은 물론이고, 내 정보 공유에 동의하더라도 너무 정확한 개인화 솔루션을 제공받을 때 오히려 공포함을 느끼곤 합니다. 심리학자 버나드(Barnard)는 이를 ‘오싹함의 비용’(The cost of creepiness)라고 표현했습니다. 디지털 환경에서 이용자의 ‘행동 데이터(behavior data)’를 기반으로 한 개인화 마케팅이 너무 정확해지면 이용자들은 자신이 감시 또는 추적당한다는 느낌을 받게 되어 저항감을 갖게 된다는 것인데요. 이는 결과적으로 이용자 만족을 높이기는커녕, 거부감을 발생시키는 역효과만 낳게 됩니다. 따라서 현실적으로 이용자들에게 ‘개인정보보호’ 또는 ‘프라이버시 보호’는 편의성과 만족도를 뛰어넘는 최상위 욕구이므로, 기업은 개인화에 앞서 이를 반드시 최우선적으로 고려해야 합니다.

유통기업 ‘타겟’이 고교생 임산부에게 출산용품 쿠폰을 보낸 것이 화제가 된 것은 2012년 당시 기준으로 고객 데이터를 활용한 맞춤형 광고 사례가 흔치 않았던 것도 있었지만, 보다 근본적인 원인은 ‘개인 정보 침해’ 때문이었습니다. 딸의 임신 사실을 몰랐던 부모가 고교생에게 해당 쿠폰을 보낸 것이 부적절하다고 기업에 항의를 했는데, 알고 보니 딸이 부모 몰래 임산부 관련 물건을 타겟 온라인 몰에서 구매했고 ‘타겟’은 고객의 구매 데이터를 분석한 결과 해당 고객이 임산부라고 판단했던 것이지요.

데이터 활용에 따른 개인화 마케팅으로 보면, 타겟의 마케팅은 매우 정확했고 매우 효율적이었습니다. 심지어 쿠폰 제공 시점도 출산 시기에 맞춰 발송되었기 때문에 고객의 편의성을 높인 훌륭한 전략이었죠. 문제는 그 데이터가 고객의 민감한 개인 정보일 수 있다는 점을 간과했다는 것이었습니다.

오늘날의 데이터 분석기술은 타겟의 사례처럼 10년 전에도 이미 훌륭한 정확도를 자랑합니다. 하지만 아무리 인공지능 기술이 발달했다고 해도, 고객 ‘데이터 자체(data itself)’를 넘어 ‘데이터 맥락’(data context)까지 읽는 기술은 아직 완성되지 않았습니다. 데이터 공유와 활용에 대한 갈등과 고민은 이처럼 데이터와 맥락에 대한 인공지능의 판단이 아직은 불완전한 데에서 발생합니다. 이는 또한 데이터 윤리와 각종 데이터 활용을 제한하는 정책들이 강조될 수밖에 없는 이유이기도 합니다.

<그림 2> 2012년 미국 유통기업 '타겟'의 임산부 고교생에 대한 맞춤형 마케팅 사례는

당시 '데이터 공유'와 '개인정보보호'에 대한 다양한 시사점을 제시한 사례로 남았다.

안전한 데이터 공유를 위한 시도들- ‘비식별화’와 ‘데이터 주권’

테크놀로지가 가져온 디지털 혁신을 목도하면서 빅데이터 활용에 대한 대합의는 이미 이루어졌습니다. 그러나 우리는 데이터 공유와 프라이버시 강화라는 상반된 기조에서 최적의 합의점을 찾아야 하는 과제를 안고 있습니다. 대표적으로 의료와 법률산업은 디지털 전환의 필수이자 최후의 보루로 여겨지고 있으나 다른 국가에 비해 디지털 전환이 매우 뒤처져 있는 분야인데요. 이는 데이터 공유에 대한 심리적 반발 기조가 매우 강한 나머지 프라이버시 강화가 절대적으로 작용하고 있기 때문입니다.

데이터 공유를 지향하면서도 프라이버시를 보호하기 위한 절충안으로서, 대표적으로 논의되고 있는 방안이 ‘비식별화’입니다. 비식별 데이터는 2014년 방통위가 발표한 ‘빅데이터 개인정보보호 가이드라인’에서 공식화된 이래, 현재 빅데이터 활용과 개인정보보호를 모두 충족하는 일종의 ‘만능키’ 같은 개념으로 통용되고 있습니다. ‘비식별화’는 개인정보의 일부를 가리거나 바꾸어 개인을 특정하지 못하게 하는 기법인데, 방통위 가이드라인에 따르면 개인정보는 비식별화를 거치면 더 이상 개인정보가 아닌 것으로 간주됩니다.

구글의 ‘프라이버시 샌드박스’ vs 애플의 ‘앱추적 투명성(ATT)’

물론 기술의 엄청난 발전 속도를 고려할 때, 아무리 뛰어난 비식별 기술이라고 해서 개인정보나 프라이버시를 완벽하게 보호할 수 있다고 보기는 어렵습니다. 실제로 비식별화된 정보들도 다양한 정보들과 결합하면서 개인정보를 생성하거나 ‘개인’을 추론할 수 있음을 증명하는 다수의 연구들도 나와 있고요. 기업들에게는 비식별 데이터의 재식별 위험을 모니터링해서 원 데이터 소유자(개인)에게 알려줘야 하는 또 다른 의무 부담도 존재합니다. 그럼에도 현재까지는 데이터를 수집하는 대대수 기업들에게 ‘비식별화’는 최선의 방법으로 여겨지고 있습니다. 구글이 2022년 2월 발표한 ‘프라이버시 샌드박스(Privacy Sandbox)’ 솔루션은 개인정보침해를 막는 새로운 추적기술로, 이러한 비식별화를 거친 개인정보를 활용하는 현재의 데이터 공유 기조를 반영하고 있는 정책입니다.

반면, ‘데이터 주권’은 이용자의 프라이버시 강화에 초점을 맞춥니다. 데이터 주권은 용어에서 느껴지듯, 개인이 정보공유부터 공개범위 및 활용여부 결정까지, 자신의 데이터 사용에 대한 주도권을 모두 갖는다는 의미이자, ‘데이터 전성시대’를 사는 현대인들의 데이터 권한을 강화하는 개념으로 이해되고 있습니다. 데이터 주권은 2016년 유럽에서 개인정보보호규정 ‘GDPR’이 발효되면서 각광받기 시작했지만, 우리에게 친숙해진 것은 2021년 4월 애플의 ‘앱추적 투명성(ATT)’ 정책이 도입되면서부터일 것입니다. 앱 추적 여부에 대해 이용자들에게 직접 선택권을 부여하는 ATT 정책은 초기 도입 직후에는 동의율이 5%에 불과할 정도로, 이용자들의 행동데이터 추적이 수월하지 않았습니다. 1년이 지난 지금도 글로벌 앱 분석업체인 ‘플러리’(Flurry)에 따르면, 애플의 ATT 도입이후 글로벌 옵트인 동의 비율은 25% 수준이고, 미국은 18%에 불과하며, 글로벌 앱트랙킹 추적은 4%에 머물고 있는 상황입니다.

이처럼 애플과 구글이라는 걸출한 두 빅테크 기업이 ‘데이터 공유’와 ‘프라이버시’에 대해 미묘한 차이가 나타나는 것은 데이터 공유와 활용에 대한 사회적 합의까지 아직 많은 논의가 필요함을 보여줍니다.

<그림 3> 애플 ‘ATT’(왼쪽)와 구글 ‘프라이버시 샌드박스’(오른쪽).

프라이버시 샌드박스는 개인정보를 비식별화하여 공유하되,

새로운 솔루션을 적용하여 기존 3자 데이터 시절보다 공유를 제한한다.

정보 주체자로서 개인의 역할

걸러지지 않은 개인정보가 공개되거나 외부 앱에 아무런 제약 없이 접근할 수 있는 사례는 여전히 비일비재합니다. 이는 단기적으로는 맞춤형 메시지를 통한 구매의도를 높여 매출 상승에 기여할 수 있지만, 장기적으로는 이용자들의 심리적 반발을 강화시킬 것입니다. 유명한 심리학자 잭 브렘(J.W. Brehm)은 개인은 자유를 잃거나 위협을 당할 때 더 심하게 반발한다고 주장했습니다. 휴대폰 하나만 있으면 웬만한 것은 다 할 수 있는 시대가 되었지만, 그만큼 나의 모든 일상이 공개되는 것에서 오는 스트레스도 커졌습니다. 나의 위치가 추적되고, 나의 취향을 플랫폼이 나보다 더 잘 알고 있다는 것은 절대 유쾌하진 않습니다. 심지어 나의 ‘미래의 선택’도 데이터와 인공지능이 결정한다면 더더욱 그러합니다.

그래서 사람들은 자신의 정보를 보호하고자 움직입니다. 플랫폼은 모든 것을 공유하자는 ‘오픈 세상’을 추구하는데, 개인들은 ‘폐쇄적 자세’를 취함으로써 이러한 흐름에 반발하는 형국이네요. 이러한 흐름은 개인과 기업, 규제당국, 개발자 모두의 고민을 가중시킵니다. 기술 개발도 앞서간 만큼, 기업의 데이터 윤리도 매우 중요해졌습니다.

하지만 무엇보다도 개인들의 적극적인 관심과 의견 개진이야말로 빅데이터 세상을 가장 확실히 정착시키는 핵심 요인이 아닐까요? 정보의 생성자이자 데이터 제공의 주체자로서, 자신의 데이터가 제대로 활용되고 있는지를 알려면, 단순히 데이터 공유에 대한 동의/비동의가 아닌 각자의 ‘공부’와 ‘관심’이 필요합니다. 우리의 데이터는 이용자 만족도 증대를 넘어, 산업 발전에 기여하고, 공공의 이익을 개선시키며, 나아가 사회 혁신을 일으키는 핵심 동력이 될 수 있기 때문입니다. 물론 ‘제대로’ 활용될 때의 이야기이겠지만요.

유진희

재믹스 씨앤비 IP 사업본부 국장

중앙대 첨단영상대학원 겸임교수

LG CNS는 개인을 위한 데이터 서비스!

‘하루조각' 앱을 출시하고 시범서비스를 제공하고 있습니다.

시범 서비스 이용하고 서비스 이용을 위한 좋은 의견 전달해 주세요!

LG CNS 하루조각 서비스 알아보기

마이데이터 플랫폼 사업자인 LG CNS와 함께 우리 회사도 데이터를 활용한 DX를 추진하고 싶다면?

지금 상담신청하세요!

상담신청하기