사람이 어떤 방식으로 죽게 될지 예측할 수 있을까? 넷플릭스 영화 ‘돈룩업'에는 한 괴짜 IT 기업인이 등장합니다. 이 사업가는 고객의 개개인의 수많은 데이터를 수집하고 분석해 그 사람의 라이프 스타일은 물론 사망 방식까지 예측해주는 인공지능(AI) 알고리즘을 개발했습니다. 수십년에 걸쳐 수집한 데이터는 4,000만건에 달했습니다. 영화 속에서 알고리즘은 무려 96.5% 정확도를 자랑합니다. 

이용자가 내리는 매순간의 선택과 결정을 빅데이터화하고 분석하는 기술만 있다면 전혀 말이 안 되는 얘기도 아닙니다. 쇼핑과 식습관은 물론 건강과 관련한 의료 데이터가 수십년간 축적된다면 결국 양질의 빅데이터가 되기 때문입니다. 풍부한 데이터에 기반한 AI 분석은 정확도가 높아질 수밖에 없습니다. 성큼 다가 온 AI 시대, 양질의 데이터 확보에 기업들이 사활을 거는 이유도 여기에 있습니다. 

데이터 산업은 빠르게 성장 중이고 ‘데이터의 가치’가 갈수록 높아지고 있습니다. 글로벌 시장조사업체 마켓앤마켓에 따르면 빅데이터 시장은 2021년 1626억달러(204조2000억원)에서 2026년 2734억달러(343조3000억원)로 성장할 것으로 전망했습니다. 한국도 마찬가지입니다. 과학기술정보통신부와 한국데이터산업진흥원이 2021년 12월 발표한 데이터산업현황조사 주요 통계 결과를 보면 2020년 데이터산업 시장 규모는 2019년 16조9000억원보다 18.7% 증가하며 20조원을 넘어섰습니다. 


잘 가공된 데이터 = 정제된 원유 

데이터는 신호, 기호, 숫자, 문자로 기록된 정보를 위한 기초적인 자료를 말합니다. 가공되지 않은 데이터로는 분석을 할 수 없습니다. 예를 들어 엑셀에 입력된 생년월일 데이터가 ‘19890720’, ‘89.07.20’, ‘팔구공칠이공' 이런식으로 제각각이라면, 7월에 생일인 사람만 뽑아 분석하려 할 때 정확한 결과값을 얻기 어렵습니다. 

그래서 수집된 데이터를 정리하고 표준화하는 과정이 필요합니다. 데이터 분석에 적합한 데이터를 만드는 ‘정제’와 ‘분석'은 떼려야 뗄 수 없는 관계입니다. 제대로 가공되지 않은 데이터로 얻은 분석 결과는 정확도가 낮기 때문입니다. ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out)’는 말이 괜히 유명해진 것이 아닙니다. 정제되지 않은 기름을 넣은 자동차가 망가질 수 있듯이 데이터에도 정제가 필요합니다. 

데이터의 질 역시 중요한데, 무작정 많이만 수집한 데이터는 고품질의 데이터라고 볼 수 없습니다. 물론 양질의 데이터의 조건에 ‘충분한 양'의 데이터가 포함돼 있습니다. 하지만 빅데이터는 말그대로 많은 양의 복잡한 데이터를 의미합니다. 빅데이터라도 정제되지 않았다면 아무리 뛰어난 분석 방법을 대입해도 왜곡되거나 잘못된 결론을 낼 수 있습니다. 

데이터 사이언티스들이 미래 유망 직업으로 꼽히는 이유는, 잘 정제된 데이터를 만드는 데 중요한 역할을 하기 때문입니다. 높은 가치를 지닌, 즉 ‘돈이 되는 데이터’를 만들기 위한 분석도구와 플랫폼의 활용 역시 중요해지고 있습니다.

데이터를 분석하려면 SQL, 파이썬, R은 기본

그렇다면 데이터 사이언티스트들이 가장 많이 택하는 분석 방법에는 뭐가 있을까요? 바로 프로그래밍 언어인 ‘파이썬'입니다. 파이썬은 데이터를 수집하고 탐색하고 정제하는 기능은 물론 분석까지 가능합니다.

파이썬은 C언어와 함께 대표적인 하이레벨 언어로 꼽힙니다. (프로그래밍 언어 중 사람이 사용하는 언어에 가까운 언어를 ‘하이레벨 언어', 이진법 기반으로 컴퓨터에 의해 읽고 실행되기 쉬운 언어를 ‘로레벨’ 언어라 합니다.) 기초지식이 없어도 어느 정도 이해할 만큼 코드가 사람의 언어에 가깝기 때문에 코딩을 배워본 적이 없는 사람도 상대적으로 거부감 없이 접근할 수 있기에 데이터 분석 입문자들도 많이 애용합니다.

오픈소스 빅데이터 분석도구인 R도 많이 사용됩니다. 미국 등에서는 대학 교육에서 데이터 분석 엔진으로 ‘R’이 표준처럼 자리 잡고 있습니다. R은 통계 분석에 더 유용한 것으로 알려졌지만, 파이썬에 비해 수행속도가 느린 단점이 있습니다.

SQL도 현장에서 많이 활용됩니다. SQL은 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어입니다. 기업에서 많이 사용되는 언어기도 합니다. 표준 SQL을 알면 대부분의 데이터베이스 관리시스템(DBMS)을 사용할 수 있습니다.

빅데이터가 유망 산업으로 부상한 것은 서점가에서 위 프로그래밍 언어 관련 서적이 눈에 띄게 배치돼 있는 것만 봐도 알 수 있습니다. 데이터 분석가를 꿈꾸는 이들이 많아지니 관련 인터넷 강의 역시 우후죽순 올라옵니다. 

취향저격 그 광고, 불쾌하지만 위대한 AI 분석의 힘

기업의 데이터 분석에 대한 갈망이 커지자 B2B 시장을 겨냥한 빅데이터 분석 플랫폼 서비스도 속속 등장합니다. 대용량의 정형 데이터와 비정형 실시간 데이터를 분석하는 시간을 줄여주고, 시각화된 정보를 알기 쉽게 대시보드에 표현해주는 플랫폼이 필요해졌기 때문입니다.

AI 기술이 접목된 빅데이터 분석 플랫폼은 빅데이터 수집, 분석, AI 학습, 모델 생성, 모델 배포, 통합 운영·관리 기능을 제공합니다. 해당 플랫폼을 잘만 활용하면 기업이 보유한 데이터에서 유용한 인사이트를 얻을 수 있습니다. 고객 맞춤형 마케팅은 물론 다양한 서비스 개발이 가능해집니다.

페이스북(현 메타)과 구글이 빅테크 기업으로 성장한 것도 빅데이터를 활용한 맞춤형 광고 덕이 컸습니다. 현재 매출에서도 광고는 꽤나 큰 비중을 차지합니다. 정확한 빅데이터 분석에 기반한 마케팅은 결국 돈이 된다는 얘기입니다.

빅데이터 분석 플랫폼은 기업 회사의 자산인 직원을 관리하는 데도 도움이 됩니다. HR 관련 데이터를 잘만 활용하면 이직률을 낮추기 위해 이탈 가능성이 높은 직원을 예측해 모니터링하고, 직원별로 개인화해 직무 만족도를 높일 수 있는 솔루션을 제공하는 것이 가능합니다.

이 밖에도 기업이 보유한 데이터에 따라 빅데이터 분석 플랫폼의 활용 가능성은 무궁무진합니다.

현재 전 세계 AI 분석 플랫폼 시장은 대부분 클라우드 기업이 주도합니다. 클라우드 빅3로 꼽히는 아마존웹서비스(AWS)의 세이지메이커, 마이크로소프트(MS) 애저 ML 플랫폼, 구글 클라우드 AI와 IBM의 왓슨, 오라클의 AI 분석 플랫폼도 많이 활용됩니다.

국내 기업들도 빅데이터 분석 플랫폼 서비스를 개발해 제공 중입니다. LG CNS는 AI 빅데이터 플랫폼 ‘DAP MLDL’를 선보인 후 활용 사례를 점차 늘려나갑니다. 제조 공정 내 불량품 검출 시장제품 수요 예측, 소비자 성향분석과 초개인화 마케팅 등에 활용되고 있습니다. 금융권에서는 마이데이터 사업에 DAP MLDL을 적용해 초개인화 금융 서비스를 구축 중입니다. AI가 고객의 연령, 지역, 소득, 소비성향 등 고객 세분화, 입출금 패턴 분석을 통해 실시간 금융상품 추천할 수 있게 됩니다.

류은주
IT조선 기자
본 콘텐츠는 저작권법에 의해 보호 받는 저작물로 LG CNS에 저작권이 있습니다.
사전 동의 없이 2차 가공 및 영리적인 이용을 금합니다.