아티클T는 탤런트뱅크의 검증된 콘텐츠 플랫폼입니다.
탤런트뱅크 바로가기

빅데이터를 향한 5가지 의문

첫번째 – 정형된 통계 데이터로 과거는 분석해도 미래를 예측하기란 거의 불가능하다던데?

미래를 보여주는 데이터란 없다. 데이터 분석을 끝내고 의사 결정을 내릴 때쯤이면, 이미 미래는 현재가 돼버린 뒤다. 명확한 알고리즘을 만들어 데이터로 미래를 이해할 수 있어야 한다.

-클레이튼 크리스텐슨 하버드 비즈니스 스쿨 교수

우리가 통계라는 목적으로 수집한 데이터만으로 미래를 예측하기란 불가능에 가깝습니다. 예를 들어 한 지역을 대상으로 중학교 2학년 키를 3년간 측정했더니 매년 전년도보다 평균 키가 커졌다고 가정해봅시다. 그 이유로 ‘우유를 많이 마셨다’와 같은 과거에 기반한 원인을 분석해볼 수 있습니다. 하지만 ‘그러니 앞으로도 우유를 더 먹이면 계속 키가 클 것’이라고 하기에는 뭔가 석연치 않죠. 갑자기 키 큰 학생들이 전학 왔을 가능성도 있으니까요. 평균 신장이 커진 원인을 분석할 또다른 과거 경험과 통찰이 필요합니다.

같은 공장에서 완성된 물건이 모두 똑같은 품질로 생산된 것 같지만, 사용환경에 따라 작동되기도 하고 안 되기도 합니다. 각각 테스트해보면 모두 이상 없이 사양도 동일한데 왜 이런 일이 생기는지 원인을 규명하기 위해서는 과거 여러 경험적 데이터와 통찰력이 있어야 설명이 됩니다. 또다른 변수가 끼어든 환경에서 발생한 오작동을 과거 몇가지 사례만으로 원인이었다고 판단하지 않습니다.

 

 

두번째 – 양이 많으면 ‘빅’데이터?

빅데이터(big data)는 이름 탓에 ‘큰’ 데이터라고 생각하기 쉽습니다. 부분적으로는 맞는 말이죠. 그런데 사실 빅데이터는 양보다 시스템적인 면이 큽니다. 컴퓨터를 동원해야 할 만큼 방대하며, 빅데이터 전용 기술을 써 실시간으로 인터넷에서 데이터를 수집합니다. 빅데이터 발굴 시스템에 분석 과정이 더해지기도 하고요.

또, 앞서 인용한 크레이튼 교수의 “데이터로 미래를 이해할 수 있어야 한다”는 문장 속 ‘데이터’도 지금의 빅데이터를 의미합니다. 대중이 인식하는 빅데이터도 크레이튼 교수가 말한 단어와 유사한 뜻을 가집니다.
결론적으로 다양하게 수집하고, 많이 수집한 데이터만 진정한 빅데이터라고 부를 수 있습니다. 수집하는 데이터가 꼭 정형적일 필요는 없습니다. 동영상이나 그림, 심지어 후각, 미각 등 오각에 의한 결과물 등 비정형 데이터도 수집대상이 됩니다.

 

세번째 – 이미 데이터도 많이 모였고 분석도 가능했는데 왜 이제서야 빅데이터를 분석한다는 말이 나오는가?

과거 우리가 가지고 있던 컴퓨팅 환경은, 속도나 데이터 저장 용량에서 비정형 데이터를 포함한 데이터를 분석할 수 있는 환경을 제공할 수 없었습니다. 그야말로 비용과 규모가 상상을 뛰어넘는 슈퍼컴퓨팅 환경이 있어야 가능했기 때문이죠. 최근에는 개인 컴퓨터로도 빅데이터를 분석할 정도로 기능이 향상됐으며, 엄청난 양의 비정형 데이터를 저장할 수 있는 테라 바이트 수준 저장장치도 구비할 수 있습니다. 게다가 인공지능이 복잡하고 거대한 데이터도 쉽게 식별하면서, 빅데이터 분석이 제대로 된 미래 예측 가치를 갖게 된 측면도 있죠.

 

 

네번째 – 많은 공공기관이나 기업들이 “빅데이터!” “빅데이터!”를 주장하는데, 누구나 할 수 있는 일은 아니지 않은가?

한 편으론 맞는 말이지만 아니기도 합니다. 초기 빅데이터 분석은 데이터 사이언티스트(Data Scientist) 역할이 매우 중요한 상황이었죠. 예로, 커피전문점 창업에 필요한 상권을 분석해봅시다. 향후 매출과 이익이 충분히 발생할지 데이터를 처리하는 경우, 전문가에게 분석에 필요한 데이터 종류와 분석 방법을 모두 물어볼 수밖에 없었습니다. 이제는 솔루션만으로 분석할 수 있죠.

인공지능 기술이 결합된 솔루션은 오차를 최소화한 미래예측 분석결과를 만들어낼 수 있습니다. 솔루션 가격이 조금 비싸긴 하지만, 개인도 빅데이터 분석결과를 손에 받을 수 있게 됐다는 뜻입니다.

 

다섯번째 – 아무리 자동화가 이뤄져도 결국 사람 손을 거쳐야 하던데?

미래를 예측하는 빅데이터 분석을 위해서는 빠른 속도로 데이터 수집이 이뤄져야 합니다. 문제는 분석 속도를 높이려면 데이터를 곧바로 인식하고 분류해야 하는데, 보통 인식과정에서 심각한 오차가 발생합니다. 컴퓨터에게 도로 위를 달리는 자동차 사진을 보여주면 그 자동차가 화물차인지, 승용차인지, 버스인지 구분하지 못합니다. 그래서 사람이 인식대상 특징을 일일이 지정하는 초기 처리작업이 필요합니다.

이런 작업이 쌓여 언젠가 이 세상 모든 데이터들이 쉽게 분류되면 이 과정에 사람이 필요 없어질지도 모릅니다. 그러나 지금 이 순간에도 새로운 형태의 물체는 만들어지고 있기 때문에 데이터 초기 처리는 지속될 수 밖에 없습니다. 더군다나 이제서야 빅데이터 시장이 열리는 한국은 수작업해야하는 데이터가 너무나 많아 앞으로도 적지 않은 시간이 필요합니다.


대표적인 빅데이터 알고리즘 3가지 속성 갖추기
: 크기(Volume), 신속성(Velocity), 종류(Variety)

위키백과에서 ‘빅데이터’는 ‘기존 데이터베이스 관리도구의 데이터 수집-저장-관리-분석의 역량을 넘어서는, 대량의 정형ㆍ비정형 데이터 모음과 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술’이라고 정의합니다. 사실 이게 뭔 말인지 좀 어렵습니다.

간단히 정의하면 ‘대량의 정형·비정형 데이터로부터 가치 있는 결과를 산출하는 알고리즘 기술’이라고 할 수 있습니다. 빅데이터는 ‘어떻게 분석하느냐’는 치밀하며 논리적인 과정이 잘 녹아든 알고리즘과의 싸움입니다. 농작물을 예로 들어봅시다. 농작물을 키우는 데는 날씨가 많은 영향을 끼친다는 사실을 알면서도 제대로 예측하지 못해 어려움을 겪습니다. 기후데이터는 공공 데이터 포털(www.data.go.kr)을 이용하면 충분히 확인할 수 있고 간단한 분석도 가능하죠. 다만 데이터 수집이 원활히 이뤄지지 않는 농경지 이력, 위치에 따른 토양 정보가 빠진 예측은 신뢰성이 낮습니다.

북아메리카나 유럽은 이미 오랫동안 3가지 속성을 고려한 데이터 수집을 여러 산업분야에서 이뤄왔으며 분석 알고리즘에서도 몇 걸음 앞서 있습니다. 이제 우리도 ‘빨리빨리’라는 장점을 이용해 그들을 뛰어넘는 빅데이터 수집과 한국 고유 환경을 반영한 알고리즘이 지속적으로 만들어낼 것이라 믿습니다.

 


임성춘

빅데이터, AI 전문가

現) 탤런트뱅크 전문가, 한국아이티컨설팅 컨설팅사업본부 전무
前) SK C&C ERP 컨설팅 사업본부 이사
前) 조달청 정보관리과 과장
前) 한국오라클 글로벌 ERP 컨설팅 사업본부 이사

시대가 변하고 새로운 기술이 등장하면서 예전엔 골칫거리였던 문제가 쉽게 풀리기도 하죠. ‘신기술 트렌드’는 실무를 뛰는 엄선된 전문가들이 직접 쓴 현장 이야기를 소개합니다. 기업 문제를 손쉽게 고치는 전문가들의 인사이트를 둘러보세요.

뉴스레터 구독
탤런트뱅크 프로젝트
기업의 비즈니스 고민,
검증된 전문가가 해결합니다.
프로젝트 의뢰
최신글
이번 탤런트뱅크 전문가 Talk는 기업 브랜드 관리의 새로운 패러다임을 열고 계시는 권오영 전문가와의 대화입니다. 아직은 국내에 생소한 개념인 ESG 브랜딩 시장을 개척하고 주인공이십니다. 특히 중소기업과 스타트업에 ESG 브랜딩은 더욱 중요할 수 있다고 하는데요. 어떻게 하면 성공적으로 ESG 브랜딩을 할 수 있는지 들어보았습니다.   탤런트뱅크 권오영 전문가 (사진 제공= 탤런트뱅크)   현재 직장과 직무를 말씀 부탁드립니다. …
이번 탤런트뱅크 전문가 Talk는 스타트업 투자 유치 및 해외 진출 분야의 저명한 멘토, 장성환 전문가와의 대화입니다. 장성환 전문가는 매년 200~300개 달하는 초기 스타트업을 만나 멘토링을 하고 계십니다. 초기 스타트업 창업자 및 코파운더들에게 자신의 가치를 알아줄 투자자를 만나는 일은 필수적인데요. 어떻게 하면 성공적으로 투자유치를 이끌 수 있고, 그 사이에서 전문가의 역할은 무엇인지 들어보았습니다.   탤런트뱅크 장성환 …
탄소중립 달성, 어떻게 해야 할까요? 탄소중립을 달성하려면 가장 먼저 탄소배출량을 줄여야 합니다. 탄소배출 저감방법은 다음과 같습니다:   파급 및 기대효과가 가장 큰 기술은 저탄소 발전기술, 수소경제, 대규모 해상풍력발전, 탄소중립 빌딩입니다. 신재생에너지는 지난 20년간 육성정책을 펼쳤지만 1차 에너지원 기준으로 겨우 3.4%를 달성했습니다. 태양광 발전은 더 이상 산을 파헤쳐 환경을 파괴할 수 없는 수준에 이르렀고, 앞으로 지붕 …
위로가기