빅데이터활용을 통한
고객 파악이 사업 성공의 필수요건
빅 데이터는 데이터의 볼륨, 속도 및 다양성의 증가로 인해 발생하는 데이터 관리 문제의 측면에서 설명할 수 있습니다. 이러한 문제는 기존 데이터베이스로는 해결할 수 없습니다. 빅 데이터에 대한 정의는 상당히 많지만, 이들 대부분은 빅 데이터의 "세 가지 V"로 알려진 개념을 포함하고 있습니다.
-
볼륨 : 데이터 규모는 테라바이트에서 페타바이트에 이릅니다.
-
다양성 : 다양한 소스 및 형식의 데이터를 포함합니다
(예: 웹 로그, 소셜 미디어 상호 작용, 전자 상거래 및 온라인 트랜잭션, 금융 트랜잭션 등).
-
속도 : 비즈니스에서는 데이터가 생성된 시점부터 실행 가능한 통찰력이 사용자에게 전달되는 시점까지의 시간에 대해 갈수록 더 엄격한 요구 사항을 제시합니다. 따라서 데이터는 하루 단위에서 실시간에 이르기까지 상대적으로 짧은 시간 내에 수집, 저장, 처리 및 분석되어야 합니다.
빅 데이터가 필요한 이유는 무엇입니까?
대대적인 홍보에도 불구하고, 많은 조직이 빅 데이터 문제가 있다는 것을 인식하지 못하거나, 문제를 빅 데이터 측면에서 생각하지 않습니다. 일반적으로 데이터의 볼륨, 다양성 및 속도가 갑자기 증가하여 이를 지원하도록 확장해야 하지만, 기존 데이터베이스 및 애플리케이션이 더 이상 확장할 수 없는 상태일 때, 조직은 빅 데이터 기술의 혜택을 누릴 수 있습니다.
빅 데이터 문제를 적절하게 해결하지 못하면, 비용이 급증할 뿐만 아니라 생산성과 경쟁력이 약화될 수 있습니다. 반면에 견고한 빅 데이터 전략은 대량의 기존 워크로드를 빅 데이터 기술로 마이그레이션하고 새로운 기회에서 수익을 창출할 수 있는 새로운 애플리케이션을 배포함으로써 조직이 비용을 절감하고 운영 효율성을 확보하는 데 도움이 될 수 있습니다.
빅 데이터는 어떻게 작동합니까?
전체 데이터 관리 주기를 다루는 새로운 도구를 사용하면, 빅 데이터 기술을 통해 대용량 데이터 세트를 수집하고 저장하는 것뿐 아니라 새롭고 유용한 통찰력을 얻기 위해 이를 분석하는 것도 기술적으로 그리고 경제적으로 실현 가능해집니다. 대부분 경우, 빅 데이터 처리에는 원시 데이터 수집에서 실행 가능한 정보의 소비에 이르는 일반적인 데이터 흐름이 수반됩니다.
수집.
빅 데이터를 다룰 때 많은 조직이 처음 직면하는 문제가 원시 데이터(트랜잭션, 로그, 모바일 디바이스 등) 수집입니다. 좋은 빅 데이터 플랫폼은 이 단계를 쉽게 수행할 수 있게 해주므로, 개발자는 어느 속도(실시간에서 배치까지)에서든 다양한 데이터(정형에서 비정형 데이터까지)를 수집할 수 있습니다.
저장.
모든 빅 데이터 플랫폼에는 처리 작업 전 또는 이후에도 데이터를 저장할 수 있는 안전하고, 확장 가능하며, 내구력 있는 리포지토리가 필요합니다. 특정 요구 사항에 따라 전송 데이터를 위한 임시 스토어가 필요할 수도 있습니다.
처리 및 분석.
데이터가 원시 상태에서 사용할 수 있는 형식으로 변환되는 단계로서, 보통 정렬, 집계 및 조인이 사용되며 좀 더 고급 함수 및 알고리즘이 수행되기도 합니다. 그런 다음 결과 데이터 세트는 추가 처리를 위해 저장되거나, 비즈니스 인텔리전스 및 데이터 시각화 도구를 통해 사용하도록 제공됩니다.
사용 및 시각화.
빅 데이터는 데이터 자산에서 가치가 높고 실행 가능한 통찰력을 얻는 것이 핵심입니다. 데이터는 빠르고 쉽게 데이터 세트를 살펴볼 수 있는 셀프 서비스 비즈니스 인텔리전스 및 민첩한 데이터 시각화 도구를 통해 이해 관계자에게 제공되는 것이 가장 좋습니다.
최종 사용자는 분석 유형에 따라 예측 분석의 경우에는 통계적 "예측"의 형태로 또는 규범적 분석의 경우에는 권장 조치의 형태로 결과 데이터를 사용할 수 있습니다.
빅 데이터 처리의 진화
빅 데이터 에코시스템은 놀라운 속도로 진화를 계속하고 있습니다.
현재 다양한 분석 스타일 세트가 조직 내의 여러 기능을 지원합니다.
기술적 분석은 "어떤 일이 발생했고 이유는 무엇입니까?"라는 질문에 사용자가 답을 할 수 있게 도와줍니다. 예로는 스코어카드와 대시보드를 사용하는 기존 보고 및 쿼리 환경 등이 있습니다.
예측 분석은 사용자가 미래에 해당 이벤트가 발생할 확률을 예측할 수 있게 도와줍니다. 예로는 조기 알림 시스템, 사기 탐지, 예방적 유지 관리 애플리케이션, 예측 등이 있습니다.
규범적 분석은 사용자에게 특정(규범적) 권장 사항을 제공합니다. 이 권장 사항은 "x"가 발생하면 어떻게 해야 하는지에 대한 질문을 다룹니다.
처음에 하둡과 같은 빅 데이터 프레임워크는 대개 시간 단위 또는 일 단위를 측정되는 특정 시간 윈도우 동안 대규모 데이터 세트를 대량으로 처리하는 배치성 워크로드만 지원했습니다. 하지만 통찰력을 얻는 데 걸리는 시간이 점점 더 중요해지면서, 빅 데이터의 "속도"는 Apache Spark, Apache Kafka, Amazon Kinesis 등과 같은 새로운 프레임워크가 실시간 및 스트리밍 데이터 처리를 지원하는 방향으로 진화하게 된 원동력이 되었습니다.