여기서 말하는 빅데이터를 단순한 데이터를 말하기 보다는 빅데이터를 관리하고 저장하고 처리하는 기술들 까지 포함하는 그런 개념이다. 빅데이터 기술을 사용하는 것이 왜 중요하냐 라고 했을 때, Big Data Analystics라고 하는 것은 조직들이 그들의 데이터를 효율적으로 활용하고 활용해서 새로운 기회를 식별해내는데 도움을 줄 수 있기 때문에 빅데이터 분석은 중요하다.
크기(Volume) - 데이터의 양을 표현, 데이터가 어떤 형태로 이루어지고 있냐로 포함한다.
속도(Velocity) - 데이터가 수집되고 분석되어야 하는 시간 자체를 말한다.
다양성(Variety) - 어떤 타입의 데이터가 수집되어야 하느냐이다. Ex) xml, json
value(가치창출) - 빅데이터를분석해서무언가가치를창출하는게중요하다.
세 개의 축으로 어느 한쪽이든 결합해서 확장하게 되면은 빅데이터 기술이 필요하다. 예를들면 데이터가 PB 수준이면서 Batch성이면 대표적인 빅데이터 플랫폼 하둡(Hadoop)이 목표로하고 있는 데이터처리 방법이다. 그런데 데이터 볼륨이 커지면서 Real Time일 수 있다. 그러면 데이터가 끊임없이 들어오는데 그거를 다 저장하면 너무 많은거고 어느정도 구간을 정해서 구간내에서 결정을 하는 경우도 있다. 그런것들은 보통 스트링 프로세스 라고 한다. Velocity가 얼마냐에 따라서 데이터처리 기술이 많이 달라진다.
Variety 측면은 데이터의 다양성인데, 예를들어 데이터가 아무리 다양해도 볼륨이 작으면 큰 빅데이터 기술이 필요하지 않을 수 있겠다. 데이터의 복잡도를 넓히는 측면이다.
확장 가능한 방식으로 데이터를 저장하고 분석하는 분산컴퓨팅 기법으로 접근이 필요하다. 왜냐하면 기존의 데이터 웨어하우스는 하나의 컴퓨터로 돌아가는 커다란 데이터베이스였는데 이렇게 하면 싱글 노드가 처리할 수 있는 데이터베이스가 한계가 있기 때문에 확장가능하지 않다.그래서 최근에는 parralel database (병렬 데이터베이스)도 나온다. 결과적으로 컴퓨터 하나에 꽂을 수 있는 하드가 제한되어있으니까 컴퓨터들을 늘리는 것으로 접근할 수 밖에 없다.