일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 자바
- 자바 디자인패턴
- 파이썬
- 백준
- String 함수
- 백준 12761
- golang struct
- http 개념
- 12761 돌다리
- MongoDB Realm
- ddd
- 몽고디비 렘
- 고 배열
- 하둡
- flask
- 우분투
- 백준 12761번
- 도메인 주도 개발 시작하기
- 자바 디자인 패턴
- golang
- 도메인 주도 개발
- 12761번 돌다리
- domain driven develop
- 백준 파이썬
- http 완벽가이드
- hadoop
- 백준 사이트
- 정렬
- go
- 트리 순회
- Today
- Total
개발바닥
빅데이터 정의 본문
요즘 기업에서 빅데이터를 활용하여 제품 개선, 소비자 분석, 동향 예측을 통해서 수익을 올리고 있고,
빅데이터 처리와 하둡의 이용이 꾸준히 증가하고 있으며, 데이터 분석 및 IoT 관련 예산도 점차 증가하고 있는 추세이다.
빅데이터 개념에 대해서 알아보겠습니다.
빅데이터란 무엇인가?
기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 정의하고 있다. 처음에는 데이터 규모와 기술 측면에서 출발했으나 빅데이터의 가치와 활용 효과 측면으로 의미가 확대되는 추세이다.
대표적인 사례로 빅데이터를 활용한 심야버스 노선이 구축된 사례가 있다.
휴대폰 통화량을 기반으로 한 KT의 유동인구 데이터와 시가 보유한 교통 데이터를 융합 , 분석해 최적의 심야버스 노선을 구축하였다.
빅데이터는 정형화 데이터, 반정형화된 데이터, 비정형화 데이터로 구분할 수 있다.
정형화 데이터는 그 자체로 의미 해석이 가능하며, 바로 활용할 수 있는 정보를 내포
반정형화 데이터는 표나 그림이 될 수도 있지만 일반적으로 문자로 서술된 정보를 담고 있다.
비정형화 데이터는 스마트 기기 등을 통해서 형성되는 데이터로 페이스북, 트위트,카카오톡,라인 등으로 상호 교류되는 정보가 이에 해당된다.
빅데이터에서 중요한 것은 형식적인 데이터 소스 내에서 외부로 새로운 가치를 창출할 수 있느냐 하는 것이다.
축적된 데이터를 갖고 무엇을 분석할 것인가에 대한 문제 제기가 필요하다.
빅데이터는 5V로 규모(Volume) , 다양성(Variety), 속도(Velocity), 정확성(Veracity), 가치(Value) 5가지 구성 요소를 갖추어야 한다.
기존의 데이터 처리 방식과 빅데이터 처리 방식의 차이점에 대해서 알아보겠습니다.
구분 |
기존의 데이터 처리 방식 |
빅데이터 처리 방식 |
데이터 트래픽 |
테라바이트 수준 |
페타바이트 수준 장기간의 정보 수집 및 분석 방대한 데이터 처리량 |
데이터 유형 |
정형 데이터 중심 |
비정형 데이터의 비중이 높음(카카오톡,라인 등) 처리의 복잡성 증대 |
프로세스 및 기술 |
단순한 프로세스 및 기술 정형화된 처리/분석결과 원인/결과 규모 중심 |
다양한 데이터 소스 및 복잡한 로직 처리 데이터 처리 복잡도가 높아 분산 처리기술 필요 상관관계 규명 중심 새롭고 다양한 처리 방법 개발 필요 Hadoop, R, NoSql 등 개방형 소프트웨어 |