일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터란
- 데이터 병합
- 조건문
- 반정형 데이터
- 데이터 정제
- R merge
- 주성분행렬
- R 데이터프레임
- 데이터프레임 생성
- 데이터 과학
- 데이터 분석 순서
- 데이터 스케일링
- R 프로그래밍
- 비정형 데이터
- 데이터 개념
- 스크리산점도
- R프로그래밍
- R 부분합
- princomp
- 데이터 분석 과정
- 변수축소
- 분석 프로세스
- prcomp
- 데이터 특징
- 변수선택
- 데이터 분석 프로세스
- R 통계분석
- 정형 데이터
- 데이터 분석 정의
- 정보 생산량
- Today
- Total
D-과학 이야기
[데이터 이해] 데이터 종류, 빅데이터 개념, 디지털 정보량, 생산량 본문
# 데이터의 이해
데이터 종류, 빅데이터 개념, 전 세계 데이터 축적 속도 등
언젠가부터 빅데이터라는 용어가 큰 이슈로 떠오르더니, 전 세계적으로 각 기업, 정부들이 앞다투어 데이터에 대한 관심을 드러내며 많은 분야에서 활용해오고 있습니다.
그렇다면, 데이터란 무엇일까요?
데이터는 사전적으로 정의하면, 재료, 자료, 논거라는 뜻인 datum의 복수형이라고 정의할 수 있습니다. 데이터란, 모든 분석 혹은 활용가능한 디지털화된 자료이자 정보로 정의할 수 있죠, 데이터는 의미 있는 정보를 모든 값으로, 사람이나 기계가 생성하고 처리하는 형태로 표시된 것입니다.
데이터는 세가지로 분류되는데요. 정형, 반정형, 비정형 데이터입니다.
먼저, 정형 데이터는 구조화되어 있는 데이터로, 우리가 많이 사용하고 있는 엑셀(xlsx)파일이나 CSV 파일 등 정형화된 형태를 가진 데이터를 일컫습니다.
두번째는 반정형 데이터인데요. 반정형 데이터는 형태가 있지만 연산이 불가능한 데이터로, 주로 데이터 형태로 판단할 수 있습니다. 예시로는 XML, HTML, JSON, 로그 데이터 등이 반정형 데이터에 해당합니다.
마지막으로, 비정형 데이터는 형태가 없고 연산도 불가능한 데이터로, 앞서 살펴본 정형 데이터와 반정형 데이터를 제외한 모든 데이터가 비정형 데이터에 해당됩니다. 우리가 자주 사용하는 소셜 네트워크(SNS) 데이터, 동영상 데이터, 음성 데이터, 또는 PDF 형태의 텍스트 파일 모두가 비정형 데이터인 것이죠!
그럼 빅데이터는 무엇일까요?
빅데이터란, 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기가 짧으며, 형태도 수치 데이터뿐 아니라, 문자와 영상 데이터를 포함하는 대규모 데이터입니다.
빅데이터는 기본적으로 3V 특징을 가지고 있는데요.
첫번째는, Volume(양)입니다. 이제는 기가바이트 정도가 아니라 테라, 페타, 제타바이트를 넘나드는 대용량의 데이터를 다룰 수 있게 되었구요. 두번째는 Velocity(속도)입니다. 변화하지 않는 자료가 아니라, 실시간으로 업데이트도 되고 스트리밍, 처리할 수 있는 데이터입니다. 이 처리 속도와 주기 등이 빨라졌습니다. 세번째는 바로 Variety(다양성)인데요. 앞서 살펴보았듯이 정형 데이터 뿐 아니라, 반정형, 비정형 데이터 등 그 모습이 굉장히 다양해졌습니다. 또한, 데이터의 원천의 유형과 수도 급속하게 늘어났죠.
사실 빅데이터는 이렇게 양, 속도, 다양성 측면에서 큰 특징을 보이는데요. 하지만 이전과는 달리 이제는 꼭 큰 규모의 데이터만을 빅데이터로 일컫는 것은 아닙니다. 이제는 데이터 뿐 아니라, 빅데이터를 다루는 기술과 사용 인프라 등 그 모든 것을 포함하는 용어로 정의되고 있어요.
데이터는 우리가 업무를 할 때, 스마트폰을 사용할 때도 끊임없이 생성되고 있습니다.
그렇다면, 매 1분동안 얼마나 많은 양의 데이터가 생산되고 있을까요?
궁금하지 않으신가요?
흥미롭게도 visualcapitalist에서는 2020년 매 1분마다 생성된 데이터의 양을 추산해보았습니다.
지금 이순간에도 인스타그램, 유튜브, 아마존 등에서는 쉴 새없이 데이터가 만들어지고 수집되고 있는 셈이죠. 한번 자세히 들여다보면, 매 1분 마다 유튜브에서는 500시간의 비디오 클립이 업로드되고 있고, 페이스북에서는 사용자들이 15만개의 메시지를 공유하고 있으며, 인스타그램에서는 약 35만개의 스토리가 올라오고 있습니다. 아마존에서는 6,600개가 넘는 배송이 되고 있으며, 넷플릭스에서는 40만 시간의 비디오가 스트리밍 되고 있다고 합니다.
어마어마하죠?
미국 시장조사기관인 IDC에 따르면, 2020년 전 세계 디지털 정보량은 90 제타바이트(ZB)로, 이 양을 기가바이트로 환산하면 99조 기가바이트(GB)에 해당합니다.
크게 와닿지 않으신다구요?
99조 기가바이트는 해리포터 책 6,500조권에 해당하는 수치이며, 일반 용량의 태블릿(128GB)으로 저장해서 쌓아올리면, 지구와 달 사이 거리(254,704km)의 약 15배에 달하는 양입니다! 지구와 달을 7번 왕복하고도 달까지 다시 갈 수 있는 거리인 것이죠.
이렇게 지금도 무수히 쏟아지고 있는 데이터를 우리가 잘 분석하고 활용만 한다면 새로운 가치와 의미를 이끌어낼 수 있다는 건, 분명한 사실이겠죠? :)
'DATA SCIENCE > Data Analysis' 카테고리의 다른 글
[데이터 분석] 정의, 분석 프로세스, 예시 (0) | 2021.07.16 |
---|