D-과학 이야기

[데이터 분석] 정의, 분석 프로세스, 예시 본문

DATA SCIENCE/Data Analysis

[데이터 분석] 정의, 분석 프로세스, 예시

타민희 2021. 7. 16. 18:41

# 데이터 분석 프로세스의 이해

데이터 분석 프로세스 정의

데이터 분석의 정의, 분석 프로세스, 예시

 

 

데이터 분석이란, 데이터를 정리, 변환, 모델링하는 과정을 통해 유용한 정보를 발굴하고 의사결정을 지원하는 것을 말합니다. 대표적인 예시로는 서울시와 KT가 함께 진행한 <서울시 심야 노선 신설 체계 구축> 프로젝트 인데요. 서울시는 KT의 심야시간대 휴대폰 통신 데이터 30억여건과 택시 승하차 데이터 500만건을 융합 분석하여, 심야 노선을 최적화했습니다. 유동인구의 밀집도와 패턴을 시각화 분석하여 노선, 요일별로 인구 패턴을 도출해내어 유의미한 정보를 도출한 것이죠. 이렇게 도출된 올빼미 버스 9개의 노선을 시범운영한 결과, 일반 시내버스와 비교하여 25%나 높은 이용률을 보였다고 합니다. 게다가 이러한 심야 버스 노선은 지금도 지속적으로 업데이트 중이랍니다!

 

 

이처럼, 데이터 분석이란, 산재된 퍼즐조각을 맞추어 의미 있는 인사이트나 가치를 이끌어내는 것이라고 저는 생각해요. 위의 예시에서처럼, 어쩌면 필요 없어보이는 개개인의 통신 데이터를 융합하여, 보다 효율적인 버스 노선 체계를 구축했던 것 처럼요. 😉

 

 

 

그렇다면, 데이터 분석은 어떤 프로세스로 운영될까요?

 

데이터 분석 프로세스(출처: AIHR academy to innovate HR

 

AIHR academy to innovate HR 사에서는 위와 같이 5단계 순서로 데이터 분석 프로세스를 제시하고 있습니다.

 

 

 

 

1단계. 질문 및 문제정의

 

데이터 분석을 시작하기 전, 분석을 통해 알고 싶은 것이 무엇인지를 명확히 정의하는 과정입니다.

우리는 이 단계에서 "데이터에서 무엇에 대한 답을 원하는가?" 에 대한 답을 명확히 하고, 분석의 방향성을 구체적으로 잡아야 되죠.

 

 

 

2단계. 데이터 수집

 

데이터 수집이란, 다양한 유형의 데이터를 수집하는 것으로, 구체적인 방법으로는 업무 중에 생성된 데이터를 활용하기, 공공포털에서 공공데이터를 다운로드 하기, 인터넷에서 웹크롤링하기, 센서 설치를 통해 센서 데이터를 저장하고 수집하기 등 네가지로 축약해볼 수 있습니다.

 

 

 

3단계. 데이터 정제

 

데이터 정제란, 수집한 데이터를 분석이 가능한 형태로 처리하는 과정입니다. 보통은 데이터를 수집하게 되면, 분석 도구가 읽을 수 없거나 우리가 원하는 형태로 되어있지 않는 경우가 대다수입니다. 그래서 우리는 실제 분석에 들어가기 전에 수집된 데이터를 정제해야 하는 것이죠. 사실 데이터 정제에 소요되는 시간, 인력 등이 전체 데이터 분석과정의 70%를 차지합니다. 특히 정제 여부나 방법에 따라서 분석 결과가 달라질 수 있으므로 매우 중요한 과정인 셈이죠.

 

데이터 정제의 방법에는 변수 선택, 결측치 처리, 이상치 처리, 변수 가공 등이 있는데요. 그 자세한 내용은 다시 포스팅 하도록 하겠습니다.

 

 

 

4단계. 데이터 분석

 

실제로 데이터를 분석하는 과정입니다. 크게는 기술 통계분석, 추론 통계분석, 데이터마이닝 분석 등 세가지로 나눠볼 수 있는데요. 기술 통계분석은 데이터의 빈도, 비율, 평균, 분산 등 일반적인 수치 특성을 분석하는 과정입니다. 추론 통계분석은 평균차이, 독립성, 적합도 분석, 상관분석, 회귀분석, 시계열 분석 등 표본을 통해 모집단의 특성을 추론하는 분석방법 입니다. 마지막으로 데이터마이닝 분석은 군집분석, 연관분석, 분류분석, 텍스트마이닝 등 대규모 데이터의 패턴이나 규칙을 분석하는 것입니다.

 

 

 

 

5단계. 해석 및 활용

 

이제 분석된 결과를 해석하고 활용할 차례인데요. 데이터 활용이란, 데이터 분석을 통해 추출한 가치 있는 정보 및 지식을 활용하여, 문제 또는 환경에 능동적으로 대응하거나 변화 예측에 이용하는 것을 뜻합니다.

 

이렇게 데이터를 활용하게 되면, 현황을 파악하고 과제를 해결하거나, 새 비즈니스 기회를 모색하고 의사결정을 지원할 수 있다는 이점이 있습니다.

 

 

 

결국은 좋은 데이터 분석결과를 얻기위해서는, 분석과정의 각 단계가 잘 수행되어야겠죠? 😊

 

 

Comments