일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- prcomp
- 스크리산점도
- 데이터 개념
- R 프로그래밍
- 데이터 분석 과정
- 데이터프레임 생성
- 정형 데이터
- R프로그래밍
- 데이터 정제
- 비정형 데이터
- R merge
- 데이터 분석 정의
- R 부분합
- princomp
- 데이터란
- 분석 프로세스
- R 데이터프레임
- 변수선택
- 데이터 분석 순서
- 반정형 데이터
- 정보 생산량
- 조건문
- 주성분행렬
- 변수축소
- 데이터 특징
- 데이터 과학
- 데이터 스케일링
- 데이터 병합
- R 통계분석
- 데이터 분석 프로세스
- Today
- Total
목록전체 글 (10)
D-과학 이야기
# 데이터 분석 프로세스의 이해 데이터 분석의 정의, 분석 프로세스, 예시 데이터 분석이란, 데이터를 정리, 변환, 모델링하는 과정을 통해 유용한 정보를 발굴하고 의사결정을 지원하는 것을 말합니다. 대표적인 예시로는 서울시와 KT가 함께 진행한 프로젝트 인데요. 서울시는 KT의 심야시간대 휴대폰 통신 데이터 30억여건과 택시 승하차 데이터 500만건을 융합 분석하여, 심야 노선을 최적화했습니다. 유동인구의 밀집도와 패턴을 시각화 분석하여 노선, 요일별로 인구 패턴을 도출해내어 유의미한 정보를 도출한 것이죠. 이렇게 도출된 올빼미 버스 9개의 노선을 시범운영한 결과, 일반 시내버스와 비교하여 25%나 높은 이용률을 보였다고 합니다. 게다가 이러한 심야 버스 노선은 지금도 지속적으로 업데이트 중이랍니다! 이..
# 데이터의 이해 데이터 종류, 빅데이터 개념, 전 세계 데이터 축적 속도 등 언젠가부터 빅데이터라는 용어가 큰 이슈로 떠오르더니, 전 세계적으로 각 기업, 정부들이 앞다투어 데이터에 대한 관심을 드러내며 많은 분야에서 활용해오고 있습니다. 그렇다면, 데이터란 무엇일까요? 데이터는 사전적으로 정의하면, 재료, 자료, 논거라는 뜻인 datum의 복수형이라고 정의할 수 있습니다. 데이터란, 모든 분석 혹은 활용가능한 디지털화된 자료이자 정보로 정의할 수 있죠, 데이터는 의미 있는 정보를 모든 값으로, 사람이나 기계가 생성하고 처리하는 형태로 표시된 것입니다. 데이터는 세가지로 분류되는데요. 정형, 반정형, 비정형 데이터입니다. 먼저, 정형 데이터는 구조화되어 있는 데이터로, 우리가 많이 사용하고 있는 엑셀(..
[Python] 파이썬, 아나콘다 설치/ 실행환경 만들기 ✅ 여기서 잠깐! 데이터 분석 도구 파이썬(anaconda)을 설치할 때 가장 중요한 것은 파이썬의 버전과 아나콘다의 버전이 꼭 같아야 한다는 점, 유의하여 주시기 바랍니다! 다른 버전을 설치했을 때는, 특정 패키지가 돌아가지 않을 수 있어요.😢 1. 아나콘다 설치 www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.c..
# R 프로그래밍/데이터 과학/ 데이터 병합 및 요약/ merge 함수/ aggregate/ subset/ 부분합/ 도수분포표/ 데이터 전처리 1. merge 함수 - merge 함수는 두 데이터프레임을 특정 칼럼의 값이 같은 행을 기준으로 병합한다. 데이터 전처리 시 유용하게 사용된다. - merge(데이터프레임1, 데이터프레임2, by='기준이 되는 칼럼명', by.x='칼럼명', by.y='칼럼명', all=T) - by.x, by.y의 경우에는 기준이 되는 칼럼명이 두 데이터프레임 안에서 다른 이름일 때, 지정해주는 옵션 - all 옵션은 기준 칼럼에 값이 없을 때 어떻게 처리할지 나타내는 옵션값이다. all=T일 경우 두 데이터프레임 중 공통 값을 가지고 있지 않은 행에 대해서는 NA로 채운 후..
# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수 * 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란, 데이터 범위가 같아지도록 데이터 값을 조정하는 것을 의미한다. 표준화와 정규화의 방법이 있으며, 이를 통해 같은 기준으로 데이터를 분석하고 해석할 수 있기에 매우 유용하다. 1. 표준화(Standardization) - 표준화는 데이터의 평균을 기준으로 값을 조정하는 과정이다. - scale(데이터명, center=TRUE, scale=TRUE) - center 옵션은 데이터에서 데이터의 평균을 뺀다. - scale 옵션은 center가 FALSE일 경우에는 나누는 과정이 생략되며,..
# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해 주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서 서로 상관성이 높은 변수들의 선형결합으로 이루어진 주성분이라는 새 변수를 생성한다. 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 해야하며, 각 주성분은 서로 독립이어야 한다. 첫번째 주성분으로는 전체 변동을 가장 많이 설명 가능해야 한다. 다중공선성이란, 독립변수들 간에 강한 상관관계가 존재하는 성질이다. 즉, 다중공선성이 크면, 독립변수들이 서로 독립이어야 한다는 회귀분석의 가정을 위배하는 경우라고 판단할 수 있다. 다중공선성이 존재하면, 주성분 분석을 통해 변수를 축소하여야 한다. 주성분(Princi..
* 파생변수란, 기존의 변수를 더하거나 빼는 등 다양한 조건이나 함수를 활용하여 생성한 변수 1. transform 함수 - 데이터프레임에 새로운 변수 추가 - transform(데이터프레임명, 파생변수=생성식, 파생변수2=생성식2, ... ) * 단, transform 함수만을 실행한다면, 기존 데이터프레임이 변경되지 않는다. 기존 데이터 프레임에 파생변수를 추가하고자 한다면, newiris
1. while - 반복 횟수 지정 없이 주어진 조건이 만족하는동안 계속해서 반복을 수행 - 변수 초기값 설정/ while(조건문) {실행문} * 단, 실행문은 주어진 조건문이 참일 경우에만 실행된다. - (예) year
1. if/else - 조건식을 기준으로 조건이 참/거짓일 때 처리 방식을 다르게 하려는 경우 - if(조건문) {실행문 또는 함수} / else if(조건문) {실행문 또는 함수} / else {실행문 또는 함수} * else if 와 else의 경우에는 생략이 가능 - (예) x
1. 현재 작업공간(디렉토리, directory) 확인 및 설정하기 ① getwd() 함수 - 현재 작업을 저장하는 폴더(디렉토리) 확인 - (예) getwd() / 바로 디렉터리 주소 확인 ② setwd() 함수 - 작업공간(디렉토리) 변경 - (예) setwd('C:/Users/Downloads') / ''안의 디렉터리 주소로 변경 2. 데이터 저장하기 ① sink() 함수 - 출력결과를 파일로 저장 - (예) sink('sinkfile.txt') summary(iris) sink() / 마지막으로 출력하길 원하는 결과 뒤에 sink()로 끝맺음, 이후 txt파일에 결과확인! ② write.csv() 함수 - 객체를 엑셀파일(쉼표로 분리된 csv 파일)로 외부 저장 - ,(쉼표)가 구분자 - (예) ..