일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 스크리산점도
- 데이터 특징
- R 프로그래밍
- 조건문
- 데이터 분석 프로세스
- 변수축소
- 정형 데이터
- 데이터 분석 정의
- 데이터 분석 과정
- 반정형 데이터
- 변수선택
- 분석 프로세스
- 데이터 정제
- R merge
- 데이터프레임 생성
- 데이터 과학
- R 부분합
- 비정형 데이터
- 주성분행렬
- prcomp
- R 데이터프레임
- 데이터란
- R 통계분석
- 데이터 스케일링
- 데이터 분석 순서
- R프로그래밍
- 정보 생산량
- princomp
- 데이터 병합
- 데이터 개념
- Today
- Total
목록R프로그래밍 (3)
D-과학 이야기
# R 프로그래밍/데이터 과학/ 데이터 병합 및 요약/ merge 함수/ aggregate/ subset/ 부분합/ 도수분포표/ 데이터 전처리 1. merge 함수 - merge 함수는 두 데이터프레임을 특정 칼럼의 값이 같은 행을 기준으로 병합한다. 데이터 전처리 시 유용하게 사용된다. - merge(데이터프레임1, 데이터프레임2, by='기준이 되는 칼럼명', by.x='칼럼명', by.y='칼럼명', all=T) - by.x, by.y의 경우에는 기준이 되는 칼럼명이 두 데이터프레임 안에서 다른 이름일 때, 지정해주는 옵션 - all 옵션은 기준 칼럼에 값이 없을 때 어떻게 처리할지 나타내는 옵션값이다. all=T일 경우 두 데이터프레임 중 공통 값을 가지고 있지 않은 행에 대해서는 NA로 채운 후..
# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수 * 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란, 데이터 범위가 같아지도록 데이터 값을 조정하는 것을 의미한다. 표준화와 정규화의 방법이 있으며, 이를 통해 같은 기준으로 데이터를 분석하고 해석할 수 있기에 매우 유용하다. 1. 표준화(Standardization) - 표준화는 데이터의 평균을 기준으로 값을 조정하는 과정이다. - scale(데이터명, center=TRUE, scale=TRUE) - center 옵션은 데이터에서 데이터의 평균을 뺀다. - scale 옵션은 center가 FALSE일 경우에는 나누는 과정이 생략되며,..
# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해 주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서 서로 상관성이 높은 변수들의 선형결합으로 이루어진 주성분이라는 새 변수를 생성한다. 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 해야하며, 각 주성분은 서로 독립이어야 한다. 첫번째 주성분으로는 전체 변동을 가장 많이 설명 가능해야 한다. 다중공선성이란, 독립변수들 간에 강한 상관관계가 존재하는 성질이다. 즉, 다중공선성이 크면, 독립변수들이 서로 독립이어야 한다는 회귀분석의 가정을 위배하는 경우라고 판단할 수 있다. 다중공선성이 존재하면, 주성분 분석을 통해 변수를 축소하여야 한다. 주성분(Princi..