일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 정보 생산량
- 비정형 데이터
- 데이터 스케일링
- 스크리산점도
- 조건문
- R 데이터프레임
- R프로그래밍
- princomp
- 데이터프레임 생성
- R 통계분석
- 변수선택
- 데이터 분석 과정
- 데이터 분석 순서
- 분석 프로세스
- 변수축소
- 데이터 개념
- R 프로그래밍
- 데이터 분석 프로세스
- 데이터란
- 데이터 과학
- prcomp
- 데이터 분석 정의
- 데이터 정제
- 주성분행렬
- R merge
- 데이터 병합
- 데이터 특징
- R 부분합
- 정형 데이터
- 반정형 데이터
- Today
- Total
D-과학 이야기
[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform 본문
[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform
타민희 2020. 11. 30. 15:18# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수
* 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란, 데이터 범위가 같아지도록 데이터 값을 조정하는 것을 의미한다. 표준화와 정규화의 방법이 있으며, 이를 통해 같은 기준으로 데이터를 분석하고 해석할 수 있기에 매우 유용하다.
1. 표준화(Standardization)
- 표준화는 데이터의 평균을 기준으로 값을 조정하는 과정이다.
- scale(데이터명, center=TRUE, scale=TRUE)
- center 옵션은 데이터에서 데이터의 평균을 뺀다.
- scale 옵션은 center가 FALSE일 경우에는 나누는 과정이 생략되며, center=T, scale=T일 경우에는 데이터의 평균을 뺀 후, 표준편차로 나눈다.
- (예)data.frame(USArrests)
df <- transform(df,Murder_s=scale(df$Murder),Assault_s=scale(df$Assault))
2. 정규화(Normalization)
- 정규화는 데이터 범위를 0~1 사이로 조정하는 방법이다. 보통 min-max 정규화를 스케일링에서 많이 사용하는데, min-max 정규화는 (x1-min)/(max-min) 으로 각 데이터 값을 구하게 된다.
- (예)df_n<-data.frame(USArrests)
df_min<-min(df_n$Murder)
df_max<-max(df_n$Murder)
df_n$new_murder<-scale(df_n$Muder, center=df_min, scale=df_max-df_min)
- new_murder 새로운 변수가 0~1사이의 값으로 변환된 것을 확인할 수 있다.
* 사용자 정의 함수로 정규화 수행하기!
- normal <- function(x){
return((x-min(x))/ (max(x) -min(x)))
}
▼ R 프로그래밍 주성분 분석, 변수 축소, 상관관계, 다중공선성 ▼
[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp
# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해 주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서
datasciencee.tistory.com
▼ R 프로그래밍 데이터 과학/ 데이터 변환, 파생변수 생성 transform, within 함수 ▼
[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성
* 파생변수란, 기존의 변수를 더하거나 빼는 등 다양한 조건이나 함수를 활용하여 생성한 변수 1. transform 함수 - 데이터프레임에 새로운 변수 추가 - transform(데이터프레임명, 파생변수=생성식,
datasciencee.tistory.com
'PROGRAMMING > R studio' 카테고리의 다른 글
[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표 (0) | 2020.11.30 |
---|---|
[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp (0) | 2020.11.27 |
[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성 (0) | 2020.11.27 |
[R] 제어문 2. 반복문 while, for, repeat 함수 (0) | 2020.11.26 |
[R] 제어문 1. 조건문 if/else 와 ifelse 함수 (0) | 2020.11.26 |