D-과학 이야기

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform 본문

PROGRAMMING/R studio

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform

타민희 2020. 11. 30. 15:18

 

R 프로그래밍 데이터 표준화 정규화 스케일링

 

# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수

 

 * 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란, 데이터 범위가 같아지도록 데이터 값을 조정하는 것을 의미한다. 표준화와 정규화의 방법이 있으며, 이를 통해 같은 기준으로 데이터를 분석하고 해석할 수 있기에 매우 유용하다.

 

 

1. 표준화(Standardization)

 

  - 표준화는 데이터의 평균을 기준으로 값을 조정하는 과정이다.

  - scale(데이터명, center=TRUE, scale=TRUE)

  - center 옵션은 데이터에서 데이터의 평균을 뺀다.

  - scale 옵션은 center가 FALSE일 경우에는 나누는 과정이 생략되며, center=T, scale=T일 경우에는 데이터의 평균을 뺀 후, 표준편차로 나눈다.

  - (예)data.frame(USArrests)

         df <- transform(df,Murder_s=scale(df$Murder),Assault_s=scale(df$Assault))

 

transform을 이용한 데이터프레임 scale 스케일링

 

2. 정규화(Normalization)

 

  - 정규화는 데이터 범위를 0~1 사이로 조정하는 방법이다. 보통 min-max 정규화를 스케일링에서 많이 사용하는데, min-max 정규화는 (x1-min)/(max-min) 으로 각 데이터 값을 구하게 된다.

  - (예)df_n<-data.frame(USArrests)

df_min<-min(df_n$Murder)
df_max<-max(df_n$Murder)

df_n$new_murder<-scale(df_n$Muder, center=df_min, scale=df_max-df_min)

 

 

scale 변수 추가한 데이터 프레임 모습

 

  - new_murder 새로운 변수가 0~1사이의 값으로 변환된 것을 확인할 수 있다.

  

 * 사용자 정의 함수로 정규화 수행하기!

  - normal <- function(x){
  return((x-min(x))/ (max(x) -min(x)))
}

 

사용자 정의함수로 수행한 정규화

 

 


▼ R 프로그래밍 주성분 분석, 변수 축소, 상관관계, 다중공선성

 

[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp

# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해  주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서

datasciencee.tistory.com

▼ R 프로그래밍 데이터 과학/ 데이터 변환, 파생변수 생성 transform, within 함수 

 

[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성

* 파생변수란, 기존의 변수를 더하거나 빼는 등 다양한 조건이나 함수를 활용하여 생성한 변수 1. transform 함수  - 데이터프레임에 새로운 변수 추가  - transform(데이터프레임명, 파생변수=생성식,

datasciencee.tistory.com

 

Comments