[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

D-과학 이야기

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform 본문

PROGRAMMING/R studio

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform

타민희 2020. 11. 30. 15:18

# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수

* 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란, 데이터 범위가 같아지도록 데이터 값을 조정하는 것을 의미한다. 표준화와 정규화의 방법이 있으며, 이를 통해 같은 기준으로 데이터를 분석하고 해석할 수 있기에 매우 유용하다.

1. 표준화(Standardization)

- 표준화는 데이터의 평균을 기준으로 값을 조정하는 과정이다.

- scale(데이터명, center=TRUE, scale=TRUE)

- center 옵션은 데이터에서 데이터의 평균을 뺀다.

- scale 옵션은 center가 FALSE일 경우에는 나누는 과정이 생략되며, center=T, scale=T일 경우에는 데이터의 평균을 뺀 후, 표준편차로 나눈다.

- (예)data.frame(USArrests)

df <- transform(df,Murder_s=scale(df$Murder),Assault_s=scale(df$Assault))

2. 정규화(Normalization)

- 정규화는 데이터 범위를 0~1 사이로 조정하는 방법이다. 보통 min-max 정규화를 스케일링에서 많이 사용하는데, min-max 정규화는 (x1-min)/(max-min) 으로 각 데이터 값을 구하게 된다.

- (예)df_n<-data.frame(USArrests)

df_min<-min(df_n$Murder)
df_max<-max(df_n$Murder)

df_n$new_murder<-scale(df_n$Muder, center=df_min, scale=df_max-df_min)

- new_murder 새로운 변수가 0~1사이의 값으로 변환된 것을 확인할 수 있다.

* 사용자 정의 함수로 정규화 수행하기!

- normal <- function(x){
return((x-min(x))/ (max(x) -min(x)))
}

▼ R 프로그래밍 주성분 분석, 변수 축소, 상관관계, 다중공선성 ▼

[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp

# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해 주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서

datasciencee.tistory.com

▼ R 프로그래밍 데이터 과학/ 데이터 변환, 파생변수 생성 transform, within 함수 ▼

[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성

* 파생변수란, 기존의 변수를 더하거나 빼는 등 다양한 조건이나 함수를 활용하여 생성한 변수 1. transform 함수 - 데이터프레임에 새로운 변수 추가 - transform(데이터프레임명, 파생변수=생성식,

datasciencee.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'PROGRAMMING > R studio' 카테고리의 다른 글

[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표 (0)	2020.11.30
[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp (0)	2020.11.27
[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성 (0)	2020.11.27
[R] 제어문 2. 반복문 while, for, repeat 함수 (0)	2020.11.26
[R] 제어문 1. 조건문 if/else 와 ifelse 함수 (0)	2020.11.26

'PROGRAMMING/R studio' Related Articles

Comments

D-과학 이야기

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform 본문

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform

# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수

'PROGRAMMING > R studio' 카테고리의 다른 글

티스토리툴바