D-과학 이야기

[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표 본문

PROGRAMMING/R studio

[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표

타민희 2020. 11. 30. 17:06

R 프로그래밍 데이터 병합 및 요약

 

 

# R 프로그래밍/데이터 과학/ 데이터 병합 및 요약/ merge 함수/ aggregate/ subset/ 부분합/ 도수분포표/ 데이터 전처리

 

1. merge 함수

 

  - merge 함수는 두 데이터프레임을 특정 칼럼의 값이 같은 행을 기준으로 병합한다. 데이터 전처리 시 유용하게 사용된다.

  - merge(데이터프레임1, 데이터프레임2, by='기준이 되는 칼럼명', by.x='칼럼명', by.y='칼럼명', all=T)

  - by.x, by.y의 경우에는 기준이 되는 칼럼명이 두 데이터프레임 안에서 다른 이름일 때, 지정해주는 옵션

  - all 옵션은 기준 칼럼에 값이 없을 때 어떻게 처리할지 나타내는 옵션값이다. all=T일 경우 두 데이터프레임 중 공통 값을 가지고 있지 않은 행에 대해서는 NA로 채운 후, 전체 행이 병합되며, all=F일 경우에는 두 데이터프레임 모두가 공통 값을 가지고 있는 행만 병합된다. 

  - (예)

name<-data.frame(num=c(1,2,3,4,5), name=c("K","A","B","C","D"))

age<-data.frame(num=c(1,4,5,6,3,8,7), score=c(35,26,73,43,25,67,89))

merge(name,age, by="num")

 

데이터 프레임 예시(병합 전)
데이터 프레임 예시(merge 병합 후)

 

  - name, age 두 데이터 프레임이 num 칼럼을 기준으로 병합된 것을 확인할 수 있다. 

데이터 프레임 예시(merge all=T 병합 후)

  - merge 함수의 옵션 중 all=T를 수행하면, 공통 값이 없는 행도 모두 병합되어 나타난 것을 볼 수 있다. 단, 공통 값이 없는 경우에는 NA로 나타난다.

 

 

2. aggregate

 

  - 특정 칼럼을 기준으로 데이터 그룹함수 적용

  - aggregate(데이터명, by, 적용함수)

  - aggregate(formula, 데이터명, 적용함수)

 

aggregate 함수를 통한 데이터 요약
aggregate 함수 결과(데이터 요약)

  - mtcars 데이터 셋이 gear을 기준으로 mpg의 평균을 구해진 것을 확인할 수 있다.

 

 

3. 도수분포표, 상대도수 분포 알아보기(table, prob.table)

 

  - 도수분포표와 상대도수의 비율을 통해 데이터의 분포를 알아볼 수 있다.

  - table(변수) : 단, 변수는 범주형 변수를 넣어야 함

  - table(변수1, 변수2) : 두 변수 간의 이원분할표

 

  - prob.table(table 객체, 1 또는 2) : 1일 경우에 행별, 2일 경우에는 열별 상대도수를 알 수 있음

 

 

4. subset 함수

 

  - 전체 데이터셋에서 어떤 조건을 만족하는 데이터 추출

  - subset(데이터명, subset= 특정조건, select=c(조회하고자 하는 변수1, 조회변수2, ...))

  - subset(mtcars, subset=(gear=="3" & hp>=110 ),
       select=c(gear,hp,mpg))

 

subset 함수 결과

  - subset 함수 결과를 살펴보면, gear가 3이고 hp가 110이상인 데이터셋이 추려진 것을 볼 수 있다. 조회하고자 하는 변수는 자신이 결과값에 표현하고자 하는 변수라고 생각하면 된다. select에 선택된 세가지 변수, gear, hp, mpg만 겨로가값에 포함된 것을 확인할 수 있다.

 


▼ R 프로그래밍 데이터 과학/ 데이터  표준화, 정규화, 스케일링 방법 알아보기

 

 

[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform

# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수  * 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란

datasciencee.tistory.com

 

▼ R 프로그래밍 데이터 과학/ 주성분 분석 이해와 변수 축소, 다중공선성, 스크리 산점도 등 

 

 

[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp

# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해  주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서

datasciencee.tistory.com

 

Comments