일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터란
- 데이터 분석 정의
- 데이터 정제
- 데이터프레임 생성
- 변수선택
- R 데이터프레임
- R프로그래밍
- 반정형 데이터
- 변수축소
- 스크리산점도
- 비정형 데이터
- 데이터 분석 과정
- 데이터 개념
- 데이터 병합
- R 통계분석
- 데이터 특징
- prcomp
- 정보 생산량
- 데이터 분석 프로세스
- 데이터 스케일링
- 데이터 과학
- 조건문
- R 프로그래밍
- 주성분행렬
- 데이터 분석 순서
- 정형 데이터
- R merge
- princomp
- R 부분합
- 분석 프로세스
- Today
- Total
D-과학 이야기
[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표 본문
[R 프로그래밍] 데이터 병합 및 요약/ merge/ aggregate/ subset/ 부분합/ 도수분포표
타민희 2020. 11. 30. 17:06
# R 프로그래밍/데이터 과학/ 데이터 병합 및 요약/ merge 함수/ aggregate/ subset/ 부분합/ 도수분포표/ 데이터 전처리
1. merge 함수
- merge 함수는 두 데이터프레임을 특정 칼럼의 값이 같은 행을 기준으로 병합한다. 데이터 전처리 시 유용하게 사용된다.
- merge(데이터프레임1, 데이터프레임2, by='기준이 되는 칼럼명', by.x='칼럼명', by.y='칼럼명', all=T)
- by.x, by.y의 경우에는 기준이 되는 칼럼명이 두 데이터프레임 안에서 다른 이름일 때, 지정해주는 옵션
- all 옵션은 기준 칼럼에 값이 없을 때 어떻게 처리할지 나타내는 옵션값이다. all=T일 경우 두 데이터프레임 중 공통 값을 가지고 있지 않은 행에 대해서는 NA로 채운 후, 전체 행이 병합되며, all=F일 경우에는 두 데이터프레임 모두가 공통 값을 가지고 있는 행만 병합된다.
- (예)
name<-data.frame(num=c(1,2,3,4,5), name=c("K","A","B","C","D"))
age<-data.frame(num=c(1,4,5,6,3,8,7), score=c(35,26,73,43,25,67,89))
merge(name,age, by="num")
- name, age 두 데이터 프레임이 num 칼럼을 기준으로 병합된 것을 확인할 수 있다.
- merge 함수의 옵션 중 all=T를 수행하면, 공통 값이 없는 행도 모두 병합되어 나타난 것을 볼 수 있다. 단, 공통 값이 없는 경우에는 NA로 나타난다.
2. aggregate
- 특정 칼럼을 기준으로 데이터 그룹함수 적용
- aggregate(데이터명, by, 적용함수)
- aggregate(formula, 데이터명, 적용함수)
- mtcars 데이터 셋이 gear을 기준으로 mpg의 평균을 구해진 것을 확인할 수 있다.
3. 도수분포표, 상대도수 분포 알아보기(table, prob.table)
- 도수분포표와 상대도수의 비율을 통해 데이터의 분포를 알아볼 수 있다.
- table(변수) : 단, 변수는 범주형 변수를 넣어야 함
- table(변수1, 변수2) : 두 변수 간의 이원분할표
- prob.table(table 객체, 1 또는 2) : 1일 경우에 행별, 2일 경우에는 열별 상대도수를 알 수 있음
4. subset 함수
- 전체 데이터셋에서 어떤 조건을 만족하는 데이터 추출
- subset(데이터명, subset= 특정조건, select=c(조회하고자 하는 변수1, 조회변수2, ...))
- subset(mtcars, subset=(gear=="3" & hp>=110 ),
select=c(gear,hp,mpg))
- subset 함수 결과를 살펴보면, gear가 3이고 hp가 110이상인 데이터셋이 추려진 것을 볼 수 있다. 조회하고자 하는 변수는 자신이 결과값에 표현하고자 하는 변수라고 생각하면 된다. select에 선택된 세가지 변수, gear, hp, mpg만 겨로가값에 포함된 것을 확인할 수 있다.
▼ R 프로그래밍 데이터 과학/ 데이터 표준화, 정규화, 스케일링 방법 알아보기 ▼
[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform
# R 프로그래밍/ 데이터 과학/ 데이터 표준화/ 정규화/ 스케일링/ scale/ transform/ 사용자 정의 함수 * 데이터 분석을 수행하기 전, 대부분 데이터 스케일링(Scaling)이 필요하다. 데이터 스케일링이란
datasciencee.tistory.com
▼ R 프로그래밍 데이터 과학/ 주성분 분석 이해와 변수 축소, 다중공선성, 스크리 산점도 등 ▼
[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp
# R 프로그래밍 / 주성분 분석 이해와 변수 축소/ 다중공선성/ 스크리 산점도/ 상관관계/ 데이터 과학 1. 주성분 분석에 대한 이해 주성분 분석이란, 데이터를 축소하는 기법으로, 데이터 내에서
datasciencee.tistory.com
'PROGRAMMING > R studio' 카테고리의 다른 글
[R 프로그래밍] 데이터 표준화/ 정규화/ 스케일링/ scale/ 사용자 정의 함수/ transform (0) | 2020.11.30 |
---|---|
[R 프로그래밍] 주성분 분석 이해와 변수 축소/ 다중공선성/스크리 산점도/상관관계/ princomp /prcomp (0) | 2020.11.27 |
[R] 프로그래밍 데이터 변환 /파생변수 생성 within transform /데이터프레임 생성 (0) | 2020.11.27 |
[R] 제어문 2. 반복문 while, for, repeat 함수 (0) | 2020.11.26 |
[R] 제어문 1. 조건문 if/else 와 ifelse 함수 (0) | 2020.11.26 |