[R통계] 최솟값,최댓값,중앙값,평균,제1사분위수,제3사분위수 한번에 구하기(summary)
summary 함수는 최솟값,최댓값,중앙값,평균,제1사분위수,제3사분위수 한번에 구해주는 함수입니다. > summary(1:10) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.50 7.75 10.00
2020. 12. 30.
[R통계] 회귀분석 결측치 처리에서 omit 과 exclude 의 차이
회귀분석을 할 때 결측치를 처리하는 옵션은 na.action 입니다. 입력값은 아래 두가지 입니다. na.omit na.exclude na.omit 과 na.exclude 모두 결측값을 제외하는데, 결과 출력에 차이가 있습니다. na.omit 은 결과출력에서도 결측치를 제외하고 na.exclude 는 결과츨력에서는 결측치를 포함합니다. na.omit 적용 예시 > x=c(1,2,3,NA,NA) > y=c(2,3,5,7,11) > fit=lm(y~x,na.action=na.omit) > resid(fit) 1 2 3 0.1666667 -0.3333333 0.1666667 na.exclude 적용 예시 > x=c(1,2,3,NA,NA) > y=c(2,3,5,7,11) > fit=lm(y~x,na.action..
2020. 12. 26.
[R통계] 회귀분석 표현식에서 . 의 의미
종속변수가 y이고, 독립변수가 x1,x2,x3라고 합시다. 데이터가 아래와 같이 입력되어 있다고 합시다. > mydata=data.frame(y=c(1,2,3),x1=c(1,3,5),x2=c(2,4,6),x3=c(1,4,7)) > mydata y x1 x2 x3 1 1 1 2 1 2 2 3 4 4 3 3 5 6 7 회귀분석을 하려면 아래와 같이 표현식을 입력해야 합니다. lm(y~x1+x2+x3, mydata) 위 표현식을 쉽게 입력하는 방법이 있습니다. 점(.)을 사용하는 것입니다. 점은 모든 독립변수를 포함한다는 의미입니다. lm(y~., mydata) 점(.) 을 이용한 다른 예시도 살펴봅시다. 아래 두 표현식은 동일한 의미입니다. lm(y~.-x1,mydata) lm(y~x2+x3) 아래 두 표현..
2020. 12. 26.
R에서 상관계수 구하는 방법 (cor)
R에서 상관계수 구하는 방법 (cor) R에서 두 변수의 상관계수를 구할 때는 cor 함수를 사용합니다. > X=c(1,2,3,4,5)> Y=c(1,2,4,4,5)> cor(X,Y)[1] 0.9622504 cor 함수를 데이터프레임에 적용하면 상관계수 행렬을 출력해줍니다. > df=data.frame(X=c(1,2,3,4,5),Y=c(1,1,2,3,4),Z=c(1,3,5,6,7))> cor(df) X Y ZX 1.0000000 0.9701425 0.9847982Y 0.9701425 1.0000000 0.9235481Z 0.9847982 0.9235481 1.0000000
2020. 11. 30.
R 데이터프레임 열별 평균, 표준편차 구하기
R 데이터프레임 열별 평균, 표준편차 구하기 데이터프레임에서 열 별로 평균 등의 통계량을 구해봅시다. 먼저 데이터프레임을 하나 정의하겠습니다. > df=data.frame(c1=c(1,2,3),c2=c(10,20,30),c3=c(100,200,300))> df c1 c2 c31 1 10 1002 2 20 2003 3 30 300 각 열의 평균을 구해봅시다. apply 함수를 사용합니다. 아래와 같은 형식으로 사용하면 됩니다. apply(데이터,계산방향,적용함수) 계산방향은 1이 가로방향, 2가 세로방향입니다. 적용함수는 평균을 구할 것이므로, mean 함수를 넣어줍니다. > apply(df,2,mean)[1] 37 74 111 우리는 세로방향의 평균을 구하고 싶은 것이므로, 아래와 같이 적용합니다. > ..
2020. 11. 30.
R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 방법
R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 방법 R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 함수는 아래와 같습니다. 평균 mean(x)중앙값 median(x)표준편차 sd(x)분산 var(x)공분산 cov(x,y) 아래는 예시입니다. > x=1:100> y=100:200 > mean(x)[1] 50.5 > median(x)[1] 50.5 > sd(x)[1] 29.01149 > var(x)[1] 841.6667 > cov(x,y)Error in cov(x, y) : 호환되지 않는 차원들입니다 공분산을 구하려면 x와 y의 길이가 같아야 합니다. > x=1:100> y=101:200> cov(x,y)[1] 841.6667
2020. 11. 30.
[R 통계분석] 표본 추출하는 방법 두가지
[R 통계분석] 표본 추출하는 방법 두가지 R에서 표본을 추출하는 방법은 크게 두가지가 있습니다. 1) 직접 모집단을 설정하고 표본 추출하기2) 확률분포에서 추출하기(정규분포, 초기하분포 등) 하나씩 알아봅시다. 1) 직접 모집단을 설정하고 표본 추출하기 sample 함수를 사용합니다. 사용 방법은 아래와 같습니다. sample(x, size, replace=FALSE, prob=NULL) 아래는 각 입력값의 설명입니다. sample(모집단, 표본크기, 중복여부, 각각이 뽑힐 확률) 예를 들어봅시다. 1부터 10의 정수 값을 가지는 모집단에서 크기 3인 표본을 중복을 허용하여 뽑아보겠습니다. > sample(1:10,3,replace=TRUE)[1] 4 1 4 2) 확률분포에서 추출하기(정규분포, 초기하..
2020. 9. 16.
[R 통계분석] 윌콕슨 순위합 검정 (Mann–Whitney U test)
[R 통계분석] 윌콕슨 순위합 검정 (Mann–Whitney U test) #1. 방법 wilcox.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, exact = NULL, correct = TRUE, conf.int = FALSE, conf.level = 0.95, ...) ▶ x,y 자리에 데이터 입력함. ▶ 독립표본 t검정 대신 사용하는 비모수검정. ▶ 정규성 검정이 기각될 경우 사용. ▶ Mann–Whitney U test 라고도 부름. #2. 예제 > 코드 #데이터 생성 set.seed(1) height_male=rnorm(15,175,5) height_female=rnorm(15,..
2019. 11. 29.
[R 통계분석] 독립표본 t 검정 | 등분산 가정
[R 통계분석] 독립표본 t 검정 | 등분산 가정 #1. 방법 t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = TRUE, conf.level = 0.95, ...) ▶ x,y 자리에 데이터 입력함. ▶ var.equal=FALSE 가 디폴트 값, TRUE로 놓으면 등분산가정 t검정 수행. #2. 예제 > 코드 #데이터 생성 set.seed(1) height_male=rnorm(50,175,5) height_female=rnorm(50,165,5) #t검정 수행 #귀무가설 : height_male = height_female t.test(height_male, heig..
2019. 11. 29.
[R 통계분석] 단일표본 t검정
[R 통계분석] 단일표본 t검정 #1. 방법 t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 모집단 평균, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) ▶ x에 데이터 입력, y는 입력하지 않음. ▶ mu=모집단평균 옵션 입력 시 단일표본 t검정 수 #2. 예제 > 코드 #데이터 생성 set.seed(1) height=rnorm(50,175,5) population_mean=177 #t검정 수행 #귀무가설 : height = population_mean t.test(height,mu=population_mean) #귀무가설 : height < population..
2019. 11. 28.
[R 통계분석] Bartlett test (등분산검정)
[R 통계분석] Bartlett test (등분산검정) #1. 방법 bartlett.test(x, g, ...) y자리에 전체 데이터, group 자리에 분류기준을 입력한다. 예를들어 남녀 그룹의 키를 비교하는 경우, y자리에는 전체 키 데이터를 입력하고 group 자리에는 각 데이터의 성별을 입력한다. #2. 예제 > 코드 #표본생성 set.seed(1) group1=rnorm(50,0,1) group2=rnorm(50,0,1) #형식에 맞게 수정 y=c(group1,group2) group=c(rep(1,50),rep(2,50)) #Bartlett test 수행. bartlett.test(y,group) > 실행결과 > bartlett.test(y,group) Bartlett test of homog..
2019. 11. 28.
[R 통계분석] Brown-Forsythe test (등분산검정)
[R 통계분석] Brown-Forsythe test (등분산검정) #1. 방법 levene.test(y, group, location = c("median", "mean", "trim.mean"), trim.alpha = 0.25, bootstrap = FALSE, num.bootstrap = 1000, kruskal.test = FALSE, correction.method = c("none", "correction.factor", "zero.removal", "zero.correction")) y자리에 전체 데이터, group 자리에 분류기준을 입력한다. 예를들어 남녀 그룹의 키를 비교하는 경우, y자리에는 전체 키 데이터를 입력하고 group 자리에는 각 데이터의 성별을 입력한다. levene's t..
2019. 11. 28.
[R 통계분석] Kolmogorov-sminov test (정규성검정)
[R 통계분석] Kolmogorov-sminov test (정규성검정) #1. 방법 ks.test(x, y, ..., alternative = c("two.sided", "less", "greater"), exact = NULL) x 자리에 데이터, y자리에 pnorm 입력. #2. 예제 > 코드 #표본생성 set.seed(1) group1=rnorm(50,0,1) #ks test 수행 ks.test(group1,pnorm) > 실행결과 > ks.test(group1,pnorm) One-sample Kolmogorov-Smirnov test data: group1 D = 0.13466, p-value = 0.2974 alternative hypothesis: two-sided
2019. 11. 28.