본문 바로가기
반응형

1. 통계량8

R에서 왜도(skewness)와 첨도(kurtosis) 계산하는 법 moments 패키지가 필요합니다. 설치하고 불러옵니다. install.packages("moments") library(moments) 데이터를 생성합시다. 표준 정규분포에서 표본 100개를 뽑겠습니다. data=rnorm(100) 왜도와 첨도를 구합시다. > skewness(data) [1] 0.241982 > kurtosis(data) [1] 4.390912 2021. 8. 9.
[R통계] 최솟값,최댓값,중앙값,평균,제1사분위수,제3사분위수 한번에 구하기(summary) summary 함수는 최솟값,최댓값,중앙값,평균,제1사분위수,제3사분위수 한번에 구해주는 함수입니다. > summary(1:10) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 3.25 5.50 5.50 7.75 10.00 2020. 12. 30.
[R통계] 분위수 구하는 방법 quantile 함수는 분위수를 구해주고, IQR 함수는 사분위수 범위를 구해줍니다. > quantile(1:10) 0% 25% 50% 75% 100% 1.00 3.25 5.50 7.75 10.00 > IQR(1:10) [1] 4.5 2020. 12. 30.
R에서 상관계수 구하는 방법 (cor) R에서 상관계수 구하는 방법 (cor) R에서 두 변수의 상관계수를 구할 때는 cor 함수를 사용합니다. > X=c(1,2,3,4,5)> Y=c(1,2,4,4,5)> cor(X,Y)[1] 0.9622504 cor 함수를 데이터프레임에 적용하면 상관계수 행렬을 출력해줍니다. > df=data.frame(X=c(1,2,3,4,5),Y=c(1,1,2,3,4),Z=c(1,3,5,6,7))> cor(df) X Y ZX 1.0000000 0.9701425 0.9847982Y 0.9701425 1.0000000 0.9235481Z 0.9847982 0.9235481 1.0000000 2020. 11. 30.
R 데이터프레임에 분산,공분산 함수를 적용해보자 R 데이터프레임에 분산,공분산 함수를 적용해보자 데이터프레임에 분산 또는 공분산 함수를 적용하면 공분산행렬을 출력해줍니다. 공분산 행렬은 각 데이터 사이의 공분산을 구해서 행렬형태로 만든 것입니다. 예시를 통해 이해해봅시다. 먼저 데이터프레임을 하나 정의합시다. > df=data.frame(c1=c(1,2,3),c2=c(10,20,30),c3=c(100,200,300))> df c1 c2 c31 1 10 1002 2 20 2003 3 30 300 분산 함수를 적용해봅시다. > var(df) c1 c2 c3c1 1 10 100c2 10 100 1000c3 100 1000 10000 위 결과에서 c1와 c1이 만나는 곳에 있는 10은, c1과 c2데이터 사이의 공분산입니다. cov 함수를 적용해도 동일한 결.. 2020. 11. 30.
R 데이터프레임 열별 평균, 표준편차 구하기 R 데이터프레임 열별 평균, 표준편차 구하기 데이터프레임에서 열 별로 평균 등의 통계량을 구해봅시다. 먼저 데이터프레임을 하나 정의하겠습니다. > df=data.frame(c1=c(1,2,3),c2=c(10,20,30),c3=c(100,200,300))> df c1 c2 c31 1 10 1002 2 20 2003 3 30 300 각 열의 평균을 구해봅시다. apply 함수를 사용합니다. 아래와 같은 형식으로 사용하면 됩니다. apply(데이터,계산방향,적용함수) 계산방향은 1이 가로방향, 2가 세로방향입니다. 적용함수는 평균을 구할 것이므로, mean 함수를 넣어줍니다. > apply(df,2,mean)[1] 37 74 111 우리는 세로방향의 평균을 구하고 싶은 것이므로, 아래와 같이 적용합니다. > .. 2020. 11. 30.
R에서 평균, 표준편차 등 구할 때 NA 오류 해결방법 R에서 평균, 표준편차 등 구할 때 NA 오류 해결방법 데이터에 NA가 포함되어 있어 평균, 표준편차 등이 계산되지 않는 경우가 있습니다. > x=c(1,2,3,4,NA)> mean(x)[1] NA 이런 경우에는 na.rm 옵션을 True로 설정해주면 됩니다. na.rm 은 NA인 경우를 제거(remove)하겠다는 의미입니다. > mean(x,na.rm=TRUE)[1] 2.5 2020. 11. 30.
R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 방법 R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 방법 R에서 평균, 중앙값, 표준편차, 분산, 공분산 구하는 함수는 아래와 같습니다. 평균 mean(x)중앙값 median(x)표준편차 sd(x)분산 var(x)공분산 cov(x,y) 아래는 예시입니다. > x=1:100> y=100:200 > mean(x)[1] 50.5 > median(x)[1] 50.5 > sd(x)[1] 29.01149 > var(x)[1] 841.6667 > cov(x,y)Error in cov(x, y) : 호환되지 않는 차원들입니다 공분산을 구하려면 x와 y의 길이가 같아야 합니다. > x=1:100> y=101:200> cov(x,y)[1] 841.6667 2020. 11. 30.
반응형