본문 바로가기
  • WHP's 이야기

기타 잡기장8

[R]카이제곱 분포의 의미 개인적인 생각을 정리한 것으로 오류가 많으니 공신력있는 문서를 참고 부탁드립니다.... 카이제곱 분포는 참 많이 사용된다. 특히 사회과학 가설검정에서 직간접적으로 사용되는데 카이제곱분포가 가지는 의미를 알면 왜 사용되는지 추정하기 편하다. 카이제곱은 "정규분포에서 랜덤하게 df개 만큼 뽑아 제곱해서 더한 것의 분포이다. 키워드를 뽑아보면 정규분포, 제곱, 더한것인 것 같다. 좀 다른 이야기를 해보면 우리가 모델을 만들고 검정을 할 때 중요한 것 중 하나는 "오차"다. 즉 예측과 실제값이 얼마나 다른가 이다. 그런데 추론통계(glm)은 모든 변수들이 정규성을 따른다고 본다. 그렇다면 예측값-실제값은 정규분포 - 정규분포이다. 정규분포서 다른 정규분포를 빼면 그 또한 정규 분포를 따른다. 즉 오차도 정규성을.. 2023. 5. 4.
[R]카이제곱분포 분포도 plot(0,0, col=0, ylim =c(0,1), xlim=c(-1,20), xlab = "", ylab="") lines(density(rchisq(10000,1)), lwd=2, col=2) lines(density(rchisq(10000,2)), lwd=2, col=3) lines(density(rchisq(10000,3)), lwd=2, col=4) lines(density(rchisq(10000,4)), lwd=2, col=5) lines(density(rchisq(10000,5)), lwd=2, col=6) lines(density(rchisq(10000,10)), lwd=2, col=7) 정규성을 따르는 자유도에 따른 오차의 합 분포로 보아도 무방하다. 2023. 5. 2.
연속형 변수 ~ 범주형 변수(외래관광실태조사) 2018년 코로나 이전 방한관광객 데이터를 바탕으로 범주형 변수와 연속형 변수간 관계를 몇가지 분석해보았다. https://know.tour.go.kr/stat/fReportsOfForeignerDis19Re.do 요기서 다운 받으면 된다. 데이터가 재미있는게 많아서 아동청소년패널데이터와 함께 심심할 때 이것저것 해보기 좋다. 1. 데이터 선택 - 이유는 모르겠지만 그냥 일본, 중국, 대만, 베트남을 분석대상으로 삼았다. 코드북을 보면 여러 나라가 있으나 위 나라가 역시 숫자가 많다. 데이터 선택 방법은 여러가지가 있지만 R알못이라 나는 subset함수가 가장 편하다. if구문으로 전부 선택하려면 복잡하니 데이터를 많이 남겨도 아래 방법이 편하다. library(dplyr) library(ggplot2).. 2022. 12. 5.
hayes model 5(조건부 직접효과) model 5만 쓰는 연구는 본적이 없다. 데이터 만들기는 생략 하겠다. 각 변수 명을 쓰는 것이 아닌 데이터 d에서 몇번째 열이 해당 변수인지 쓰면 된다. boot5 2022. 11. 30.