Hyun's Wonderwall

확률 및 통계학 기말고사 공부 - 7, 8단원 공부 본문

Subjects/확률및통계학

확률 및 통계학 기말고사 공부 - 7, 8단원 공부

Hyun_! 2024. 1. 16. 21:52

7. 범주형 자료 분석

범주형 자료: 카테고리 자료.

범주형 자료의 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정한다.

* 1개의 범주형 변수의 관찰된 빈도가 기댓값과 같은지 검정 -> 피어슨 적합도 검정
ex. 휴대폰 색상 선호도가 동일한가? - 이때 범주형 변수: 휴대폰 색상, 빈도: 선호 소비자수

* 2개의 범주형 변수가 서로 독립인지 검정 -> 독립성 검정

ex. 연령대와 지지하는 후보는 서로 연관이 있는가? - 이때 범주형 변수: 지지하는 후보, 연령대

 

카이제곱 분포

x² 분포. x² ~ x²(df)  // df : 자유도

아래의 검정통계량 식(또는 x²의 그래프) 을 보면 알 수 있듯, 항상 x² >=0 이다. so 단측.

 

(1) 피어슨 적합도 검정

언제 쓸까? 귀무가설의 주어진 칸 확률이 자료를 잘 적합시키는지 검정

* 가설- H0: P1=P10, P2=P20, ..., Pk=Pk0 // 10이 ten 이 아니고 'one-zero' 임

          H1: not H0

* 데이터: 표 형태로 주어짐

* 검정통계량: x^2는 i가 1부터 k까지일 때 (Ni - Ei)^2 / Ei의 총합이다.

-> x^2는 x^2 (k-1)를 따른다.

// 예제

 

(2) 독립성 검정

언제 쓸까? 두 범주형 변수의 독립성을 검정할 때. 한 그룹 변수에 따라 다른 그룹 변수의 발생빈도가 달라지는지 검증.

* 가설- H0: 그룹 변수 A와 B는 독립이다. v.s  H1: 그룹 변수 A와 B는 독립이 아니다. 즉 연관이 있다.

* 데이터: 표 형태로 주어짐.

 

표를 보면 먼저 가로세로 범주형 변수 각각의 계를 적는다. 표에서 칸 각각의 도수가 Nij이다.

Eij = Ni * Nj / n 이다 (가로줄의 계 * 세로줄의 계 / 총계)

* 검정통계량: x^2는 주어진 모든 i, j에 대해 (Nij - Eij)^2 / Eij의 총합이다.

-> x^2는 x^2 ((i-1)(j-1))를 따른다.

i가 3, j가 2라고 하면 x^2는 x^2 ((3-1)(2-1)) = x^2(2)를 따른다.

 

// p값에서 p(x^2 > 8.42) 이렇게 무조건 '큰' 확률을 구하는 것에 유의하기. 카이제곱 검정은 단측 검정.


8. 상관분석

(1) 회귀분석

- 여러 개의 설명변수 x와 종속변수 y가 있을 때, 설명변수와 종속변수의 관계를 설명하거나 새로운 관측치가 나왔을 떄 종속변수를 예측하기 위해 관계함수를 추정한다. y=f(x)

- 그 중 종속변수가 연속형 데이터이고 설명변수와의 관계가 직선의 형태임이 추정되면 선형회귀분석을 사용한다.

- 회귀모형 등...

 

우리는(시험범위) 산점도를 그려보고, 상관계수만 본다.

이 값을 참고해 회귀직선의 관계가 있다/없다를 판단한다. (그 후 회귀분석을 진행하게 되는 것)

 

(2) 회귀분석의 준비

* 산점도: (x, y)의 관측값을 직교 좌표의 평면에 찍어 만든 그래프이다.

- 기울기가 양이면 양의 상관, 음이면 음의 상관. 회귀가 적합한지 알 수 있다.

 

* 상관계수: 두 연속형 변수 간 선형관계의 정도를 나타내는 통계량.

- 상관계수는 -1에서 1까지의 값을 가진다. -1에 가까우면 음의 상관, 1에 가까우면 0의 상관, 0이면 상관이 없다. 

- 직선의 관계만 탐지한다. (for 선형회귀) 다른 관계는 탐지하지 못한다.

 

(1) 상관계수의 정의

 

(2) 상관분석

 

 

'Subjects > 확률및통계학' 카테고리의 다른 글

확률 및 통계학 기말고사 공부 - 5단원  (0) 2024.01.16