일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 인디게임
- 프리티어
- 42서울
- EC2
- 백엔드
- 배포
- UNIDEV
- 전국대학생게임개발동아리연합회
- 프로그래밍
- 개발공부
- UNICON
- RDS
- 체크인미팅
- 생활코딩
- 자바개발자
- AWS
- 위키북스
- 인프라
- 백엔드개발자
- 티스토리챌린지
- 온라인테스트
- 라피신
- 게임개발동아리
- Developer
- 도커
- UNICON2023
- 스프링
- 스프링부트
- CICD
- 오블완
- Today
- Total
Hyun's Wonderwall
확률 및 통계학 기말고사 공부 - 7, 8단원 공부 본문
7. 범주형 자료 분석
범주형 자료: 카테고리 자료.
범주형 자료의 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정한다.
* 1개의 범주형 변수의 관찰된 빈도가 기댓값과 같은지 검정 -> 피어슨 적합도 검정
ex. 휴대폰 색상 선호도가 동일한가? - 이때 범주형 변수: 휴대폰 색상, 빈도: 선호 소비자수
* 2개의 범주형 변수가 서로 독립인지 검정 -> 독립성 검정
ex. 연령대와 지지하는 후보는 서로 연관이 있는가? - 이때 범주형 변수: 지지하는 후보, 연령대
카이제곱 분포
x² 분포. x² ~ x²(df) // df : 자유도
아래의 검정통계량 식(또는 x²의 그래프) 을 보면 알 수 있듯, 항상 x² >=0 이다. so 단측.
(1) 피어슨 적합도 검정
언제 쓸까? 귀무가설의 주어진 칸 확률이 자료를 잘 적합시키는지 검정
* 가설- H0: P1=P10, P2=P20, ..., Pk=Pk0 // 10이 ten 이 아니고 'one-zero' 임
H1: not H0
* 데이터: 표 형태로 주어짐
* 검정통계량: x^2는 i가 1부터 k까지일 때 (Ni - Ei)^2 / Ei의 총합이다.
-> x^2는 x^2 (k-1)를 따른다.
// 예제
(2) 독립성 검정
언제 쓸까? 두 범주형 변수의 독립성을 검정할 때. 한 그룹 변수에 따라 다른 그룹 변수의 발생빈도가 달라지는지 검증.
* 가설- H0: 그룹 변수 A와 B는 독립이다. v.s H1: 그룹 변수 A와 B는 독립이 아니다. 즉 연관이 있다.
* 데이터: 표 형태로 주어짐.
표를 보면 먼저 가로세로 범주형 변수 각각의 계를 적는다. 표에서 칸 각각의 도수가 Nij이다.
Eij = Ni * Nj / n 이다 (가로줄의 계 * 세로줄의 계 / 총계)
* 검정통계량: x^2는 주어진 모든 i, j에 대해 (Nij - Eij)^2 / Eij의 총합이다.
-> x^2는 x^2 ((i-1)(j-1))를 따른다.
i가 3, j가 2라고 하면 x^2는 x^2 ((3-1)(2-1)) = x^2(2)를 따른다.
// p값에서 p(x^2 > 8.42) 이렇게 무조건 '큰' 확률을 구하는 것에 유의하기. 카이제곱 검정은 단측 검정.
8. 상관분석
(1) 회귀분석
- 여러 개의 설명변수 x와 종속변수 y가 있을 때, 설명변수와 종속변수의 관계를 설명하거나 새로운 관측치가 나왔을 떄 종속변수를 예측하기 위해 관계함수를 추정한다. y=f(x)
- 그 중 종속변수가 연속형 데이터이고 설명변수와의 관계가 직선의 형태임이 추정되면 선형회귀분석을 사용한다.
- 회귀모형 등...
우리는(시험범위) 산점도를 그려보고, 상관계수만 본다.
이 값을 참고해 회귀직선의 관계가 있다/없다를 판단한다. (그 후 회귀분석을 진행하게 되는 것)
(2) 회귀분석의 준비
* 산점도: (x, y)의 관측값을 직교 좌표의 평면에 찍어 만든 그래프이다.
- 기울기가 양이면 양의 상관, 음이면 음의 상관. 회귀가 적합한지 알 수 있다.
* 상관계수: 두 연속형 변수 간 선형관계의 정도를 나타내는 통계량.
- 상관계수는 -1에서 1까지의 값을 가진다. -1에 가까우면 음의 상관, 1에 가까우면 0의 상관, 0이면 상관이 없다.
- 직선의 관계만 탐지한다. (for 선형회귀) 다른 관계는 탐지하지 못한다.
(1) 상관계수의 정의
(2) 상관분석
'Subjects > 확률및통계학' 카테고리의 다른 글
확률 및 통계학 기말고사 공부 - 5단원 (0) | 2024.01.16 |
---|