확률 분포
확률 변수
- 확률적인 과정의 결과를 수치적으로 표현하기 위한 임의의 수입니다.
기대값 E[X]
- 확률 변수의 평균적인 예상값으로 중심 경향성을 표현합니다.
분산 V(X)
- 데이터의 변동 정도를 측정하는 지표로 사용되며, 데이터가 중심(평균)으로 부터 흩어진 정도를 나타내는 지표입니다.
공분산 COV(X, Y)
- 두 변수가 함께 변하는 정도를 나타냅니다.
- 두 변수가 독립이라면, 𝐶𝑂𝑉(𝑋,𝑌)=0이 됩니다.
표본평균의 모평균과 모분산
- 표본평균은 가설 검정과 신뢰구간등 두루 사용되는 통계량입니다.
- 표본평균도 확률 변수입니다. 표본평균의 모평균과 모분산을 대상 확률 변수의 모평균과 모분산에서 유도해 봅니다.
이산형 확률 분포
- 이산형(Discrete) 확률 변수가 취하는 값에 대한 확률을 나타내는 분포
연속형 확률 분포
- 연속형(Continuous) 확률 변수가 취하는 값에 대한 확률을 나타내는 분포
scipy.stats
- 확률 관련 메소드(method) 정리
ex)
n = 200, p = 0.4 인 이항분포에서 서로 독립인 표본 600개를 만들어 봅니다.
ex)
- X는 n = 200, p = 0.4인 이항분포를 따릅니다. 𝑃(𝑋=20)을 구합니다.
- X는 n = 200, p = 0.4 인 이항분포를 따릅니다. 𝑃(𝑋<=20)를 구합니다.
- X는 n = 200, p = 0.4 인 이항분포를 따릅니다. 𝑃(𝑋<=𝐴)=0.1를 구합니다. 이 때, A를 구합니다.
ex)
𝜆가 10인 포아송 분포에서 서로 독립인 표본 600개를 만들어 봅니다.
주요 분포의 특징
정규분포
표준정규분포: 평균이 0, 분산이 1인 정규 분포
중심극한정리: 표본평균의 분포는 모집단의 분포와 상관 없이 표본의 크기가 커질 수록 정규 분포에 가까워진다.
ex)
𝜆 가 5인 포아송 분포에서 확률 변수를 n개씩 2000번 뽑아 각 표집의 표본평균을 구합니다.
n을 5, 10, 30, 100 바꾸어 가며, Kolmogorov-Smironof로 정규성 검정을 하여 pvalue를 구합니다.
(pvalue는 0과 1사이의 수이며 높을 수록 정규분포일 확률이 높음을 뜻합니다.)
카이제곱분포
t 분포
- t분포는 표준정규분포(𝑍)와 𝜒𝑛−12과의 아래와 결합으로 구성된 분포입니다. (n은 표본수)
- 태생적으로, t분포는 모집단이 정규분포를 따른다는 가정을 하고 있습니다.
카이제곱분포
𝑍1,…𝑍𝑘이 서로 독립이고 표준정규분포인 확률 함수 일 때,
𝑄=∑𝑖=1𝑘𝑍𝑖2
𝑄∼𝜒𝑘2
감마분포와의 관계
𝜒𝑘2=Γ(𝑘2,12)
t 분포
- t분포는 표준정규분포(𝑍)와 𝜒𝑛−12과의 아래와 결합으로 구성된 분포입니다. (n은 표본수)
- 태생적으로, t분포는 모집단이 정규분포를 따른다는 가정을 하고 있습니다.
𝑡=𝑋¯−𝜇𝑠𝑛, s는 표본표준편차. 𝑠=1𝑛−1∑𝑖=1𝑛(𝑥𝑖−𝑥¯)2
𝑡𝑛−1=𝑍𝜒𝑛−12𝑛−1
𝑡𝜈=𝑍𝜒𝜈2𝜈,𝜈=𝑛−1
유도 과정
𝑠2=1𝑛−1∑𝑖=1𝑛(𝑋𝑖−𝑋¯)2
(𝑛−1)𝑠2=∑𝑖=1𝑛(𝑋𝑖−𝜇+𝜇−𝑋¯)2
(𝑛−1)𝑠2=∑𝑖=1𝑛((𝑋𝑖−𝜇)2+2(𝑋𝑖−𝜇)(𝜇−𝑋¯)+(𝜇−𝑋¯)2)
∑𝑖=1𝑛2(𝑋𝑖−𝜇)(𝜇−𝑋¯)=∑𝑖=1𝑛2(𝑋𝑖𝜇−𝑋𝑖𝑋¯−𝜇2+𝜇𝑋¯)
=2𝑛(𝑋¯𝜇−𝑋¯2−𝜇2+𝜇𝑋¯)
=−2𝑛(𝑋¯−𝜇)2
(𝑛−1)𝑠2=∑𝑖=1𝑛(𝑋𝑖−𝜇)2−2𝑛(𝑋¯−𝜇)2+𝑛(𝜇−𝑋¯)2
=∑𝑖=1𝑛(𝑋𝑖−𝜇)2−𝑛(𝑋¯−𝜇)2
(𝑛−1)𝑠2𝜎2=∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2−𝑛(𝑋¯−𝜇𝜎)2=∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2−(𝑋¯−𝜇𝜎𝑛)2
∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2∼𝜒𝑛2,(𝑋¯−𝜇𝜎𝑛)2∼𝜒12
𝑐ℎ𝑖𝑛−12=𝑐ℎ𝑖𝑛2−𝑐ℎ𝑖12
따라서, (𝑛−1)𝑠2𝜎2∼𝑐ℎ𝑖𝑛−12
𝑡=𝑋¯−𝜇𝑠𝑛=𝑋¯−𝜇𝜎𝑠𝜎𝑛
=𝑋¯−𝜇𝜎𝑛𝑠𝜎
=𝑍(𝑛−1)𝑠2𝜎2𝑛−1∼𝑍𝜒𝑛−12𝑛−1
F 분포
신뢰 구간
- 신뢰 구간: 모집단의 모수에 대한 추정값이 존재할 것으로 예상되는 범위 나타냅니다.
표본에서 얻은 정보를 이용하여 모집단의 모수에 대한 가능한 값의 범위를 제시합니다.
- 신뢰 수준: 모집단의 모수가 신뢰 구간 내에 있을 확률입니다.
신뢰 구간을 95% 정한다면, 모수가 신뢰 구간에 있을 확률이 95%라는 것입니다.
- 신뢰 구간의 형태
점 추정치(Point Estimate) ± 주변 오차 범위(Margin of Error)
- 표본평균을 통한 신뢰 구간의 추청
통계량신뢰수준𝑃(−𝑐≤통계량≤𝑐)=신뢰 수준
통계량𝑃(통계량<−𝑐)=𝛼2, 유의수준신뢰수준𝛼(유의 수준)=1−신뢰 수준
−𝑐=𝐹−1(𝛼/2), 𝐹−1는 통계량의 분포의 누적확률함수의 역함수(Percentile Point Function)
𝑐=−𝐹−1(𝛼/2)
- 모분산을 알고 있을 경우
정규분포를 사용합니다.
- 모분산을 모를 경우
t-분포를 사용합니다.