데이터 사이언스 – 확률 분포


확률 분포

확률 변수

  • 확률적인 과정의 결과를 수치적으로 표현하기 위한 임의의 수입니다.

기대값 E[X]

  • 확률 변수의 평균적인 예상값으로 중심 경향성을 표현합니다.

분산 V(X)

  • 데이터의 변동 정도를 측정하는 지표로 사용되며, 데이터가 중심(평균)으로 부터 흩어진 정도를 나타내는 지표입니다.

공분산 COV(X, Y)

  • 두 변수가 함께 변하는 정도를 나타냅니다.

  • 두 변수가 독립이라면, 𝐶𝑂𝑉(𝑋,𝑌)=0이 됩니다.


표본평균의 모평균과 모분산

  • 표본평균은 가설 검정과 신뢰구간등 두루 사용되는 통계량입니다.
  • 표본평균도 확률 변수입니다. 표본평균의 모평균과 모분산을 대상 확률 변수의 모평균과 모분산에서 유도해 봅니다.


이산형 확률 분포

  • 이산형(Discrete) 확률 변수가 취하는 값에 대한 확률을 나타내는 분포

연속형 확률 분포

  • 연속형(Continuous) 확률 변수가 취하는 값에 대한 확률을 나타내는 분포

scipy.stats

  • 확률 관련 메소드(method) 정리

ex)

n = 200, p = 0.4 인 이항분포에서 서로 독립인 표본 600개를 만들어 봅니다.

ex)

  1. X는 n = 200, p = 0.4인 이항분포를 따릅니다. 𝑃(𝑋=20)을 구합니다.
  2. X는 n = 200, p = 0.4 인 이항분포를 따릅니다. 𝑃(𝑋<=20)를 구합니다.
  3. X는 n = 200, p = 0.4 인 이항분포를 따릅니다. 𝑃(𝑋<=𝐴)=0.1를 구합니다. 이 때, A를 구합니다.

ex)

𝜆가 10인 포아송 분포에서 서로 독립인 표본 600개를 만들어 봅니다.


주요 분포의 특징

정규분포

표준정규분포: 평균이 0, 분산이 1인 정규 분포

중심극한정리: 표본평균의 분포는 모집단의 분포와 상관 없이 표본의 크기가 커질 수록 정규 분포에 가까워진다.

ex)

𝜆 가 5인 포아송 분포에서 확률 변수를 n개씩 2000번 뽑아 각 표집의 표본평균을 구합니다.

n을 5, 10, 30, 100 바꾸어 가며, Kolmogorov-Smironof로 정규성 검정을 하여 pvalue를 구합니다.

(pvalue는 0과 1사이의 수이며 높을 수록 정규분포일 확률이 높음을 뜻합니다.)

카이제곱분포

t 분포

  • t분포는 표준정규분포(𝑍)와 𝜒𝑛−12과의 아래와 결합으로 구성된 분포입니다. (n은 표본수)
  • 태생적으로, t분포는 모집단이 정규분포를 따른다는 가정을 하고 있습니다.

카이제곱분포

𝑍1,…𝑍𝑘이 서로 독립이고 표준정규분포인 확률 함수 일 때,

𝑄=∑𝑖=1𝑘𝑍𝑖2

𝑄∼𝜒𝑘2

감마분포와의 관계

𝜒𝑘2=Γ(𝑘2,12)

t 분포

  • t분포는 표준정규분포(𝑍)와 𝜒𝑛−12과의 아래와 결합으로 구성된 분포입니다. (n은 표본수)
  • 태생적으로, t분포는 모집단이 정규분포를 따른다는 가정을 하고 있습니다.

𝑡=𝑋¯−𝜇𝑠𝑛, s는 표본표준편차. 𝑠=1𝑛−1∑𝑖=1𝑛(𝑥𝑖−𝑥¯)2

𝑡𝑛−1=𝑍𝜒𝑛−12𝑛−1

𝑡𝜈=𝑍𝜒𝜈2𝜈,𝜈=𝑛−1

유도 과정

𝑠2=1𝑛−1∑𝑖=1𝑛(𝑋𝑖−𝑋¯)2

(𝑛−1)𝑠2=∑𝑖=1𝑛(𝑋𝑖−𝜇+𝜇−𝑋¯)2

(𝑛−1)𝑠2=∑𝑖=1𝑛((𝑋𝑖−𝜇)2+2(𝑋𝑖−𝜇)(𝜇−𝑋¯)+(𝜇−𝑋¯)2)

∑𝑖=1𝑛2(𝑋𝑖−𝜇)(𝜇−𝑋¯)=∑𝑖=1𝑛2(𝑋𝑖𝜇−𝑋𝑖𝑋¯−𝜇2+𝜇𝑋¯)

=2𝑛(𝑋¯𝜇−𝑋¯2−𝜇2+𝜇𝑋¯)

=−2𝑛(𝑋¯−𝜇)2

(𝑛−1)𝑠2=∑𝑖=1𝑛(𝑋𝑖−𝜇)2−2𝑛(𝑋¯−𝜇)2+𝑛(𝜇−𝑋¯)2

=∑𝑖=1𝑛(𝑋𝑖−𝜇)2−𝑛(𝑋¯−𝜇)2

(𝑛−1)𝑠2𝜎2=∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2−𝑛(𝑋¯−𝜇𝜎)2=∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2−(𝑋¯−𝜇𝜎𝑛)2

∑𝑖=1𝑛(𝑋𝑖−𝜇𝜎)2∼𝜒𝑛2,(𝑋¯−𝜇𝜎𝑛)2∼𝜒12

𝑐ℎ𝑖𝑛−12=𝑐ℎ𝑖𝑛2−𝑐ℎ𝑖12

따라서, (𝑛−1)𝑠2𝜎2∼𝑐ℎ𝑖𝑛−12

𝑡=𝑋¯−𝜇𝑠𝑛=𝑋¯−𝜇𝜎𝑠𝜎𝑛

=𝑋¯−𝜇𝜎𝑛𝑠𝜎

=𝑍(𝑛−1)𝑠2𝜎2𝑛−1∼𝑍𝜒𝑛−12𝑛−1

F 분포

신뢰 구간

  • 신뢰 구간: 모집단의 모수에 대한 추정값이 존재할 것으로 예상되는 범위 나타냅니다.

표본에서 얻은 정보를 이용하여 모집단의 모수에 대한 가능한 값의 범위를 제시합니다.

  • 신뢰 수준: 모집단의 모수가 신뢰 구간 내에 있을 확률입니다.

신뢰 구간을 95% 정한다면, 모수가 신뢰 구간에 있을 확률이 95%라는 것입니다.

  • 신뢰 구간의 형태

점 추정치(Point Estimate) ± 주변 오차 범위(Margin of Error)

  • 표본평균을 통한 신뢰 구간의 추청

통계량신뢰수준𝑃(−𝑐≤통계량≤𝑐)=신뢰 수준

통계량𝑃(통계량<−𝑐)=𝛼2, 유의수준신뢰수준𝛼(유의 수준)=1−신뢰 수준

−𝑐=𝐹−1(𝛼/2), 𝐹−1는 통계량의 분포의 누적확률함수의 역함수(Percentile Point Function)

𝑐=−𝐹−1(𝛼/2)

  1. 모분산을 알고 있을 경우

정규분포를 사용합니다.

  1. 모분산을 모를 경우

t-분포를 사용합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다