데이터 사이언스 – 확률 (Probability)

확률 일반

확률의 기본 요소

  1. 시행(Trial): 임의의 결과를 가져오는 어떤 과정
  2. 결과(Outcome): 시행을 통해 나오게 된 것
  3. 표본 공간(Sample Space): 시행에서 얻을 수 있는 가능한 모든 결과의 집합
  4. 사건 (Event): 표본 공간의 부분 집합으로, 하나 이상 결과를 포함합니다.

확률

어떤 사건이 일어날 가능성을 0에서 1사이의 수로 나타낸 것입니다.

확률의 연산

독립 사건

사건 A, B가 독립이라는 것은 하나의 사건이 다른 사건에 아무런 영향을 미치지 않는 것을 의미합니다.

A, B가 독립이라면 아래 식이 성립합니다.

조건부 독립

특정 조건이 주어졌을 때, 두 사건이 독립이 되는 것을 의미합니다.

C 조건이 주어졌을 때, A와 B가 서로 독립이 된다면, 아래 식이 성립합니다.

베이즈 정리의 요소

베이즈 정리를 이용하면, A 사건이 발생할 가능성을 B 사건을 통해서 구체화할 수 있습니다.

이 관점에서 베이즈 정리의 요소들을 아래와 같이 구분할 수 있습니다.

  • 사전 확률(Prior): B 사건이 발생하기 전에 알려진 확률입니다. 경험을 토대로 알고 있는 A가 일어날 확률입니다. → P(A)
  • 사후 확률(Posterior): B 사건이 발생한 후에 조건부로 계산되는 확률입니다. B 사건이 발생한 후에 알게 되는 A가 일어날 확률입니다. → P(A|B)
  • 우도(liklihood): A 사건이 발생했을 때, B 사건이 일어났을 확률입니다. 또는 A 사건이 발생한다면, B 사건이 일어날 확률입니다. → P(B|A)
  • 증거(Evidence): B 사건이 발생할 확률. B 사건이 지니는 A 사건에 대한 영향력을 나타냅니다. → P(B)

ex)

titanic data 에서 not_survived 확률을 구해보겠습니다.

아래와 같이 압축해서 구할 수도 있습니다.

ex)

titanic 에서 𝑃(𝑆𝑢𝑟𝑣𝑖𝑣𝑒𝑑=𝑇𝑟𝑢𝑒|𝑃𝑐𝑙𝑎𝑠𝑠=1), 𝑃(𝑆𝑢𝑟𝑣𝑖𝑣𝑒𝑑=𝑇𝑟𝑢𝑒|𝑃𝑐𝑙𝑎𝑠𝑠=2), 𝑃(𝑆𝑢𝑟𝑣𝑖𝑣𝑒𝑑=𝑇𝑟𝑢𝑒|𝑃𝑐𝑙𝑎𝑠𝑠=3) 을 구해보겠습니다.

ex)

itertool로 모든 경우의 수를 구해봅니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다