공부 노트/통계학

확률에서 PDF와 PMF 그리고 CDF

김뚱입니다 2023. 10. 11. 10:56

● 확률 밀도 함수 (PDF)
확률 밀도 함수(PDF)는 연속 확률 변수의 확률 분포를 설명하는 함수로, 이 함수는 확률 변수가 어떤 값 또는 구간에서 특정 값일 확률을 나타냅니다. PDF는 확률 변수의 분포를 묘사하고, 확률 변수가 어떤 값 주변에서 더 확률을 가질지 예측하는 데 사용됩니다. PDF는 보통 특정 구간에서 확률을 계산할 때 적분을 통해 사용됩니다. 이 함수는 연속 확률 변수에 적용되며, 연속적인 값을 가질 수 있는 확률 변수에서 사용됩니다.

 

예시 : PDF는 연속 확률 변수에 적용됩니다. 예를 들어, 정규 분포(가우시안 분포)는 연속 확률 변수의 분포를 설명하는 데 사용됩니다. 정규 분포의 PDF는 평균과 표준 편차를 통해 정의됩니다. 이 분포의 PDF를 통해 어떤 값 주변에서 확률을 계산할 수 있습니다. 예를 들어, 정규 분포의 PDF를 사용하여 어떤 값이 평균 주변에서 어떤 확률을 가지는지 계산할 수 있습니다.


확률 질량 함수 (PMF)
확률 질량 함수(PMF)는 이산 확률 변수의 확률 분포를 설명하는 함수로, 이 함수는 확률 변수가 특정 값을 가질 확률을 나타냅니다. PMF는 이산적인 값만을 가질 수 있는 확률 변수에 사용됩니다. PMF를 통해 우리는 확률 변수가 특정 값에 어떤 확률을 부여하는지 알 수 있으며, 이를 통해 이산 확률 분포의 특성을 파악할 수 있습니다.

 

예시 : PMF는 이산 확률 변수에 사용됩니다. 이항 분포는 이산 확률 변수의 예시입니다. 이항 분포의 PMF를 사용하면 어떤 시행에서 성공 또는 실패의 확률을 계산할 수 있습니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률을 계산하는 데 이항 분포의 PMF를 사용할 수 있습니다.


누적 분포 함수 (CDF)
누적 분포 함수(CDF)는 연속 및 이산 확률 변수 모두에 사용되며, 이 함수는 확률 변수의 값이 특정 값 이하일 확률을 나타냅니다. CDF는 확률 변수가 어떤 값보다 작거나 같을 확률을 누적하여 나타내며, 확률 변수의 동작을 이해하는 데 유용합니다. CDF는 확률 변수의 분포를 요약하고 중요한 통계량인 중앙값 및 사분위수를 계산하는 데 사용됩니다.

 

예시 : CDF는 연속 및 이산 확률 변수 모두에 사용됩니다. 예를 들어, 지수 분포는 연속 확률 변수의 예시입니다. 지수 분포의 CDF를 사용하면 어떤 시간 내에 사건이 발생할 확률을 계산할 수 있습니다. 또한, 이산 확률 변수의 경우, 이항 분포의 CDF를 사용하여 어떤 시행에서 특정 시점까지 성공한 확률을 계산할 수 있습니다.

 

추가 설명 : CDF는 다음과 같이 정의됩니다. 확률 변수 X의 CDF는 F(x)로 표현하며 다음과 같이 계산됩니다.

F(x) = P(X ≤ x)

여기서 F(x)는 확률 변수 X가 x 이하일 확률을 나타내며, P는 확률을 나타냅니다. 이 함수는 확률 변수가 특정 값 x 이하에 도달할 확률을 나타내므로, x를 입력으로 주면 해당 값에 대한 누적 확률을 제공합니다.


이러한 확률 함수들은 확률 이론, 통계, 및 데이터 분석에서 중요한 역할을 합니다. 데이터 분석에서는 이러한 함수들을 사용하여 데이터의 확률 분포를 이해하고 모델링할 수 있으며, 확률 변수의 특성을 파악하여 의사결정을 내릴 수 있습니다.