제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.19]

[강의 요약]

[Part 08 통계. Ch 01. 기초통계_기초과정] 강의 수강

클립 6~9 수강

🐢 100일 챌린지 🔥 : [▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰░                ] 95/100일 (95%)

자격증 실시간 특강 참여하고 글 작성까지 다 하니까 11시가 넘어간다 ㅠㅠ

 

 

 

[연속형 확률분포 기초]

▶ 확률밀도함수 (PDF)

연속형 확률변수 X의 확률밀도함수 f(x)는 다음 조건을 만족함

* 기본 성질

  1. f(x) ≥ 0 (모든 x에 대해)
  2. ∫_{-∞}^{∞} f(x)dx = 1
  3. P(a ≤ X ≤ b) = ∫_a^b f(x)dx

 

 

▶ 누적분포함수 (CDF)

F(x) = P(X ≤ x) = ∫_{-∞}^x f(t)dt

* 누적분포함수의 성질

  • 0 ≤ F(x) ≤ 1
  • F(x)는 단조증가함수
  • F(-∞) = 0, F(∞) = 1

 

 

 

[균등분포 (Uniform Distribution)]

구간 [a, b]에서 모든 값이 동일한 확률을 가지는 분포

▶ 확률밀도함수

f(x) = { 1/(b-a), a ≤ x ≤ b 0, otherwise }

 

 

▶ 누적분포함수

F(x) = { 0, x < a (x-a)/(b-a), a ≤ x ≤ b 1, x > b }

 

 

▶ 기댓값과 분산

  • 기댓값 : E[X] = (a+b)/2
  • 분산 : Var[X] = (b-a)²/12

 

 

▶ 활용 예시

  • 난수 생성
  • 대기시간 모델링

 

 

 

 

[정규분포 (Normal Distribution)]

가장 중요한 연속형 확률분포로, 자연현상과 사회현상의 많은 부분을 설명함

▶ 확률밀도함수

f(x) = (1/√(2πσ²)) × e^(-(x-μ)²/(2σ²))

여기서 μ는 평균, σ²는 분산

* 표기법 : X ~ N(μ, σ²)

 

 

▶ 표준정규분포

μ = 0, σ = 1인 특별한 경우.

φ(z) = (1/√(2π)) × e^(-z²/2)

 

 

▶ 정규분포의 성질

  • 평균 = 중앙값 = 최빈값 (μ)
  • 대칭성 : 평균을 중심으로 좌우 대칭
  • 68-95-99.7 규칙
    • 68%의 데이터가 μ ± σ 범위에
    • 95%의 데이터가 μ ± 2σ 범위에
    • 99.7%의 데이터가 μ ± 3σ 범위에

 

 

▶ 표준화

Z = (X - μ)/σ ~ N(0,1)

 

 

▶ 활용 예시

  • 시험 점수 분포
  • 측정 오차
  • 키, 몸무게 등 생체 데이터

 

 

 

[지수분포 (Exponential Distribution)]

사건 간 대기시간을 모델링하는 분포

▶ 확률밀도함수

f(x) = λe^(-λx), x ≥ 0

 

 

▶ 누적분포함수

F(x) = 1 - e^(-λx), x ≥ 0

 

 

▶ 기댓값과 분산

  • 기댓값 : E[X] = 1/λ
  • 분산 : Var[X] = 1/λ²

 

 

▶ 무기억성 (Memoryless Property)

P(X > s+t | X > s) = P(X > t)

 

 

▶ 활용 예시

  • 고객 도착 간격
  • 제품 수명
  • 전화 통화 시간

 

 

 

[표본분포와 중심극한정리]

▶ 표본평균의 분포

모집단 X ~ N(μ, σ²)에서 크기 n인 표본을 추출할 때

X̄ ~ N(μ, σ²/n)

 

 

▶ 중심극한정리 (CLT)

모집단의 분포가 정규분포가 아니어도, 표본 크기가 충분히 클 때

Z = (X̄ - μ)/(σ/√n) → N(0,1)  (n → ∞)

* 실용적 기준 : n ≥ 30이면 근사적으로 정규분포

 

 

▶ 표본분산의 분포

(n-1)S²/σ² ~ χ²_{n-1}

 

 

 

[카이제곱분포 (Chi-square Distribution)]

자유도 v인 카이제곱분포는 독립인 표준정규변수들의 제곱합

▶ 확률밀도함수

f(x) = (1/(2^(v/2)Γ(v/2))) × x^(v/2-1) × e^(-x/2),  x > 0

 

 

▶ 성질

  • 기댓값 : E[X] = v
  • 분산 : Var[X] = 2v
  • 가법성 : χ²_v1 + χ²_v2 = χ²_{v1+v2}

 

 

▶ 활용

  • 적합도 검정
  • 독립성 검정
  • 분산의 구간추정

 

 

 

[t분포 (Student's t-distribution)]

표본 크기가 작을 때 모평균을 추정하는 데 사용

▶ 확률밀도함수

f(t) = Γ((v+1)/2) / (√(vπ)Γ(v/2)) × (1 + t²/v)^(-(v+1)/2)

 

 

▶ 성질

  • 대칭분포 (평균 = 0)
  • 자유도가 클수록 표준정규분포에 근사
  • 분산 : Var[T] = v/(v-2) (v > 2)

 

 

▶ 표준화된 t통계량

T = (X̄ - μ)/(S/√n) ~ t_{n-1}

 

 

▶ 활용

  • 소표본에서의 평균 검정
  • 회귀계수의 유의성 검정

 

 

 

[F분포 (F-distribution)]

두 카이제곱분포의 비로 정의되는 분포

▶ 정의

F = (χ²_v1/v1) / (χ²_v2/v2) ~ F_{v1,v2}

 

 

▶ 확률밀도함수

f(x) = [Γ((v1+v2)/2) / (Γ(v1/2)Γ(v2/2))] × (v1/v2)^(v1/2) × x^(v1/2-1) × (1 + (v1/v2)x)^(-(v1+v2)/2)

 

 

▶ 성질

  • 항상 양수
  • 비대칭분포
  • 기댓값 : E[F] = v2/(v2-2) (v2 > 2)

 

 

▶ 활용

  • 분산의 동질성 검정
  • 회귀분석의 F검정
  • 분산분석(ANOVA)

 

 

 

[실무 활용]

▶ 분포 선택 가이드

  • 정규분포 : 연속적이고 대칭적인 데이터
  • 지수분포 : 대기시간, 생존시간
  • 균등분포 : 난수 생성, 확률이 균등한 경우
  • 카이제곱분포 : 분산 관련 검정
  • t분포 : 소표본 평균 검정
  • F분포 : 분산 비교, 회귀분석

 

 

▶ 표본 크기별 전략

  • n < 30 : t분포 사용
  • n ≥ 30 : 중심극한정리에 의해 정규분포 근사
  • 모분산 알려져 있음 : 정규분포 사용
  • 모분산 모름 : t분포 사용

 

 

▶ 검정 상황별 분포

  • 평균 검정 : t분포 또는 정규분포
  • 분산 검정 : 카이제곱분포
  • 두 분산 비교 : F분포
  • 적합도/독립성 : 카이제곱분포

 

 

 

 

[나의 생각 정리]

통계에서 확률분포는 핵심적인 부분이라고 들었다.

이론적인 내용을 정리했으나 실제로 적용하기 전에는 휘발성이 강할 것 같다.

 

 

 

[적용점]

'실무활용'에 작성하였음

 

 

 

“이 글은 제로베이스 데이터 스쿨 주 3일반 강의 자료 일부를 발췌하여 작성되었습니다.”