[강의 요약]
[Part 08 통계. Ch 01. 기초통계_기초과정] 강의 수강
클립 6~9 수강
🐢 100일 챌린지 🔥 : [▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰░ ] 95/100일 (95%)
자격증 실시간 특강 참여하고 글 작성까지 다 하니까 11시가 넘어간다 ㅠㅠ
[연속형 확률분포 기초]
▶ 확률밀도함수 (PDF)
연속형 확률변수 X의 확률밀도함수 f(x)는 다음 조건을 만족함
* 기본 성질
- f(x) ≥ 0 (모든 x에 대해)
- ∫_{-∞}^{∞} f(x)dx = 1
- P(a ≤ X ≤ b) = ∫_a^b f(x)dx
▶ 누적분포함수 (CDF)
F(x) = P(X ≤ x) = ∫_{-∞}^x f(t)dt
* 누적분포함수의 성질
- 0 ≤ F(x) ≤ 1
- F(x)는 단조증가함수
- F(-∞) = 0, F(∞) = 1
[균등분포 (Uniform Distribution)]
구간 [a, b]에서 모든 값이 동일한 확률을 가지는 분포
▶ 확률밀도함수
f(x) = { 1/(b-a), a ≤ x ≤ b 0, otherwise }
▶ 누적분포함수
F(x) = { 0, x < a (x-a)/(b-a), a ≤ x ≤ b 1, x > b }
▶ 기댓값과 분산
- 기댓값 : E[X] = (a+b)/2
- 분산 : Var[X] = (b-a)²/12
▶ 활용 예시
- 난수 생성
- 대기시간 모델링
[정규분포 (Normal Distribution)]
가장 중요한 연속형 확률분포로, 자연현상과 사회현상의 많은 부분을 설명함
▶ 확률밀도함수
f(x) = (1/√(2πσ²)) × e^(-(x-μ)²/(2σ²))
여기서 μ는 평균, σ²는 분산
* 표기법 : X ~ N(μ, σ²)
▶ 표준정규분포
μ = 0, σ = 1인 특별한 경우.
φ(z) = (1/√(2π)) × e^(-z²/2)
▶ 정규분포의 성질
- 평균 = 중앙값 = 최빈값 (μ)
- 대칭성 : 평균을 중심으로 좌우 대칭
- 68-95-99.7 규칙
- 68%의 데이터가 μ ± σ 범위에
- 95%의 데이터가 μ ± 2σ 범위에
- 99.7%의 데이터가 μ ± 3σ 범위에
▶ 표준화
Z = (X - μ)/σ ~ N(0,1)
▶ 활용 예시
- 시험 점수 분포
- 측정 오차
- 키, 몸무게 등 생체 데이터
[지수분포 (Exponential Distribution)]
사건 간 대기시간을 모델링하는 분포
▶ 확률밀도함수
f(x) = λe^(-λx), x ≥ 0
▶ 누적분포함수
F(x) = 1 - e^(-λx), x ≥ 0
▶ 기댓값과 분산
- 기댓값 : E[X] = 1/λ
- 분산 : Var[X] = 1/λ²
▶ 무기억성 (Memoryless Property)
P(X > s+t | X > s) = P(X > t)
▶ 활용 예시
- 고객 도착 간격
- 제품 수명
- 전화 통화 시간
[표본분포와 중심극한정리]
▶ 표본평균의 분포
모집단 X ~ N(μ, σ²)에서 크기 n인 표본을 추출할 때
X̄ ~ N(μ, σ²/n)
▶ 중심극한정리 (CLT)
모집단의 분포가 정규분포가 아니어도, 표본 크기가 충분히 클 때
Z = (X̄ - μ)/(σ/√n) → N(0,1) (n → ∞)
* 실용적 기준 : n ≥ 30이면 근사적으로 정규분포
▶ 표본분산의 분포
(n-1)S²/σ² ~ χ²_{n-1}
[카이제곱분포 (Chi-square Distribution)]
자유도 v인 카이제곱분포는 독립인 표준정규변수들의 제곱합
▶ 확률밀도함수
f(x) = (1/(2^(v/2)Γ(v/2))) × x^(v/2-1) × e^(-x/2), x > 0
▶ 성질
- 기댓값 : E[X] = v
- 분산 : Var[X] = 2v
- 가법성 : χ²_v1 + χ²_v2 = χ²_{v1+v2}
▶ 활용
- 적합도 검정
- 독립성 검정
- 분산의 구간추정
[t분포 (Student's t-distribution)]
표본 크기가 작을 때 모평균을 추정하는 데 사용
▶ 확률밀도함수
f(t) = Γ((v+1)/2) / (√(vπ)Γ(v/2)) × (1 + t²/v)^(-(v+1)/2)
▶ 성질
- 대칭분포 (평균 = 0)
- 자유도가 클수록 표준정규분포에 근사
- 분산 : Var[T] = v/(v-2) (v > 2)
▶ 표준화된 t통계량
T = (X̄ - μ)/(S/√n) ~ t_{n-1}
▶ 활용
- 소표본에서의 평균 검정
- 회귀계수의 유의성 검정
[F분포 (F-distribution)]
두 카이제곱분포의 비로 정의되는 분포
▶ 정의
F = (χ²_v1/v1) / (χ²_v2/v2) ~ F_{v1,v2}
▶ 확률밀도함수
f(x) = [Γ((v1+v2)/2) / (Γ(v1/2)Γ(v2/2))] × (v1/v2)^(v1/2) × x^(v1/2-1) × (1 + (v1/v2)x)^(-(v1+v2)/2)
▶ 성질
- 항상 양수
- 비대칭분포
- 기댓값 : E[F] = v2/(v2-2) (v2 > 2)
▶ 활용
- 분산의 동질성 검정
- 회귀분석의 F검정
- 분산분석(ANOVA)
[실무 활용]
▶ 분포 선택 가이드
- 정규분포 : 연속적이고 대칭적인 데이터
- 지수분포 : 대기시간, 생존시간
- 균등분포 : 난수 생성, 확률이 균등한 경우
- 카이제곱분포 : 분산 관련 검정
- t분포 : 소표본 평균 검정
- F분포 : 분산 비교, 회귀분석
▶ 표본 크기별 전략
- n < 30 : t분포 사용
- n ≥ 30 : 중심극한정리에 의해 정규분포 근사
- 모분산 알려져 있음 : 정규분포 사용
- 모분산 모름 : t분포 사용
▶ 검정 상황별 분포
- 평균 검정 : t분포 또는 정규분포
- 분산 검정 : 카이제곱분포
- 두 분산 비교 : F분포
- 적합도/독립성 : 카이제곱분포
[나의 생각 정리]
통계에서 확률분포는 핵심적인 부분이라고 들었다.
이론적인 내용을 정리했으나 실제로 적용하기 전에는 휘발성이 강할 것 같다.
[적용점]
'실무활용'에 작성하였음
“이 글은 제로베이스 데이터 스쿨 주 3일반 강의 자료 일부를 발췌하여 작성되었습니다.”
'제로베이스 데이터 취업 파트타임 > 100일 챌린지_일일 학습 일지' 카테고리의 다른 글
제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.21] (1) | 2025.06.21 |
---|---|
제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.20] (0) | 2025.06.20 |
제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.18] (1) | 2025.06.18 |
제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.17] (0) | 2025.06.17 |
제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.16] (0) | 2025.06.16 |