제로베이스 데이터 파트타임 스쿨 학습 일지 [25.06.20]

[강의 요약]

[Part 08 통계. Ch 01. 기초통계_기초과정] 강의 수강

클립 10~11 수강

🐢 100일 챌린지 🔥 : [▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰               ] 96/100일 (96%)

 

 

 

 

[추정의 기본 개념]

▶ 추정이란?

추정(Estimation)은 모집단의 모수를 표본 정보를 통해 추론하는 과정

우리가 알고 싶은 모집단의 특성을 표본 데이터를 바탕으로 추측하는 통계적 방법

 

 

▶ 추정의 종류

1. 점추정 (Point Estimation)

  • 모집단의 모수를 하나의 값으로 추정하는 방법
  • 표본 평균(X̄)으로 모평균(μ)을 추정
  • 표본 비율(p̂)로 모비율(p)을 추정

 

2. 구간추정 (Interval Estimation)

  • 모집단의 모수가 특정 구간 안에 있을 확률을 제시하는 방법
  • 신뢰구간을 통해 추정의 정확도를 표현

 

 

▶ 추정량의 성질

좋은 추정량이 갖춰야 할 조건들

  • 불편성(Unbiasedness) : E(추정량) = 모수
  • 일치성(Consistency) : 표본 크기가 클수록 모수에 가까워짐
  • 효율성(Efficiency) : 추정량의 분산이 최소
  • 충분성(Sufficiency) : 모수에 대한 모든 정보를 포함

 

 

 

[모비율 추정]

▶ 모비율 추정의 기본 개념

모비율 p를 추정할 때 사용하는 방법으로, 표본에서 특정 속성을 가진 개체의 비율을 통해 모집단 전체의 비율을 추정

 

 

▶ 점추정

표본비율 p̂ = X/n (X: 성공 횟수, n: 표본크기)를 사용하여 모비율 p를 추정

 

 

▶ 구간추정 - 신뢰구간

대표본 근사 (n이 충분히 클 때)

정규분포 근사를 사용하여 신뢰구간을 구함

 

95% 신뢰구간

p̂ ± 1.96 × √(p̂(1-p̂)/n)

 

정확한 방법 (이항분포 기반)

표본 크기가 작거나 더 정확한 구간이 필요할 때 사용

 

 

▶ 표본 크기 결정

원하는 오차한계 E와 신뢰도를 만족하는 표본 크기

n = (Z²α/2 × p̂(1-p̂)) / E²

 

 

 

[실제 계산 예시]

▶ 예제 1: 기본 모비율 추정

상황 : 1000명 중 424명이 특정 제품을 선호한다고 응답

  • 표본비율 : p̂ = 424/1000 = 0.424
  • 95% 신뢰구간
     
    0.424 ± 1.96 × √(0.424 × 0.576/1000)
    = 0.424 ± 1.96 × 0.0156
    = 0.424 ± 0.031
    = (0.393, 0.455)

해석 : 모비율이 39.3%~45.5% 사이에 있을 확률이 95%

 

 

▶ 예제 2: 표본 크기 결정

목표 : 오차한계 3%, 신뢰도 95%

사전 정보가 없는 경우 p̂ = 0.5 사용

n = (1.96² × 0.5 × 0.5) / 0.03²
= 3.84 × 0.25 / 0.0009
≈ 1067

결론: 최소 1067명의 표본이 필요함

 

 

 

[핵심]

▶ 기억해야할 포인트

  • 표본 크기가 클수록 추정의 정확도가 높아짐
  • 신뢰도가 높을수록 신뢰구간이 넓어짐
  • 오차한계가 작을수록 더 많은 표본이 필요
  • p̂가 0.5에 가까울수록 가장 많은 표본이 필요

 

 

▶ 주의사항

  • 표본이 모집단을 대표해야 함
  • 정규분포 근사는 np ≥ 5, n(1-p) ≥ 5일 때 적절함
  • 신뢰구간은 구간 자체가 확률적이라는 점을 이해해야 함

 

 

▶ 클로드 AI로 시각화 실습

https://claude.ai/public/artifacts/0d979954-055a-4541-8d9d-326425683e8f

 

 

 

 

 

[나의 생각 정리]

추정 이론은 통계학의 핵심 개념이다.

제한된 표본 정보를 통해 모집단에 대한 합리적인 추론을 가능하게 한다.

정확한 추정을 위해서는 적절한 표본 크기 선정과 올바른 추정 방법 선택이 중요하고

결과해석 시에는 항상 불확실성을 고려해야 한다.

 

 

 

[적용점]

모비율 추정의 경우 여론조사, 품질관리, 의학 연구 등 여러 분야에서 활용되고 있다.

 

 

 

“이 글은 제로베이스 데이터 스쿨 주 3일반 강의 자료 일부를 발췌하여 작성되었습니다.”