하… 오늘도 수업 내용 장난없다…
population
모집단이란 어떤 질문이나 실험에 관심이 있는 유사한 항목 또는 사건들의 집합이다.
통계 집단은 기존의 물체 그룹(예: 은하계 내의 모든 별들의 집합) 또는 경험으로부터의 일반화(예: 포커 게임에서 가능한 모든 손들의 집합)로 간주되는 가상적이고 잠재적으로 무한한 물체 그룹일 수 있다.1
population parameter
모수(population parameter)란 모집단 혹은 전체 집단을 설명하거나 특성을 나타내는 숫자이다.
예를 들어 우리나라 남녀 키의 평균 혹은 소득 평균 등 이 값으로 대략적으로 우리나라 사람들의 키를 설명할 수 있을 것이다.
sample
표본(sample)이란 적절한 방법으로 모집단으로 부터 수집된 것들이다.
모집단으로부터 n개의 표본을 M번 추출할때 다음과 같이 나타냈다.
\(X_1 = \{x_{11}, x_{12}, ..., x_{1n}\}\\
X_2 = \{x_{21}, x_{22}, ..., x_{2n}\}\\
...\\
X_M = \{x_{M1}, x_{M2}, ..., x_{MN}\}\\\)
$X_1, X_2, …, X_M$ 각각 표본들에 대해 평균, 분산 등을 계산할 수 있다.
이런 값을 통계량(statistic)이라 부르며 이 값들의 분포를 sampling distribution이라 한다.
statistical modeling
통계적 모델링(statistical modeling)은 주어진 데이터의 생성에 관련하여 통계적인 가정을 구체화하는 수학적 모델이다.
목표는 모집단의 확률분포를 추정하는 것이다.
주어진 유한개의 데이터로 모집단을 추정하는 것은 힘들다.
따라서 근사적으로 추정한다.
방법에는 여러가지가 있다.
먼저 특정분포를 따른다고 가정한다면 그 분포의 모수를 추정하는 것이다.
이 방법을 모수적(parameteric) 방법이라 한다.
반대로 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 갯수가 유연하게 바뀐다면 이를 비모수적(non-parameteric) 방법이라 한다.
확률분포를 가정하는 방법은 히스토그램을 보며 특성을 파악한다.
예를 들어 정규분포 형태로 나타난다면 정규분포를 따르는지 검정방법을 통해 확인할 수 있다.
주의할 점은 먼저 분포를 가정하면 안된다.
위와 같은 과정을 통해 가정을 해야 된다.
비모수적 방법은 모수를 사용 안하거나 없다는 게 아니다.
주어진 데이터에 따라 모수가 변하는 것이다.
likelihood function
추가해야 됨
maximum likelihood estimation
추가해야 됨