Week03 Day14
sequential data
$x_1,\ …,\ x_n$ 시퀀스 데이터들은 i.i.d(independent, identical distribution) 조건을 만족하지 않는다.
$x_n$ 은 이전의 데이터 $x_1,\ …,\ x_{n-1}$ 에 영향을 받고 $x_{n+1}$ 은 $x_1,\ …,\ x_n$ 에 영향을 받는다.
즉, 순서를 바꾸거나 과거 정보에 손실이 확률분포에 영향을 준다.
소리, 문자열, 주가 등의 데이터가 시퀀스 데이터에 해당한다.
$x_1,\ …,\ x_n$ 에 대한 확률을 고려해보자.
$P(x_1,\ …,\ x_n)$ 은 다음처럼 조건부확률을 이용할 수 있다.
\(P(x_1,\ ...,\ x...
Week03 Day13
convolution network
앞서 convolution layer에 대해 설명했다.
그 외 부가적인 내용을 설명하겠다.
fully connected layer는 점점 줄어드는 추세이다.
왜냐하면 parameter 수가 급격히 증가하여 generalization이 감소하게 된다.
convolution layer를 깊게 쌓고 fully connected layer를 줄이는 모델이 많이 보인다.
kernel의 width, height를 홀수로 사용하는 이유는 이미지 왜곡을 방지함이다.1
다음은 출력 데이터의 width를 계산하는 식이다.
\(w_{out} = w_{in} - k + 1 + 2*p,\\
w_{ou...
Week03 Day12
gradient descent
지난 글 참고
optimization
Mathematical optimization (alternatively spelled optimisation) or mathematical programming is the selection of a best element (with regard to some criterion) from some set of available alternatives.1
최적화(optimization)는 특정 집합에서 몇가지 기준을 가지고 최고의 요소를 선택하는 것이다.
보통 최대, 최소인 요소를 찾는다.
모델을 학습 데이터에 대해 최적화를 한다는 것은...
Week03 Day11
하 밀렸다…
3주차 과정이 다 끝난 다음에 작성했다…
conditional probability
결합확률(joint probability) $P(A, B)$ 은 사건 A와 B를 둘다 고려한 확률이다.
조건부확률(conditional probability) $P(A|B)$ 는 사건 B를 고려한 A에 대한 확률이다.
얼핏보면 둘다 사건 A, B가 동시에 일어난 확률을 구하는 것 같다.
나는 이 둘의 차이를 다음과 같이 구분한다.
remind: 확률의 고전적 정의
The probability of an event is the ratio of the number of cases favorable to it, to ...
Week02 Weekend
BoostCamp 2번째 주말이다.
벌써 2주가 지났다.
시간이 어떻게 지나갔는지 모르겠다.
큰일이다.
공부할 것이 너무 많아서 posting이 밀렸다…
그리고 기존 posting 내용을 보완해야되는데…
저번주 peer session이 아쉬워서 이번주 월요일에 조원들에게 제안 하나를 했다.
배운 내용을 바탕으로 각자 문제를 내서 다음날 같이 얘기해보자
효과는 정말 좋았다.
문제에 대해 토론하다보니 90분이라는 시간이 짧게 느껴졌다.
조원들이 더욱 적극적이게 되었다.
이번주 강의 중 확률론 강의가 있었는데 내가 이 부분이 너무 약하다는 것을 크게 느꼈다.
강의는 친절하지 않다.
사실 이 짧은 시간에 모든 것을 담을 ...
Week02 Day10
하… 오늘도 수업 내용 장난없다…
population
모집단이란 어떤 질문이나 실험에 관심이 있는 유사한 항목 또는 사건들의 집합이다.
통계 집단은 기존의 물체 그룹(예: 은하계 내의 모든 별들의 집합) 또는 경험으로부터의 일반화(예: 포커 게임에서 가능한 모든 손들의 집합)로 간주되는 가상적이고 잠재적으로 무한한 물체 그룹일 수 있다.1
population parameter
모수(population parameter)란 모집단 혹은 전체 집단을 설명하거나 특성을 나타내는 숫자이다.
예를 들어 우리나라 남녀 키의 평균 혹은 소득 평균 등 이 값으로 대략적으로 우리나라 사람들의 키를 설명할 수 있을 것이다...
Week02 Day09
하… 오늘 수업 장난없네…
probability
확률은 고전적 정의와 공리적 정의로 나뉜다.
고전적 정의는 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비이다.
단, 이는 어떠한 사건도 다른 사건들 보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립된다.1
공리적 정의에서 확률은 다음 3가지를 만족한다.2
\[E : event, S: sample\ sapce\\
1. P(E) \ge 0, P(E) \in \mathbb{R}, \mathbb{R}: real\ number\ set\\
2....
Week02 Day08
neural network
지난 시간까지 선형모델에 대해 알아봤다.
오늘은 비선형모델에 대해 알아보자.
신경망(neural network)은 선형모델과 비선형함수로 이루어진다.
앞서 배운 것을 다시 상기해보자면 아래 식과 같다.
\(y = XW + b\)
y: 출력 행렬, n x p
X: 입력 행렬, n x d
W: 가중치 행렬, d x p
b: 절편 행렬, n x p
여기서 절편 행렬은 같은 열이면 모든 행의 값이 다 같은 행렬이다.
즉, 하나의 p차원 벡터가 n개 복사하여 나타낸 행렬이다.
신경망은 출력 행렬 y의 각 값에 비선형함수를 적용함으로서 비선형모델이 된다.
이런 비선형모델을 단일 퍼셉트론(percep...
전체 글 65개, 9 페이지