Week05 Day21
graph
내가 아는 graph의 정의는 다음과 같다.
the graph of a function f is the set of ordered pairs (x, y), where f(x) = y.1
이산수학을 공부할 때 graph를 배웠겠지만 기억이 나질 않는다…
아래는 이산수학에서의 graph 정의이다.
a graph is a structure amounting to a set of objects in which some pairs of the objects are in some sense “related”. The objects correspond to mathematical abstraction...
Week04 Weekend
이번주는 NLP를 공부했다.
정말 너무 어려웠다.
수업을 따라가는게 힘들었다.
내용정리를 하는데 그날그날 끝내지 못했다.
사실 가장 시간을 많이 쓰는 부분은 수업에 대한 궁금증을 해소하기 위해 구글링을 하는 것이다.
이해될 때까지 논문, 외국 블로그 등을 봤다.
그러다 보니 하루가 지나서 내용정리를 못했다.
이번주 수, 목, 금을 제 시간에 못했다.
그래서 주말에 수, 목에 배운 강의를 정리했다.
이번주는 매일 과제가 있었는데 목, 금 과제를 제출하지 못했다.
목요일 과제는 BPE(Byte Pair Encoding)인데 이걸 제대로 이해하지 못했다.
금요일 과제는 한국어 데이터를 이용해 자연어 모델을 만드는 것이다...
Week04 Day19
또 밀림…ㅋㅋ…
부스트캠프의 강의와 cs224n - Transformers를 참고하였다.
seq2seq with attention limitation
이전 강의에서 many-to-many 모델의 한 종류인 seq2seq with attention 을 살펴봤다.
seq2seq는 encoder, decoder가 RNN 이다.
RNN 모델의 한계가 있다.
이 모델은 왼쪽에서 오른쪽으로 정보가 흐른다.
다시 말해, 선형적인 locality를 encoding한다.
가까이 있는 단어끼리 영향을 준다는 뜻이다.
문제는 멀리 떨어져 있는 단어가 정보를 주고 받으려면 O(N; sequence length)의 time step이 ...
Week04 Day18
하… 또 밀렸다…
sequence to sequence
sequence to sequence 모델은 대표적인 many-to-many 모델이다.
즉, 입력과 출력이 sequence인 모델이다.
이 모델은 encoder와 decoder로 구성되며 대표적으로 활용되는 task는 machine translation이 있다.
encoder와 decoder는 따로 존재하며 parameter를 공유하지 않는다.
sequence를 입력으로 받으므로 encoder와 decoder는 RNN을 사용하며 cell은 LSTM이다.
sequence to sequence 모델의 구조는 아래 그림과 같다.
1
이전 강의에서 설명했듯이 텍스트...
Week04 Day17
오늘은 RNN 모델에 대해 배웠다.
지난주에 RNN과 transformer 모델을 배웠다.
그래서 같은 내용을 여기다가 또 적지 않을 것이다.
대신 지난주에 정리하다가 부족한 부분을 채우고 실습에 관한 내용을 정리할 생각이다.
text preprocessing
데이터를 모델에 입력하기 위해 사전에 가공해야 된다.
이 과정을 전처리(preprocessing)이라 한다.
text 데이터는 가변길이의 데이터이다.
zero padding sequence
나중에 추가…
packed sequence
나중에 추가…
Week04 Day16
4주차는 자연어 처리에 대해 배운다.
NLP(Natural Language Processing)
컴퓨터가 인간 언어를 적절히 이해하고 생성하는데 목표를 둔 NLP는 DNN의 발전과 함께 인공지능의 중요한 application 중 하나이다.
주요 학회는 ACL, EMNLP, NAACL 등이 있다.
NLP의 주요 task는 다음과 같다.
low-level parsing
tokenization
문장, 문서 형태로 된 자연어 텍스트를 모델이 이해할 수 있는 최소 의미 단위인 “token”이라는 단위로 분리하는 과정이다.
ex) i like bread -> i, like, bread
...
Week03 Weekend
3주가 지났다.
이번주는 이미지, 시퀀스 데이터에 대한 딥러닝 모델로 CNN과 RNN을 배웠다.
넓고 얕게 배운 기분이다.
부족한 부분은 스스로 채워야 했다.
확률론 개념이 부족하여 강의를 추가적으로 들을려고 했으나 도저히 시간이 없었다.
매일 주어진 강의를 소화하느라 바빴다.
정말 해야 할 것이 너무 많다.
다행히 설날이 있어서 1주일 쉬어서 부족한 부분을 추가로 공부하였다.
그래도 부족한 부분은 transformer model 과 generative model 이다.
이 두 모델은 정말 이해하는데 힘들어서 포기했다.
다행히 transformer 는 4주차에 다시 다룬다고 하니 꼭 이해하고 넘어갈 것이다.
Week03 Day15
generative model
What I cannot create, I do not understand - Richard Feynman -
생성모델(generative model)의 목적이 뭘까?
이름에서 알 수 있듯이 무언가 생성하는 모델?
맞는 말이지만 이게 생성모델의 목적의 전부가 아니다.
강아지 사진이 주어졌다고 하자.
그러면 다음과 같은 모델들을 학습할 수 있다.
강아지처럼 보이는 이미지를 생성할 수 있는 확률분포.
확률밀도함수에 어떤 이미지를 입력으로 하여 높은 값을 얻는다면 강아지일 가능성이 크다.
이 경우 explicit model이라고도 불린다.
주어진 강아지 사진들의 공통...
전체 글 65개, 9 페이지