Done
- U-Net 학습
backbone model로 VGG16을 사용했다.
여태까지 모델 구현 중 가장 까다로웠다.
encoder와 decoder가 대칭인데 encoder에서 subsampling 하기 전 feature map을 decoder에 넘겨주고 decoder의 feature map과 concatenation을 해야 된다.
이 부분을 어떻게 구현할지 고민을 많이 했다.
또한 논문에서는 convolution을 할 때 padding을 주지 않아서 feature map의 크기가 조금씩 줄었다.
나는 padding을 줘서 크기를 유지했고 pooling을 통해 크기를 줄였다.
다음 이미지들은 train, validation data에 대한 metric이다.
UNet4VGG16은 VGG16 기반 U-Net 모델을 의미하며 DeconvNet4VGG16은 현재 public LB 점수가 가장 높은 모델이다. - train, val loss
- train, val mean IoU
UNet4VGG16의 public LB는 0.4364를 기록했다.
To do
- DeepLab V1 구현