P stage 첫날이다.
앞으로 2주간 image classification을 진행한다.
competition 형태로 운영되며 네이버 클라우드 플랫폼에서 24시간 사용할 수 있는 GPU를 지원해줬다.
U stage는 교수님들이 주로 강의를 해주었지만 P stage부터는 현재 현업에서 일하고 계시는 분들이 강의를 해주신다.
그래서 좀 더 실용적인 내용을 배울 것으로 기대하고 있다.
EDA(Exploratory data analysis)
In statistics, exploratory data analysis is an approach to analyzing data sets to summarize their main characteristics, often using statistical graphics and other data visualization methods.
A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task.
Exploratory data analysis was promoted by John Tukey to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments.1
통계학에서 EDA는 보통 통계 그래픽과 기타 데이터 시각화 방법을 사용하여 주요 특성을 요약하기 위해 데이터 세트를 분석하는 접근법이다.
통계 모델은 사용되거나 사용되지 않을 수 있지만, 주로 EDA는 공식 모델링 또는 가설 테스트 작업을 넘어 데이터가 우리에게 말해줄 수 있는 것을 보기 위한 것이다.
John Tukey는 통계학자들이 데이터를 탐색하도록 장려하고 새로운 데이터 수집 및 실험으로 이어질 수 있는 가설을 공식화하기 위해 탐색적 데이터 분석을 추진하였다.
EDA를 너무 어렵게 생각하지 말라고 하셨다.
내가 궁금한게 뭔지를 정의하고 이에 대한 대답을 얻기 위해 데이터를 분석하는 것이다.
그렇기에 EDA 하기 전에 먼저 문제 정의를 해야 된다.
내가 무엇을 해결하고 싶은지를 정하고 이에 대한 어떤 데이터가 필요한지 정할 수 있다.
문제 정의
P stage는 competition 형태로 진행된다.
대표적으로 kaggle이 있다.
대회에 참가할 때 맨 먼저 봐야할 것이 문제에 대한 overview이다.
이곳에는 문제를 낸 사람이 어떤 문제를 해결하고 싶은지, 문제에 대한 배경지식, 이걸 어디에 사용할 것인지 등이 담겨있다.
image classification
여러 사람들의 마스크 착용, 미착용, 오착용 이미지가 주어졌다.
이를 18가지 class로 분류하는 문제이다.
이미지에 대한 나이, 성별 정보가 주어졌다.
먼저 결측치가 있는지 확인해봤고 없음을 확인했다.
나이, 성별 분포를 살펴봤다.
30세 이하, 50세 이상의 사람들이 많았다(쌍봉 분포).
class별 분포도 살펴봤다.
한 사람당 제대로 마스크 착용한 이미지 5개, 미착용 1개, 오착용 1개가 주어졌다.
임의로 한 사람을 선택하여 이미지에 어떤 특징이 있는지 살펴봤고 13개의 특징을 확인했다.
추가적으로 다른 사람이 공유해준 정보가 있는데 labeling이 잘못된 데이터가 있는 것 같다.
남성인데 여성으로, 여성인데 남성으로 된 이미지가 있다.
아무래도 사람에 의해 labeling을 하다보니 잘못된 것 같다.
성별에 대해 잘못 labeling이 되었다면 나이도 잘못 기입된 경우가 있지 않을까? 라는 생각을 했다.
여기까지 살펴봤을때 두가지 의문이 생겼다.
- 이미지의 color가 중요한 feature일까?
흑백으로 하면 안되나? - 이미지의 크기가 중요한 feature일까?
크기를 줄이면 어떨까?
EDA는 한번만 하고 끝내는게 아니라 모델을 만들고 부족한 부분을 찾기위해 다시 EDA를 하는, 반복적인 작업이다.
먼저 이미지를 흑백으로 바꾸고 학습시킬때 이미지 크기를 줄여볼 것이다.
아직 학습을 위한 파이프라인을 만들지 못했다.
벌써 다른사람들은 제출을 했는데 조급해하지 말고 천천히 할 생각이다.