owned this note changed 4 years ago
Published Linked with GitHub

210823 피어세션

해야 할 것

  • EDA

데이터 분석

입력 값 분석

  • train => age, gender, race
  • 각 폴더에 image가 여러개 존재
    • 전부 정면
    • 올바르게 쓴 경우는 마스크 색깔만 다름

EDA

  • 각 이미지 파일에 함정이 존재한다. ._mask.jpg등 불러오면 안되는 파일이 존재, jpg와 png가 존재

  • 분석중 mask 1,2,3 을 전부 mask로 통일

  • mask/normal/incorrect mask비율이 5 : 1 : 1여서 F1 score를 사용하는 듯

  • data augmentation해야 될 거 같다 (데이터가 너무 적다ㅠ)

  • 얼굴 중앙만 가져오자

  • 아이디 중복은 사실 이미지 분류를 하는데 큰 의미가 없다. (아이디로 EDA를 할 필요가 없어 보인다)

    • 학습할 때 필요없다. (info name이 겹치면 문제겠지만 겹칠일이 없다)
  • gender, race, age는 feature로 사용할 수 없다

    • gender를 먼저 구분하고 다음에 race를 구분해도 될까요? -> 가능
  • gender와 race의 관계를 봐라? -> 근데 의미없어 보인다 => data augmentation에서 비율 사용 가능

  • 한쪽만 데이터가 많으면 안 좋을 수 있다. 데이터의 균형을 맞춰주자

    • female: 1658, male: 1042 로 데이터가 존재
    • mask : incorrent_mask : no_mask = 5 : 1 : 1
  • 이미지의 경향성을 분석

기타

  • VS code에서 AI stage 서버 연결해서 여는 방법
  • 결과값을 어떻게 출력하는가?
    • 3종류의 모델으로 분류 (multi class classification)
    • 모델을 3개를 만드는 것이 아닌 FC layer를 323 으로 쌓아서 분류
    • 18개의 결과값으로 출력
  • 얼굴을 인식하고 분류한다
  • Gray scale를 쓰는게 좋은가?
    • 쓴다는 거 자체가 손실데이터를 쓴다는 의미다.
  • seed를 잘 설정해야한다. random seed는 항상 설정해 놓자!
    • 설정해놓은 seed를 동일하게 계속 사용해서 성능 비교! (근본 42..메모..)
    • EasyDict사용할 수 있다
  • 탄탄하게 합시당~~!!!

Reference

Select a repo