---
tags: '피어세션'
---
211028 피어세션
===
- 기록자 : 태현님
- 오늘의 한마디
- 맥북은 소음 차단도 훌륭하다.
- msi 갖다버려
- "할로윈 데이 이벤트"
진행 해야 될 것
---
- TodoList 리마인더
질문 정리
---
피어세션 진행
---
- 할로윈 데이 잡담
- Todo
- 동규님: 난이도에 따라 데이터 나누는 작업, 웹툰 정주행으로 멘탈 관리
- 석민님: inference 코드 리펙토링, 예시로 쓰는 train dataset 2G 받음(DPR 훈련용 데이터)
- 은진님: T5 encoder 부분만 구현 중, 3시 회의
- 종현님: 석민님과 함께 inference 코드 구현, 공모전 발표 설명, 수상이 14팀인데.. 12팀 남았음 개꿀, wiki 데이터 전처리 10개씩 나누어서 1/10만 저장한 상태,
- 태현님: 데이터 어그멘테이션 인간지능을 쓰지 않고 수행하는 방법을 고민했음. 용량이 가득차서 생기는 문제를 해결
- 채원님: BART 학습 코드 수정(hyunwoongko/kobart), [skt-ai](https://github.com/SKT-AI/KoBART)에서 만든 kobart 시도 예정
- Difficulty로 데이터 나누기
- 5개의 모델이 맞힌 개수 별로 나누어서 난이도 측정
- 근데 점수가 다 잘나와서 성능이 조금 더 낮은 모델로 측정할 예정
- 나중에 Data Augmentation도 완료되면 추가해서 해볼 예정
- 인간지능을 뛰어넘는 법(석민님 데이터 증강)
- 생성된 질문을 Retrieval에서 Top 1, 2로 뽑힌 document가 정답인 경우만 훈련데이터로 사용
- 석민님
- pipeline을 이용하여 inference 코드 더 간편하게 수정 중인데
- 논문: Cheap and Good? Simple and Effective Data Augmentation for Low Resource Machine Reading => 적은 데이터의 MRC 모델을 효과적으로 훈련하는 방법.

- augmentation된 데이터와 원본 데이터를 함께 학습 -> 다시 원본 데이터로만 학습
- 모델 output layer를 deep하게 쌓아보기
- 추론 방법
- Dense layer를 깊게 쌓는 것은 복잡도만 늘리는 것
- feature의 정보를 배우기 어렵다
- 다른 유형의 layer로 일반화 된 성능 올리기 (lstm, conv)
- 앙상블에 사용될 수 있는 모델을 만들 수 있음
- 서로 다른 표현으로 다른 예측 가능
- model freezing 또는 lr를 다르게 주기
- model freezing 코드 예시
```
for name, para in model.parameters:
para.requires_grad = True
```
내일 까지 계획
---