---
tags: '피어세션'
---
211013 피어세션
===
- 기록자 :
- 오늘의 한마디
- "제 때 먹을건 먹으면서 합시다!"
- "넵 !"
진행 해야 될 것
---
- TodoList 리마인더
- baseline code 궁금한 사항들 해결하기
질문 정리
---
- baseline 코드에서 offset 부분이 이해가 잘 되지 않음
- 목적은 answer의 시작과 끝 인덱스를 구하기 위함
- 
- 데이터 전처리 부분 코드 분석이 어려움
- 이순신 장군은 조선 시대 최고의 무장이다.
- tokenizing [이순신, 장군, ##은, 조선, 시대, 최고, ##의, 무장, ##이, ##다]
- input_ids [1,2,3,4,5,6,7,8,9,10] => 토크나이징에 맞는 input_ids가 생성
- offset => [(0,3), (4,6), (6,7), (8,10)...] => input_ids의 인덱스 위치를 설정 (시작, 끝)
피어세션 진행
---
- TodoList
- 태현님: 강의 정리, 2강 3강 집중해서 학습
- 은진님: 2강 3강 다 들음, 전체적인 흐름 잡기 좋았다. 베이스라인 코드 학습, 전처리 부분 계속 공부하는 중
- 동규님: 강의 다 듣고 베이스라인 코드 자세히 보면서 이해 중, 베이스라인에 추가 해야할 부분들이 있는 것 같다. 필요한 부분만 메뉴얼하게 설정해서 돌려보았다.
- 종현님: 2, 3강 수강. 베이스라인 코드 분석, 스페셜 미션 수행 예정
- 재혁님: 면접 잘 보고 옴. 오후에 강의 수강 예정
- 채원님: 3강 수강. baseline train.py 대략적으로 이해
- 석민님: 2, 3강 수강, 전처리 부분 다시 보면 좋을 것 같다. 데이터셋 .csv 형식으로 변환, 데이터를 살펴보며 고민해 볼 만한 사례들이 있었다. 백신 1차 접종
- Dense Retriever 학습
- 평가 기준이 있는가?
- 어떻게 적합한 글을 찾아올 수 있는지
- 동규님 실습 데이터 전처리 과정 설명
- Baseline 코드 분석 꿀팁
- 각각의 함수의 input으로 어떤것이 들어가는지와 output으로 어떤것이 나오는지를 기준으로 둘러보기
내일 까지 계획
---
- 수업 수강 계획
- 최대한 강의 수강 빠르게 열심히 해보기
- Baseline 코드 목요일까지 충분히 이해하기
- 대회 진행 계획
- 데이터 분석해서 Augmentation 구현
- 동규, 종현
- 방법론 조사
- SOTA 모델에 대해서 알아보기(https://paperswithcode.com/task/open-domain-question-answering)
- https://www.youtube.com/watch?v=bV9WWRyRBt4&t=3s
- 재혁, 채원, 은진
- 코드 최적화
- 태현, 석민