--- tags: '피어세션' --- 211013 피어세션 === - 기록자 : - 오늘의 한마디 - "제 때 먹을건 먹으면서 합시다!" - "넵 !" 진행 해야 될 것 --- - TodoList 리마인더 - baseline code 궁금한 사항들 해결하기 질문 정리 --- - baseline 코드에서 offset 부분이 이해가 잘 되지 않음 - 목적은 answer의 시작과 끝 인덱스를 구하기 위함 - ![](https://i.imgur.com/kCSu0QK.png) - 데이터 전처리 부분 코드 분석이 어려움 - 이순신 장군은 조선 시대 최고의 무장이다. - tokenizing [이순신, 장군, ##은, 조선, 시대, 최고, ##의, 무장, ##이, ##다] - input_ids [1,2,3,4,5,6,7,8,9,10] => 토크나이징에 맞는 input_ids가 생성 - offset => [(0,3), (4,6), (6,7), (8,10)...] => input_ids의 인덱스 위치를 설정 (시작, 끝) 피어세션 진행 --- - TodoList - 태현님: 강의 정리, 2강 3강 집중해서 학습 - 은진님: 2강 3강 다 들음, 전체적인 흐름 잡기 좋았다. 베이스라인 코드 학습, 전처리 부분 계속 공부하는 중 - 동규님: 강의 다 듣고 베이스라인 코드 자세히 보면서 이해 중, 베이스라인에 추가 해야할 부분들이 있는 것 같다. 필요한 부분만 메뉴얼하게 설정해서 돌려보았다. - 종현님: 2, 3강 수강. 베이스라인 코드 분석, 스페셜 미션 수행 예정 - 재혁님: 면접 잘 보고 옴. 오후에 강의 수강 예정 - 채원님: 3강 수강. baseline train.py 대략적으로 이해 - 석민님: 2, 3강 수강, 전처리 부분 다시 보면 좋을 것 같다. 데이터셋 .csv 형식으로 변환, 데이터를 살펴보며 고민해 볼 만한 사례들이 있었다. 백신 1차 접종 - Dense Retriever 학습 - 평가 기준이 있는가? - 어떻게 적합한 글을 찾아올 수 있는지 - 동규님 실습 데이터 전처리 과정 설명 - Baseline 코드 분석 꿀팁 - 각각의 함수의 input으로 어떤것이 들어가는지와 output으로 어떤것이 나오는지를 기준으로 둘러보기 내일 까지 계획 --- - 수업 수강 계획 - 최대한 강의 수강 빠르게 열심히 해보기 - Baseline 코드 목요일까지 충분히 이해하기 - 대회 진행 계획 - 데이터 분석해서 Augmentation 구현 - 동규, 종현 - 방법론 조사 - SOTA 모델에 대해서 알아보기(https://paperswithcode.com/task/open-domain-question-answering) - https://www.youtube.com/watch?v=bV9WWRyRBt4&t=3s - 재혁, 채원, 은진 - 코드 최적화 - 태현, 석민