---
tags: '피어세션'
---
211025 피어세션
===
- 기록자 :
- 오늘의 한마디
- KT의 습격
진행 해야 될 것
---
- TodoList 리마인더
- 대회 진행상황 공유
질문 정리
---
피어세션 진행
---
- Todo 공유
- 석민님: 코드 정리 후 git에 올림(config 파일을 직접 수정하도록 변경), db 서버 만들어서 통신하도록 구현중
- 태현님: 이력서 작성(밤샘...ㅠㅠ), 노션 카드 확인, 알고리즘은 오후에 풀 예정
- 재혁님: 건강검진 예약 + 운동, augmentation 데이터 만듬(어제), 이력서 하나 더 쓸 예정(현대오토에버)
- 채원님: lstm 하는중(KLUE RE 방식과 달라서 다른 github 참고해서 코드 구현중), Curriculum Learning 논문을 찾고 아직 안 읽음, Vumbluebot 랩업리포트 정독
- 은진님: reader파트 논문 검색 후 자료 찾아봄, MT5를 활용해서 지문이 잘리는 것을 대체해볼 예정, CS 시험 대비, 오후에 운동 예정
- 동규님: 시각화 강의, 실습코드 공부. 리눅스 영상을 보며 공부
- 종현님: 맥북 에어 구입(대박!), 태블릿 가나요? , 전처리 과정에서 있었던 문제들 살펴보고 고치는 중,
- KorQuad 데이터로 RoBERTa-large를 Fine-tuning 한 모델을 사용해도 되는가..?
- 외부데이터를 쓰는 격이니까 쓰지 말자..
- 내일 질문??
- Augmentation과 전처리 수행한 것들 정리 해보자
- 처리한 데이터 별로 평가한 다음 성능이 올라갔던 것 끼리 합치자
- back translation(아직 완성X, http 에러발생)
- question generation
- bm25 높은 3개를 뽑아와서 원래 context와 연결하고 순서를 섞음(start idx도 같이 변경) -> negative sample 더 추가한 것
- 원래는 shuffle한 버전을 4개 넣었는데, 그러면 max_length로 잘릴때 중복되는 데이터가 여러개 들어갈 확률이 높기때문에 shuffle한 버전 1개만 넣으면 어떨까요?
- 긴 데이터가 분할되면서 너무 유사한 데이터가 8배로 늘어날 것 같다
- 1:d (d는 hyperparameter, negative sample의 개수)로 실험
- d: 1, 2, 4, 8로 실험
- distant supervision 할 예정?
- 위의 전처리 방법과 같은 것 같음
- 전처리 파일 열때 한글이 아닌 경우
- 해결책: 데이터->텍스트/csv 클릭 후 원하는 파일 선 택후 65001 유니코드로 바꿔서 열기
- 전처리 할 때, 한자나 특수문자가 사라지는 경우
- 정답에서도 똑같이 전처리를 해주는 것은 어떤가?
- 결국 test 데이터 셋에서는 변경이 불가능하기 때문에 어렵다?
- 따옴표나 특수문자가 평가될 때 어느정도 제외되고 평가되서 괜찮다?
- 할 일
- 동규님: Augmentation 학습
- 채원님: LSTM 구현, Curriculum Learning QA 관련 논문 읽기
- 재혁님: Retreival elastic search 구현, distance supervision
- 석민님: inference 코드 수정, elastic search 코드 작성, DPR 훈련
- 태현님: 실험 관리, fine-tuning된 모델 찾기
- 은진님: T5 모델 정리, LSTM 말고 다르게 붙이는 방법 조사, 커리큘럼 러닝 조사
- 종현님: 전처리 나눴던것 정리, 맥북 공부 하기
내일 까지 계획
---
- **실험 계획을 작성해서 체계적으로 실험해보기**