--- tags: '피어세션' --- 211025 피어세션 === - 기록자 : - 오늘의 한마디 - KT의 습격 진행 해야 될 것 --- - TodoList 리마인더 - 대회 진행상황 공유 질문 정리 --- 피어세션 진행 --- - Todo 공유 - 석민님: 코드 정리 후 git에 올림(config 파일을 직접 수정하도록 변경), db 서버 만들어서 통신하도록 구현중 - 태현님: 이력서 작성(밤샘...ㅠㅠ), 노션 카드 확인, 알고리즘은 오후에 풀 예정 - 재혁님: 건강검진 예약 + 운동, augmentation 데이터 만듬(어제), 이력서 하나 더 쓸 예정(현대오토에버) - 채원님: lstm 하는중(KLUE RE 방식과 달라서 다른 github 참고해서 코드 구현중), Curriculum Learning 논문을 찾고 아직 안 읽음, Vumbluebot 랩업리포트 정독 - 은진님: reader파트 논문 검색 후 자료 찾아봄, MT5를 활용해서 지문이 잘리는 것을 대체해볼 예정, CS 시험 대비, 오후에 운동 예정 - 동규님: 시각화 강의, 실습코드 공부. 리눅스 영상을 보며 공부 - 종현님: 맥북 에어 구입(대박!), 태블릿 가나요? , 전처리 과정에서 있었던 문제들 살펴보고 고치는 중, - KorQuad 데이터로 RoBERTa-large를 Fine-tuning 한 모델을 사용해도 되는가..? - 외부데이터를 쓰는 격이니까 쓰지 말자.. - 내일 질문?? - Augmentation과 전처리 수행한 것들 정리 해보자 - 처리한 데이터 별로 평가한 다음 성능이 올라갔던 것 끼리 합치자 - back translation(아직 완성X, http 에러발생) - question generation - bm25 높은 3개를 뽑아와서 원래 context와 연결하고 순서를 섞음(start idx도 같이 변경) -> negative sample 더 추가한 것 - 원래는 shuffle한 버전을 4개 넣었는데, 그러면 max_length로 잘릴때 중복되는 데이터가 여러개 들어갈 확률이 높기때문에 shuffle한 버전 1개만 넣으면 어떨까요? - 긴 데이터가 분할되면서 너무 유사한 데이터가 8배로 늘어날 것 같다 - 1:d (d는 hyperparameter, negative sample의 개수)로 실험 - d: 1, 2, 4, 8로 실험 - distant supervision 할 예정? - 위의 전처리 방법과 같은 것 같음 - 전처리 파일 열때 한글이 아닌 경우 - 해결책: 데이터->텍스트/csv 클릭 후 원하는 파일 선 택후 65001 유니코드로 바꿔서 열기 - 전처리 할 때, 한자나 특수문자가 사라지는 경우 - 정답에서도 똑같이 전처리를 해주는 것은 어떤가? - 결국 test 데이터 셋에서는 변경이 불가능하기 때문에 어렵다? - 따옴표나 특수문자가 평가될 때 어느정도 제외되고 평가되서 괜찮다? - 할 일 - 동규님: Augmentation 학습 - 채원님: LSTM 구현, Curriculum Learning QA 관련 논문 읽기 - 재혁님: Retreival elastic search 구현, distance supervision - 석민님: inference 코드 수정, elastic search 코드 작성, DPR 훈련 - 태현님: 실험 관리, fine-tuning된 모델 찾기 - 은진님: T5 모델 정리, LSTM 말고 다르게 붙이는 방법 조사, 커리큘럼 러닝 조사 - 종현님: 전처리 나눴던것 정리, 맥북 공부 하기 내일 까지 계획 --- - **실험 계획을 작성해서 체계적으로 실험해보기**