09.22 피어 세션

# 09.22 피어 세션 ###### tags: `peer-session` RE, MRC Task 학습 ## 재형님 ### RE - KLUE Dataset과 유사한 데이터셋 = DocRED 데이터셋 - [Papers with code](https://paperswithcode.com/dataset/docred)에서 찾아본 결과 DocRED가 KLUE의 데이터셋과 유사한 구성을 가지고 있음 - KLUE RE 데이터셋은 위키피디아, 위키트리, 정책 브리핑으로 구성 - 한 문장으로 구성되어 있음 - DocRED의 SOTA Model은 RoBERTa-large모델로 해당 논문을 읽어 볼것 제안 - DocRED - 언어는 다르지만 데이터셋을 수집한 곳이 유사함(wikipedia etc) - DocRED에서의 SOTA 모델: RoBERTa + SSAN + addaptation - 가설: "영미권 wiki을 학습한 모델이 한국어 wiki을 학습한 모델과 결과가 유사할 것이다. 따라서 DocRED SOTA모델을 사용하는게 한국어 wiki data으로 구성된 klue RE 데이터 셋에도 유의미한 결과를 나타낼 것이다" - RoBERTa를 시작해보기 - 그리고 RoBERTa + SSAN + addaptation으로 진행해보기 --- ## 요한님 ### RE - 다른 사람들의 EDA 참고 [링크](https://github.com/joon1230/KLUE_relation_extraction/blob/main/EDA.ipynb) - 30개의 릴레이션 - '관계없음'의 비율이 가장 높음 - json 형태의 Dataset으로 구성되어있다. ### huggingface - KLUE-RE 베이스라인 활용 -> 허깅페이스 -> 모델 적용 --- ## 한진님 - '관계없음'의 비율이 높으므로 데이터 불균형이 존재함 - Data Augmentation - 부정적인 단어를 추가해서 Negative Sentence - 별도의 데이터 수집 - SOTA 4에 해당하는 논문을 준비 중 (기대할 것, 스티브 잡스 뺨따구 때릴만한 발표 준비중(?)) - 논문 준비(Jointly relation extraction) -> 기존의 RE에 Entity의 갯수가 추가됨 --- ## 호영님 - 참고 링크 정리 [집현전 Survey of document level RE](https://youtu.be/sp7N5y2Cpg0) [DSBA Lab Semina - MRC(1)](https://youtu.be/CbY_xcBGR20) 영어 데이터에서 RE task에서 데이터셋으로 사용하는 것들의 특징 [DSBA Lab Semina - MRC(2)](https://youtu.be/uIoXJcsPj_8) --- ## Problem & Solution - 데이터 셋 불균형 및 부족 - Data Augmentation or 수집 - Nagative Sentence - DocRED Translate - 모델 선택 및 베이스라인 생성 - https://github.com/Jjackson-dev/BoostCamp_nlp_athenaeum - 호영님이 발굴하신 내용 Baseline Code로 생성 --- # 논문 발표 순서 ![](https://i.imgur.com/1PENUdm.jpg) - 논문 발표시간은 질문시간 포함 15분 목 16:00 1. ELECTRA - 요한 2. KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning, EMNLP'19 - 재형 3. Listen, Attend and Spell - 찬미 4. Transformers4Rec - 민재 (예비) 금 16:30 5. ALBERT - 석진 6. Generative Spoken Language Modeling from Raw Audio - 호영 7. Joint Entity and Relation Extraction with Set Prediction Networks - 한진