# 09.22 피어 세션
###### tags: `peer-session`
RE, MRC Task 학습
## 재형님
### RE
- KLUE Dataset과 유사한 데이터셋 = DocRED 데이터셋
- [Papers with code](https://paperswithcode.com/dataset/docred)에서 찾아본 결과 DocRED가 KLUE의 데이터셋과 유사한 구성을 가지고 있음
- KLUE RE 데이터셋은 위키피디아, 위키트리, 정책 브리핑으로 구성
- 한 문장으로 구성되어 있음
- DocRED의 SOTA Model은 RoBERTa-large모델로 해당 논문을 읽어 볼것 제안
- DocRED
- 언어는 다르지만 데이터셋을 수집한 곳이 유사함(wikipedia etc)
- DocRED에서의 SOTA 모델: RoBERTa + SSAN + addaptation
- 가설: "영미권 wiki을 학습한 모델이 한국어 wiki을 학습한 모델과 결과가 유사할 것이다. 따라서 DocRED SOTA모델을 사용하는게 한국어 wiki data으로 구성된 klue RE 데이터 셋에도 유의미한 결과를 나타낼 것이다"
- RoBERTa를 시작해보기
- 그리고 RoBERTa + SSAN + addaptation으로 진행해보기
---
## 요한님
### RE
- 다른 사람들의 EDA 참고 [링크](https://github.com/joon1230/KLUE_relation_extraction/blob/main/EDA.ipynb)
- 30개의 릴레이션
- '관계없음'의 비율이 가장 높음
- json 형태의 Dataset으로 구성되어있다.
### huggingface
- KLUE-RE 베이스라인 활용 -> 허깅페이스 -> 모델 적용
---
## 한진님
- '관계없음'의 비율이 높으므로 데이터 불균형이 존재함
- Data Augmentation
- 부정적인 단어를 추가해서 Negative Sentence
- 별도의 데이터 수집
- SOTA 4에 해당하는 논문을 준비 중 (기대할 것, 스티브 잡스 뺨따구 때릴만한 발표 준비중(?))
- 논문 준비(Jointly relation extraction) -> 기존의 RE에 Entity의 갯수가 추가됨
---
## 호영님
- 참고 링크 정리
[집현전 Survey of document level RE](https://youtu.be/sp7N5y2Cpg0)
[DSBA Lab Semina - MRC(1)](https://youtu.be/CbY_xcBGR20)
영어 데이터에서 RE task에서 데이터셋으로 사용하는 것들의 특징
[DSBA Lab Semina - MRC(2)](https://youtu.be/uIoXJcsPj_8)
---
## Problem & Solution
- 데이터 셋 불균형 및 부족
- Data Augmentation or 수집
- Nagative Sentence
- DocRED Translate
- 모델 선택 및 베이스라인 생성
- https://github.com/Jjackson-dev/BoostCamp_nlp_athenaeum
- 호영님이 발굴하신 내용 Baseline Code로 생성
---
# 논문 발표 순서

- 논문 발표시간은 질문시간 포함 15분
목 16:00
1. ELECTRA - 요한
2. KagNet: Knowledge-Aware Graph Networks for Commonsense Reasoning, EMNLP'19 - 재형
3. Listen, Attend and Spell - 찬미
4. Transformers4Rec - 민재 (예비)
금 16:30
5. ALBERT - 석진
6. Generative Spoken Language Modeling from Raw Audio - 호영
7. Joint Entity and Relation Extraction with Set Prediction Networks - 한진