# 모델링 및 결과분석
###### tags: `Dataset`
## 데이터 분리
train 80% test20%로 분리했다. (seed:42)
- Train의 분포(총 317개)

- Test의 분포 (총 80개)

## F1-score : 80
### 파라미터
```python
MODEL_NAME = "klue/bert-base"
training_args = TrainingArguments(
output_dir='./results', # output directory
save_total_limit=5, # number of total save model.
save_steps=500, # model saving step.
num_train_epochs=10, # total number of training epochs
learning_rate=5e-5, # learning_rate
per_device_train_batch_size=16, # batch size per device during training
per_device_eval_batch_size=16, # batch size for evaluation
warmup_steps=500, # number of warmup steps for learning rate scheduler
weight_decay=0.01, # strength of weight decay
logging_dir='./logs', # directory for storing logs
logging_steps=100, # log saving step.
evaluation_strategy='steps', # evaluation strategy to adopt during training
# `no`: No evaluation during training.
# `steps`: Evaluate every `eval_steps`.
# `epoch`: Evaluate every end of epoch.
eval_steps = 500, # evaluation step.
load_best_model_at_end = True
)
```
- Train F1-Score : 99
- Inference F1-Score : 80
Train F1-score가 99까지 오른것을 보면
과적합된 것일 수도 있을 것 같다. 모델을 줄이거나
epoch을 줄이는게 좋아보임
Inference F1-Score가 80인것을 보면 우리의 문제가
그렇게 어렵진 않다는 것을 알 수 있음
## 결과 분석
[스프레드 시트 링크](https://docs.google.com/spreadsheets/d/1J4muPO9fCY0cm3ECfZEAkXaQE-1NNURC6KK9Ysbk-OY/edit?usp=sharing)
- 생각보다 기술과 서비스를 그렇게 헷갈려하진 않음
#### 틀린것 (총 16개)

#### 년도/일을 잘 못맞춘다.
- 출시일과 개발일로 잘못예측하는 경우가 많았음
- 정작 진짜 '기술:개발일'은 못맞춘다.
- 상관없는걸 날짜로 예측한 것 5개
개발일을 이상한 것으로 예측한거 3개 -> 총 8개가틀림
#### 틀린 비율은 얼마나 될까?


서비스:출시주체 : 3/11
기술:정의 : 2/16
인물:개발기술 : 4/16
기술:개발일 : 3/5
기술:하위기술 : 1/13
기술:개발단체 : 1/3
서비스:기반기술 : 0/6
서비스:출시일 : 0/2
**오우야;; '기술:하위기술'과 '서비스:기반기술' 엄청 잘 구분**
근데 소름돋는게 train 분포를 보면
- Train의 분포(총 317개)

하위기술, 기반기술이 많아서 잘 맞추는거일수도...?
# 새로운 데이터
### F1 65
- no_relations들이 너무 어려운거아닌가?
- https://docs.google.com/spreadsheets/d/1mPE9MaaNbBS_NzT6bN-40LlBuUWnlRwmKIyQ-oeuGj8/edit#gid=1599938288