# 12월 10일 피어세션
###### tags: `peer-session`
## 모더레이터: 송민재
월요일에 논문 세미나 있어서 모더레이터 바꿔 주실 분 구합니다 -호영
한진님(월) <-> 호영(수)
### 재형님의 점심메뉴: 닭강정, 저녁으로 닭강정 남은거 + 코코볼
### 찬미님 닭 :chicken:
### 요한님의 점심메뉴: 학식 국밥(순대는 튼실하다.)
### 18시 마스터 클래스
### 강의 진행사항
#### 민재
멘토링끝나고 자고 일어나니까 네시
## 최종 프로젝트
---
### 데이터셋 만들기
다트 데이터 죽을 것 같아요... zzz
저는 이게 금방 슉슉될줄 알았어요...고생이 많으십니다.. 어디서막히세여?
### 모델

1. NER->BM25 활용 관련주 추출
2. Knowledge-graphr 기반 관련기업 추출
3. 기업단어 빈칸 (DART<->NEWS) STS로 관련주 추출
### 서빙
#### 한 진
-
#### 호 영
epoch 1 batch id 1001 loss 0.0003820314886979759 train acc 0.9645354645354646
epoch 1 validation acc 0.522101847639268
epoch 2 validation acc 0.47789815236073196
#### 요한
- NER 태스크를 뉴스 모델에 적용
- BM25에 키워드(NER)로 시도
#### 찬 미
- 파일럿(?) 페이지 및 결과 페이지 생성
#### 재 형
table을 없애면 줄긴 줄어든다.

기본 10,000 -> 2,000대로 줄어들긴 함. -> EDA에 길이분포 만들어놧어요 돌려보세요~
여기서 더 줄일 수 있을지 고민 -> xml에서 p tag만 뽑아도 봤음. 전체 길이 자체는 줄지 않는다. -> 해결할 수 있는 방법 -> p 단위로 문장을 자르기.
1. p 단위로 잘라서 동일 기업에 대해 여러 데이터를 만들기
2. 그냥 모델에 한번에 때려넣고, 모델 단에서 문장을 1 / n 등분 해서 각각 넣고 soft-voting 등으로 후처리하기