# 12월 20일 피어세션
## 모더레이터: 송민재
죄송합니다 오늘 모더레이터 재형님이셨네요... 내일 모더레이터 부탁드립니다 ㅠㅠ
### :100:재형님의 점심 메뉴: 포스트 콘푸라스트?(탄수화물) + 호두(지방)
## 최종 프로젝트 진행 사항
### 1. 현재까지 진행한 것, 앞으로 더 개선될 점이 있는지?
#### 나요한
- 뉴스 전처리 마무리
- NER 코드 정리
- 모델은 램에 올려두는게 합리적으로 보임
- 현재 ipynb형태인데 .py의 함수형태로 정리하는게 좋을지?
- Sequence Length에 관한 고찰
- 중간정도인 200정도가 괜찮은 것 같음
- 실제 BM25에서 추출할때도 유의미하게 좋아보이는지?
#### 한진
- 지식그래프
#### 이호영
- KoBERT 모델 웹에 적용하기
- KoBERT(BERT) 모델 구조 내용 정리
- KoBERT 코드 주석달기
- Accuracy 0.82 -> 정확도를 더 늘려야할지?
2. 개선에 필요한 시간
3. 발표 설계(어떤걸 말할지), 시연 흐름
4. 시연영상을 위한 코드합치기
5. 시연영상 촬영 (최대한 오늘안에)
### 시각화적 접근
```
A. 키워드 <-> 키워드, 기업 민재
B. 기업1 <-> 기업2 석진님의 Doc2Vec
C. 기업1 <- 키워드(다트 or 손) <-> 키워드 -> 기업2 한진님의 지식그래프
```
### 기술적 접근
```
뉴스 1개를 Doc2Vec -> 기업 N개를 뽑고 -> 지식그래프 기업(2500개)대상 (다트) -> NER 명사 추출 -> 키워드
```
# 최종서빙
금일 20시 30분 모여서 합치기
## 1. 텍스트분류 붙이기 (8시 30분 시작) (호영)
```
- 요구사항: 뉴스를 입력하면, "관련주를 뽑을수 없는 뉴스입니다." 출력
```
## 2. 관련주 추출 모델 붙이기 (8시 30분 ?) (요한, 석진, 재형)
```
- 요구사항: 키워드랭크 +BM25
NER + BM25
Doc2Vec
앙상블 코드
- 검증 해보기(검증영상도 있으면 좋을 것 같음)
- 20개의 검증데이터 정하기(관련있느애들 위주)
- 3개의 방법론에 대해 점수비교하고 통계치를 내기
- 어떤 방법이 가장 우수했고 왜그런지 분석
- 영상을 뉴스를 뽑아야함 (시연용 데이터 뽑기
- 관련있는것, 관련없는것, 최신 뉴스(네이버에서 긁어오는)
```
## 3. 지식그래프 (10 30분?) (한진, 민재)
```
요구사항: 키워드<->키워드,기업 이미지를 추전주 3개 위에 이미지(?)로 출력
기업 -> 키워드 <-> 키워드 <- 기업 형태 이미지를 기업내 설명으로 추가
```
## 4. 서빙
```
- Fast API..
```
## 5. 시연 PPT 및 영상 제작
```
- 예비 PPT 작성
- 프로젝트 개요 그림 필요
- 협업과정(깃헙, 허깅페이스허브, 회의)
- 진행과정
```