# 12월 17일 멘토링
###### tags: `mentoring`
### 서비스 요약
```
<주식과 관련된 뉴스 분류>
1. text classification <KoBERT>
2. LDA
```
```
<뉴스에서 관련주 추출>
1. 키워드랭크(뉴스) -> BM25(DART)
2. NER(뉴스)-> BM25(DART) > 512문장 쪼개서, 나중에 합치는,
3. 인코더(뉴스) <-> 인코더(DART) 유사도 계산, DPR
- 평가방법: 손수 평가
- 3개 모델에 -> 관련주 뽑아주고 있는데 대해 앙상블 -> 하드보팅
- 좋은것을 활용하는 방법
```
```
<서빙>
평가 사이트,
뉴스입력 -> 관련주 보여주고
관련주 정보 <기업정보, 사업정보>, 관련뉴스5개정도 > summarize활용, KoBART
```
- 뉴스 문장이 512 문장까지만 들어가는 문제 발생
문장을 쪼개서 입력하고 나중에 합치는 방향
- KoBART
뉴스 요약 시 생성 모델을 사용할 것인지, 핵심 문장만 가져올것인지
생성 모델도 기사와 아예 다른 방향으로 생성할 수 있다.
abstractive, extractive
- 재형님의 질문
사업 보고서마다 길이가 다르다
2700~50000개까지 길이가 제각각임
- Text classification 리소스 문제
일단 ODQA 모델과 합쳐봐야 리소스 문제를 알 수 있다.
classification이라서 자원을 그렇게 많이 쓰진 않을 것
LDA와 KoBERT 활용한 text classification 중에 정확도가 높은 모델을 선택하면 좋을 것 같다.
- 한진님의 질문
지식 그래프 작업 중, 사업 보고서마다 형식이 달라서 일반화해야함