# 12월 23일 피어세션
###### tags: `peer-session`
## 모더레이터: 정찬미
## 해야할 것
### 1. 프로젝트 마무리
1. Dart 데이터 업데이트
2. 지식그래프 추가하기
3. 뉴스 검색어 어떻게 할지?
### 2. 검증
1. 앙상블 결과 올리기
2. 4개의 모델에 대한 평가하기
각자의 기준이 있어야함
예) 1개맞으면 2,3점 3개 맞으면 6점
근데 순서까지 맞으면 7점 이런식으로
### 3. PPT 마무리
1. 피드백을 기반으로 PPT 수정
### 4. 시연영상
1. 금요일 전에 촬영할 것
## 최종 프로젝트 멘토 피드백
1. 발표 초반부의 문제 정의에서 시스템의 전반적인 파이프라인을 설명할 때, 기본적인 형태/추가된 구조를 나누어 설명하는게 잘 이해가 안되는 거 같아요. 제안하는 추천 시스템을 딱 하나로 표현해서 왼쪽에 넣고, 오른쪽에서 지금처럼 그 시스템의 세부 모듈을 소개하면 더 한눈에 들어오지 않을까 싶습니다.
```
12p -> 형태/추가된 구조 설명
제안하는 시스템을 하나로 표현하고 오른쪽에서 세부 모듈 소개
```
2. 각 모듈이 도입된 의도 및 구현 결과에 대한 장단점, 개선 방법 등이 서술되어 정리되어 있어서 좋은 것 같습니다.
3. 26페이지의 세 갈래(KR-WordRank, NER, Doc2Vec)가 어떻게 앙상블 되는지, BM25는 각각 어떻게 사용되는지 조금 더 표현되면 좋을 것 같아요.
3. 발표 초반의 관련 주식 추출 모델에 대한 설명에서 앙상블에 대한 내용이 명시 및 강조되면 좋을 것 같습니다.
```
어떤 방식으로 앙상블되는지 표현
어떤 방식으로 모델이 동작하는지 표현
```
4. "DART"가 뭔지 생소할 것 같은데, 15페이지 아래에서 스르륵 소개하고 넘어가는게 아니라 이게 어떤 정보고 기업과 어떤 관련이 있는지 좀 더 잘 설명하면 좋을 것 같아요.
5. dart 데이터 정보를 어떠한 형식으로 가공하는지에 대한 설명이 제공되면 좋을 것 같습니다.
7. '다트'로 언급하는 것이 무엇인지 청자에 따라 혼동이 있을 수 도 있을 것 같습니다.
```
DART 사업보고서의 형태에 대한 페이지 하나 파고 이 내용이 왜 기업을 추출하는데 도움이 되는지에 대한 근거가 될 만한 내용 추가
이를 어떤 방식으로 가공했는지에 대한 내용 추가
```
6. 뉴스 데이터의 source에 대해 설명이 제공되면 좋을 것 같습니다.
```
뉴스 데이터도 출처와 가공 방식에 대한 설명 추가
```
5. 가끔씩 슬라이드 내의 텍스트 정보량이 너무 많은 것 같은데, 되도록 중요한 정보만 우선해서 슬라이드에 적으면 좋을 것 같아요. 내용이 많으면 이걸 하나하나 읽어야 하는지에 대한 부담감이 들 떄도 있고, 정말 중요한 내용이랑 덜 중요한 내용이랑 구분이 어려워서 전반적인 흐름을 따라가기 어려울 때도 있는 것 같습니다.
```
텍스트 줄이기.
중요한 내용 위주로 표현
```
6. 사소한거긴 한데, 슬라이드 전반에서 구어체인 문장을 문어체로 바꾸고 접속사도 불필요하면 삭제해서 문장 길이를 좀 줄이면 좋을 것 같아요."
```
문어체 -> 구어체
```
6. 마스킹을 시각화하는 파란색 박스가 보기에 더 편하도록 다듬어지면 좋을 것 같습니다.
```
21p 파란 박스 예쁘게 수정
```
8. 프로젝트의 흐름 및 모델의 구조를 시각화하는 디자인에 개선의 여지가 많을 것 같습니다.
```
시각화 예쁘게
```
9. 사용한 기술 스택에 대한 설명에서 대표적인 몇몇 패키지를 언급해주시면 전달이 더 잘 될 것 같습니다.
```
기술 스택을 붙여만 놓을 것이 아니라 어떤 것을 위해 사용했는지에 대한 간단한 설명 추가
```
10. 검증 방법 파트에서 motivation에 대한 설명이 더 쉽게 제시되었으면 좋을 것 같습니다.
11. page 29에서 글씨가 작고 내용이 많아 어떤 것인지 한 눈에 잘 들어오지 않는 것 같습니다.
```
왜 이런 검증 방식을 택했는지, 이 방식으로 얻을 수 있는 내용 설명
시각적으로 더 나은 방법 고민
```
## 최종 프로젝트 예상 질문
1. 뉴스가 작성된 시간(연도, 월, 일 등)에 관한 고려는 어떻게 되는지, 이를 어떻게 개선될 수 있을지?
```
X
```
2. DART-뉴스 간 유사도 외에 고려할 수 있는 관련주의 기준은 어떤게 있을 것으로 생각되는지, 그리고 그 기준을 만족하는 관련주를 어떻게 NLP 기법을 통해 찾을 수 있을지
```
```
3. 어떤 뉴스 및 이에 대한 실제 관련주(해당 뉴스와 관련된 사건으로 인해 주가가 실제로 급변한 주식)를 기반으로 평가를 해본 적이 있는지? 혹은 어떻게 할 수 있을지
```
```
4. 임의의 관련주 추출 시스템이 있을 때, 이에 대한 정량적인 평가를 어떻게 하면 좋을지에 대한 아이디어가 있을지. 혹시 labeled 데이터가 필요하다면 이를 어떻게 수집할 수 있을지?
```
```
5. 해당 접근 방법을 통해 기업 공시 자료에 있는 지분 구조 및 매출 구조에 따른 주변 이익/손해를 보는 기업을 잡아낼 수 있을까요?
```
```
6. causality와 관련될 수 있는 접근법일 수 있는데, time dependency에 대한 정보가 반영될 수 있을까요?
```
```