# 11월 26일 피어세션
###### tags: `peer-session`
하이 ㅎㅎ
하이??
해위~~~~
ㅎㅎ??
한진님 놈흐옙흐네용 준비 ㅎㅇㅌ!
https://youtu.be/w5y0YHoWBXk
ㅋㅋㅋㅋ감사합니다
#### 재형님 점심
점심 : 3분 카레
저녁 : 닭강정
저녁 : 역전할머니생맥주 ㅎㅎ;
## 오늘 할 것
#### 멘토님이 말씀해주신 부분 정리
### 1. 데이터수집
#### DART
- 기업마다 사업보고서가 다를 수 있기 때문에 확인 필요
#### 뉴스
- 다음 뉴스 크롤링 - 저작권 제한 없음(?), 다음 뉴스 API 찾아보기
- 뉴스데이터(http://ling.snu.ac.kr/class/cl_under1801/FinalProject.htm)
- API 호출 주기 정해야 함 + realtime 어떻게 설정할지
### 2. 데이터 전처리
#### DART
- 개행\n 제거
- 큰챕터, 작은 챕터분류
- dictionary 형태로 배포
#### 뉴스
- newspaper3k 라이브러리 사용하여 뉴스데이터 전처리
- FnGuide 분류표 추천
### 2. 모델링
굳이 NER할 필요가 있나
1.a
- 형태소 분석기로 고유명사 위주로 뽑기
- 불용어 걸러내는 방법
- 뉴스 제목에 핵심 단어가 포함되어 있기 때문에 추출 단어와 제목을 비교하여 유사도 측정
문장이 짧아야 유사도가 정확함
클러스터링
- LDA 등으로 클러스터링 해두기(LDA 자체는 gensim 라이브러리 쓰면 되어서 쌉가능)
- 미리 사업보고서 기반으로 분류해두고, NER 단어 등으로 기업 이름만 뽑아서 그 기업이 속해있는 주제의 기업들을 다 추천해주기
- 딥러닝 STS
- 만약 할꺼라면... 요약을 미리 해둬야 한다. STS는 경험 상 한두문장이어야 함. 그래서 요약을 미리 해두고 모델에 넣어야 한다.
### 3. 검증
검증: 100개 200개 사람이 직접 만들고 비교해보자
- 검증데이터를 정하려면 라벨링을 하는 방식도 정해야 하는데 기준이 될만한 가이드?가 필요할 것 같다.
1. Deep Search에서 기업을 검색하면 나오는 뉴스와, 관련주를 결합하여 만들어보기(제안)
inference: 시간이 오래 걸리니 미리 해두고 결과만 반환해라
### 4. 서비스구현
NOSQL 몽고DB를 사용해봐라 (text가 많기 때문에 NoSQL이 더 적합함)
Django 보다는 Flask같은 쉬운 웹백엔드를 사용해보는 걸 추천 (모델링이 중요하다.)
#### 데이터 수집현황
- 다아트으
- 자동화 코드 구현 완료
```py
구조
[
{
"기업 이름": str,
"기업 코드":str,
"수정 일자": str,
"주식 코드": str,
"contents": {
"큰 챕터1" : {
"작은 챕터1" : str,
"작은 챕터2" : str,
...
},
"큰 챕터2" :{
...
}
}
}
]
```
- 허깅페이스에 넣을 데이터셋 인터페이스에 대해 고민 중
#### 경량화 대회현황(진행사항)
- 각자 생각한 방향으로 한 번은 제출해보기! (다음 주 월요일까지)
#### 경량화 강의(주말까지)