# 11월 25일 피어세션
###### tags: `peer-session`
### Small Talk
재형 님 : 떡볶이 & 튀김
한진 님: 농협 알고리즘 토요일, NCS 일요일
- 감바스를 해먹을 예정
### 최종 프로젝트 구현방법
## 1. 사용자의 입력: 뉴스
- 뉴스데이터 : 기존 데이터셋 사용
- 뉴스데이터를 어디에서 어떻게 수집할 것인지?
- 어디서: 네이버 뉴스 API (25000건), 가능하면 인포스탁(주식 관련 뉴스) 사용
- 무엇을(분야?): 속보, 정치, 경제, 사회, 과학, 세계, IT, 오피니언,
- 얼마만큼: 위키(60000만개)정도?
- 어떻게: API활용
- 저작권 여부: ??
- 데이터의 column종류: "날짜", "분야",
- DART -> 성공
- 다트의 분기 보고서/반기 보고서/ 기타 등등...
- Sparse Embedding: 추가적인 데이터 필요 없음
- Dense Embedding: "뉴스 기사 <-> 기업 매칭" 레이블링 필요함
## 관련주 리트리버 구현방법 (모델링)
### 2.A. 뉴스에서 키워드 추출 -> 리트리버
- 키워드 추출을 어떻게 할지?
- 모델1.a: 뉴스텍스트 -> 키워드 추출(NER) -> 명사빈도
중요도 순위 할수 없을까?(TF-IDF, bm25)
"오늘", "점심", "날씨", "도시락" 명사중, 자주 등장
단어가 다뽑히는데 BM25로 한번 뽑아봐야알듯?
- 뉴스 -> NER(명사) -> BM25 (경제뉴스 + 필요 시 정치 기사 포함)
- 뉴스 -> BM25
- 모델1.b: 뉴스 -> 요약
- 요약한 문장을 모델2에 question으로 넣어보면?
"삼성전자의 컨트롤타워 부재, 투자 감소" 테스트
- 모델2: 키워드에 맞는 -> 사업보고서 검색 (Retrieval)(bm25)
question "2차전지와 관련된 주는?"
answer "dart 사업보고서"
### 2.B. 뉴스에서 사업보고서 바로
- 모델 3: 뉴스텍스트 -> 사업보고서 물어오기 (DPR -> 굳이 DPR일 필요는 없지만... spare embedding을 하면 딥러닝 NLP을 적용하는 관점에서 어떻게 어필할 수 있을지 고민이 필요함)
- 데이터형식: question(뉴스) -> wiki(dart)
- papers with code의 similarity task에 대해 research 필요
## 3. 사업보고서 출력
뉴스에서 알수있는 관련주
## 검증
- eval 데이터셋을 사람이 직접 라벨링
-
## 부가기능
- 사업보고서 요약
- 테마에 따라 알람
- 최신뉴스가 나오면 새로운 관련주를 추천
https://aihub.or.kr/aidata/8054
## 업무 기한
데이터 수집 : 21년 11월 29일(월)
- DART : 내일까지 가능. 파일럿 오늘 자정까지.
- 네이버 뉴스 API : 조금 걸릴 수 있음(주말쯤?)
- 전처리된 뉴스데이터셋 : 이미있음
**일찍되면 전처리 시작하기**
모델별 데이터 전처리 :
## 희망 업무 분할
0. 데이터 수집 : (DART) 백재형 / (네이버뉴스 API) 송민재 / (전처리된 뉴스) 나요한 => 허깅페이스로 만들기
DART 데이터 전처리 : 백재형, 홍석진, 이호영
NAVER API 전처리 : 정찬미, 한진
Augmentation(필요시) : 송민재, 정찬미, 이호영
1. NER 추출 후 리트리버(1.a) : 나요한, 송민재, 이호영
2. 문서 요약 후 리트리버(1.b) : 정찬미, 한진
3. 뉴스 전체 데이터로 리트리버(2.b) 백재형, 홍석진
4. 서빙: 강의때 열심히 들어서 진행하기
나요한: 뉴스데이터 수집 + 모델링 선호(1 > 2 > 3) + 웹앱을 통한 최신뉴스에 대한 관련주 추출 서빙
백재형: 다트 데이터 수집 허깅페이스 dataset 형태로 내일 피어세션전까지 마무리 가능합니다 -> EDA -> 전처리 -> 모델링 순서로 가고 싶슴니다. 모델링 선호(3 > 1 > 2)
- 파일럿 데이터셋은 오늘 자정까지도 돼여
송민재: 파일럿 뉴스 데이터수집+전처리/모델링 (1 > 2)순으로 시도해보기/Augmentation/
이호영: 1.a NER, 데이터 수집 및 전처리 + retriever input 형식으로 바꾸기
정찬미: 전처리 및 augmentation + 모델링 선호(2 > 1 > 3) + 서빙
한진: 선호도(2 > 3 > 1) 태스크, 데이터 수집 및 전처리
홍석진: 다트 데이터 전처리 / 선호도(3 > 2 > 1)
## 경량화 강의 체크
내일 최소 5강까지, 주말 까지 다 듣기
100: 5강까지 다 들음.
나요한: 5강
홍석진: 4강까지...
한진 : 3강 듣는중
정찬미 : 5강 듣는 중
송 : 4강 헤헤 (죄송어필)헤헤? 웃어? ㅋㅋ