# 11월 25일 피어세션 ###### tags: `peer-session` ### Small Talk 재형 님 : 떡볶이 & 튀김 한진 님: 농협 알고리즘 토요일, NCS 일요일 - 감바스를 해먹을 예정 ### 최종 프로젝트 구현방법 ## 1. 사용자의 입력: 뉴스 - 뉴스데이터 : 기존 데이터셋 사용 - 뉴스데이터를 어디에서 어떻게 수집할 것인지? - 어디서: 네이버 뉴스 API (25000건), 가능하면 인포스탁(주식 관련 뉴스) 사용 - 무엇을(분야?): 속보, 정치, 경제, 사회, 과학, 세계, IT, 오피니언, - 얼마만큼: 위키(60000만개)정도? - 어떻게: API활용 - 저작권 여부: ?? - 데이터의 column종류: "날짜", "분야", - DART -> 성공 - 다트의 분기 보고서/반기 보고서/ 기타 등등... - Sparse Embedding: 추가적인 데이터 필요 없음 - Dense Embedding: "뉴스 기사 <-> 기업 매칭" 레이블링 필요함 ## 관련주 리트리버 구현방법 (모델링) ### 2.A. 뉴스에서 키워드 추출 -> 리트리버 - 키워드 추출을 어떻게 할지? - 모델1.a: 뉴스텍스트 -> 키워드 추출(NER) -> 명사빈도 중요도 순위 할수 없을까?(TF-IDF, bm25) "오늘", "점심", "날씨", "도시락" 명사중, 자주 등장 단어가 다뽑히는데 BM25로 한번 뽑아봐야알듯? - 뉴스 -> NER(명사) -> BM25 (경제뉴스 + 필요 시 정치 기사 포함) - 뉴스 -> BM25 - 모델1.b: 뉴스 -> 요약 - 요약한 문장을 모델2에 question으로 넣어보면? "삼성전자의 컨트롤타워 부재, 투자 감소" 테스트 - 모델2: 키워드에 맞는 -> 사업보고서 검색 (Retrieval)(bm25) question "2차전지와 관련된 주는?" answer "dart 사업보고서" ### 2.B. 뉴스에서 사업보고서 바로 - 모델 3: 뉴스텍스트 -> 사업보고서 물어오기 (DPR -> 굳이 DPR일 필요는 없지만... spare embedding을 하면 딥러닝 NLP을 적용하는 관점에서 어떻게 어필할 수 있을지 고민이 필요함) - 데이터형식: question(뉴스) -> wiki(dart) - papers with code의 similarity task에 대해 research 필요 ## 3. 사업보고서 출력 뉴스에서 알수있는 관련주 ## 검증 - eval 데이터셋을 사람이 직접 라벨링 - ## 부가기능 - 사업보고서 요약 - 테마에 따라 알람 - 최신뉴스가 나오면 새로운 관련주를 추천 https://aihub.or.kr/aidata/8054 ## 업무 기한 데이터 수집 : 21년 11월 29일(월) - DART : 내일까지 가능. 파일럿 오늘 자정까지. - 네이버 뉴스 API : 조금 걸릴 수 있음(주말쯤?) - 전처리된 뉴스데이터셋 : 이미있음 **일찍되면 전처리 시작하기** 모델별 데이터 전처리 : ## 희망 업무 분할 0. 데이터 수집 : (DART) 백재형 / (네이버뉴스 API) 송민재 / (전처리된 뉴스) 나요한 => 허깅페이스로 만들기 DART 데이터 전처리 : 백재형, 홍석진, 이호영 NAVER API 전처리 : 정찬미, 한진 Augmentation(필요시) : 송민재, 정찬미, 이호영 1. NER 추출 후 리트리버(1.a) : 나요한, 송민재, 이호영 2. 문서 요약 후 리트리버(1.b) : 정찬미, 한진 3. 뉴스 전체 데이터로 리트리버(2.b) 백재형, 홍석진 4. 서빙: 강의때 열심히 들어서 진행하기 나요한: 뉴스데이터 수집 + 모델링 선호(1 > 2 > 3) + 웹앱을 통한 최신뉴스에 대한 관련주 추출 서빙 백재형: 다트 데이터 수집 허깅페이스 dataset 형태로 내일 피어세션전까지 마무리 가능합니다 -> EDA -> 전처리 -> 모델링 순서로 가고 싶슴니다. 모델링 선호(3 > 1 > 2) - 파일럿 데이터셋은 오늘 자정까지도 돼여 송민재: 파일럿 뉴스 데이터수집+전처리/모델링 (1 > 2)순으로 시도해보기/Augmentation/ 이호영: 1.a NER, 데이터 수집 및 전처리 + retriever input 형식으로 바꾸기 정찬미: 전처리 및 augmentation + 모델링 선호(2 > 1 > 3) + 서빙 한진: 선호도(2 > 3 > 1) 태스크, 데이터 수집 및 전처리 홍석진: 다트 데이터 전처리 / 선호도(3 > 2 > 1) ## 경량화 강의 체크 내일 최소 5강까지, 주말 까지 다 듣기 100: 5강까지 다 들음. 나요한: 5강 홍석진: 4강까지... 한진 : 3강 듣는중 정찬미 : 5강 듣는 중 송 : 4강 헤헤 (죄송어필)헤헤? 웃어? ㅋㅋ