# 11월 26일 피어세션 ###### tags: `peer-session` 하이 ㅎㅎ 하이?? 해위~~~~ ㅎㅎ?? 한진님 놈흐옙흐네용 준비 ㅎㅇㅌ! https://youtu.be/w5y0YHoWBXk ㅋㅋㅋㅋ감사합니다 #### 재형님 점심 점심 : 3분 카레 저녁 : 닭강정 저녁 : 역전할머니생맥주 ㅎㅎ; ## 오늘 할 것 #### 멘토님이 말씀해주신 부분 정리 ### 1. 데이터수집 #### DART - 기업마다 사업보고서가 다를 수 있기 때문에 확인 필요 #### 뉴스 - 다음 뉴스 크롤링 - 저작권 제한 없음(?), 다음 뉴스 API 찾아보기 - 뉴스데이터(http://ling.snu.ac.kr/class/cl_under1801/FinalProject.htm) - API 호출 주기 정해야 함 + realtime 어떻게 설정할지 ### 2. 데이터 전처리 #### DART - 개행\n 제거 - 큰챕터, 작은 챕터분류 - dictionary 형태로 배포 #### 뉴스 - newspaper3k 라이브러리 사용하여 뉴스데이터 전처리 - FnGuide 분류표 추천 ### 2. 모델링 굳이 NER할 필요가 있나 1.a - 형태소 분석기로 고유명사 위주로 뽑기 - 불용어 걸러내는 방법 - 뉴스 제목에 핵심 단어가 포함되어 있기 때문에 추출 단어와 제목을 비교하여 유사도 측정 문장이 짧아야 유사도가 정확함 클러스터링 - LDA 등으로 클러스터링 해두기(LDA 자체는 gensim 라이브러리 쓰면 되어서 쌉가능) - 미리 사업보고서 기반으로 분류해두고, NER 단어 등으로 기업 이름만 뽑아서 그 기업이 속해있는 주제의 기업들을 다 추천해주기 - 딥러닝 STS - 만약 할꺼라면... 요약을 미리 해둬야 한다. STS는 경험 상 한두문장이어야 함. 그래서 요약을 미리 해두고 모델에 넣어야 한다. ### 3. 검증 검증: 100개 200개 사람이 직접 만들고 비교해보자 - 검증데이터를 정하려면 라벨링을 하는 방식도 정해야 하는데 기준이 될만한 가이드?가 필요할 것 같다. 1. Deep Search에서 기업을 검색하면 나오는 뉴스와, 관련주를 결합하여 만들어보기(제안) inference: 시간이 오래 걸리니 미리 해두고 결과만 반환해라 ### 4. 서비스구현 NOSQL 몽고DB를 사용해봐라 (text가 많기 때문에 NoSQL이 더 적합함) Django 보다는 Flask같은 쉬운 웹백엔드를 사용해보는 걸 추천 (모델링이 중요하다.) #### 데이터 수집현황 - 다아트으 - 자동화 코드 구현 완료 ```py 구조 [ { "기업 이름": str, "기업 코드":str, "수정 일자": str, "주식 코드": str, "contents": { "큰 챕터1" : { "작은 챕터1" : str, "작은 챕터2" : str, ... }, "큰 챕터2" :{ ... } } } ] ``` - 허깅페이스에 넣을 데이터셋 인터페이스에 대해 고민 중 #### 경량화 대회현황(진행사항) - 각자 생각한 방향으로 한 번은 제출해보기! (다음 주 월요일까지) #### 경량화 강의(주말까지)