# 12월 20일 피어세션 ## 모더레이터: 송민재 죄송합니다 오늘 모더레이터 재형님이셨네요... 내일 모더레이터 부탁드립니다 ㅠㅠ ### :100:재형님의 점심 메뉴: 포스트 콘푸라스트?(탄수화물) + 호두(지방) ## 최종 프로젝트 진행 사항 ### 1. 현재까지 진행한 것, 앞으로 더 개선될 점이 있는지? #### 나요한 - 뉴스 전처리 마무리 - NER 코드 정리 - 모델은 램에 올려두는게 합리적으로 보임 - 현재 ipynb형태인데 .py의 함수형태로 정리하는게 좋을지? - Sequence Length에 관한 고찰 - 중간정도인 200정도가 괜찮은 것 같음 - 실제 BM25에서 추출할때도 유의미하게 좋아보이는지? #### 한진 - 지식그래프 #### 이호영 - KoBERT 모델 웹에 적용하기 - KoBERT(BERT) 모델 구조 내용 정리 - KoBERT 코드 주석달기 - Accuracy 0.82 -> 정확도를 더 늘려야할지? 2. 개선에 필요한 시간 3. 발표 설계(어떤걸 말할지), 시연 흐름 4. 시연영상을 위한 코드합치기 5. 시연영상 촬영 (최대한 오늘안에) ### 시각화적 접근 ``` A. 키워드 <-> 키워드, 기업 민재 B. 기업1 <-> 기업2 석진님의 Doc2Vec C. 기업1 <- 키워드(다트 or 손) <-> 키워드 -> 기업2 한진님의 지식그래프 ``` ### 기술적 접근 ``` 뉴스 1개를 Doc2Vec -> 기업 N개를 뽑고 -> 지식그래프 기업(2500개)대상 (다트) -> NER 명사 추출 -> 키워드 ``` # 최종서빙 금일 20시 30분 모여서 합치기 ## 1. 텍스트분류 붙이기 (8시 30분 시작) (호영) ``` - 요구사항: 뉴스를 입력하면, "관련주를 뽑을수 없는 뉴스입니다." 출력 ``` ## 2. 관련주 추출 모델 붙이기 (8시 30분 ?) (요한, 석진, 재형) ``` - 요구사항: 키워드랭크 +BM25 NER + BM25 Doc2Vec 앙상블 코드 - 검증 해보기(검증영상도 있으면 좋을 것 같음) - 20개의 검증데이터 정하기(관련있느애들 위주) - 3개의 방법론에 대해 점수비교하고 통계치를 내기 - 어떤 방법이 가장 우수했고 왜그런지 분석 - 영상을 뉴스를 뽑아야함 (시연용 데이터 뽑기 - 관련있는것, 관련없는것, 최신 뉴스(네이버에서 긁어오는) ``` ## 3. 지식그래프 (10 30분?) (한진, 민재) ``` 요구사항: 키워드<->키워드,기업 이미지를 추전주 3개 위에 이미지(?)로 출력 기업 -> 키워드 <-> 키워드 <- 기업 형태 이미지를 기업내 설명으로 추가 ``` ## 4. 서빙 ``` - Fast API.. ``` ## 5. 시연 PPT 및 영상 제작 ``` - 예비 PPT 작성 - 프로젝트 개요 그림 필요 - 협업과정(깃헙, 허깅페이스허브, 회의) - 진행과정 ```