12월 10일 피어세션

# 12월 10일 피어세션 ###### tags: `peer-session` ## 모더레이터: 송민재 월요일에 논문 세미나 있어서 모더레이터 바꿔 주실 분 구합니다 -호영 한진님(월) <-> 호영(수) ### 재형님의 점심메뉴: 닭강정, 저녁으로 닭강정 남은거 + 코코볼 ### 찬미님 닭 :chicken: ### 요한님의 점심메뉴: 학식 국밥(순대는 튼실하다.) ### 18시 마스터 클래스 ### 강의 진행사항 #### 민재 멘토링끝나고 자고 일어나니까 네시 ## 최종 프로젝트 --- ### 데이터셋 만들기 다트 데이터 죽을 것 같아요... zzz 저는 이게 금방 슉슉될줄 알았어요...고생이 많으십니다.. 어디서막히세여? ### 모델 ![](https://i.imgur.com/o33eTLT.png) 1. NER->BM25 활용 관련주 추출 2. Knowledge-graphr 기반 관련기업 추출 3. 기업단어 빈칸 (DART<->NEWS) STS로 관련주 추출 ### 서빙 #### 한 진 - #### 호 영 epoch 1 batch id 1001 loss 0.0003820314886979759 train acc 0.9645354645354646 epoch 1 validation acc 0.522101847639268 epoch 2 validation acc 0.47789815236073196 #### 요한 - NER 태스크를 뉴스 모델에 적용 - BM25에 키워드(NER)로 시도 #### 찬 미 - 파일럿(?) 페이지 및 결과 페이지 생성 #### 재 형 table을 없애면 줄긴 줄어든다. ![](https://i.imgur.com/CN3HmJQ.png) 기본 10,000 -> 2,000대로 줄어들긴 함. -> EDA에 길이분포 만들어놧어요 돌려보세요~ 여기서 더 줄일 수 있을지 고민 -> xml에서 p tag만 뽑아도 봤음. 전체 길이 자체는 줄지 않는다. -> 해결할 수 있는 방법 -> p 단위로 문장을 자르기. 1. p 단위로 잘라서 동일 기업에 대해 여러 데이터를 만들기 2. 그냥 모델에 한번에 때려넣고, 모델 단에서 문장을 1 / n 등분 해서 각각 넣고 soft-voting 등으로 후처리하기