# 12월 8일 피어세션 ###### tags: `peer-session` ## 모더레이터: 나요한 (nudago) ### 재형님의 오늘의 점심메뉴: 호박씨 코코볼 + 우유 먹었습니다 왜 죽이 아니죠 영양사 '경악' 원래 코코볼을 엄ㅊ어 좋아해요... ### 해야 할 것 이번주 주간학습피드백 week19 에서 최종 프로젝트 “발표제목“에 대한 문항이 있을 예정이에요. 금요일 이전에는 팀별 프로젝트 주제와 발표제목을 확정해주세요. 모든 팀원이 동일하게 작성해야하며, 그렇지 않을 경우 운영진이 확인을 요청드릴 수 있어요. 작성해주신 발표제목은 행사안내에 사용될 예정이니 신중하게 작성해주세요. ## 제목 ### 팀별 프로젝트 주제: ``` 입력된 뉴스 기사와 관련된 기업명 추출 ``` ### 팀별 프로젝트 발표제목 #### 야, 너도 화성갈 수 있어 :+1: :+1: :+1: :+1: :100: :-) ``` 부제: 관련주로 화성 갈끄니까~ ``` ## 서빙 ### 그래도... 강의 좋아하시죠? 예? :-1: #### 요한 2-2강 이론듣는중 #### 민재 2-1강(블루핸즈 이슈,학교 전산실 불에탐) + 엔진오일 이슈(사진 증빙 가능) ![](https://i.imgur.com/OpAXy37.png) #### 한진 2-5강 거의 다들음 #### 재형 오늘은 못들었습니다 ㅜㅜ #### 석진 2-3 듣는 중 #### 찬미 2-4강 #### 호영 강의 스킵 ``` 공지 : 이번 주 ``` ## 최프(최종프로젝트) - 전처리 대충 완료 - BPE 기반 토크나이저로 쓰잘데 없는 char 파악해서 지움 - 네모, 세모, 한자, 당구장... - 요약 살펴보려면 다트 EDA을 해야 했음 - 각 챕터 별 문장 길이 10,000은 기본으로 넘어감 - 값을 실제 까보면 표가 내용을 많이 차지함. 표를 제거하면 길이가 많이 줄어들까? - 기존의 코드를 사용해서 측정해보기... - 요약 - ETRI 버트 모델? KoBERT 모델? 끌고 와서 경제 뉴스를 요약 시키고 그걸 다트에 적용하면 잘할까? - pre-train 모델 요약은 이게 짜세래요, kobert? kobart였나 https://kakaobrain.github.io/pororo/seq2seq/summary.html - KoBERT로 한국어 텍스트 분류하기 #### 토픽 Classification 혹시 우리가 경제 IT 이렇게 구분하지 않고, LDA 써서 클러스링 한다음에 우리 목적이랑 맞는 토픽에 해당하는 category을 쓰면 어때요? :+1: LDA 결과값이 어떻게나오는지 어떻게 학습하는지 한번 찾아볼게여 맞슴니다 토픽을 몇개로 쓸지도 잘 설정해야하겠네요 사실 저희 카테고리가 금융, IT 경제 이런식으로 들어가기보다, IT 내부에서도 스마트폰 IOT, LED 이런게 많을텐데 1차적으로 LDA에서 걸러내고 이후에 써도 괜찮을거같아요 :+1::+1::+1::+1::+1::+1::+1: 넨ㅇ 근데 그거 완전 하이퍼 파라미터여서... 실험으로 찾아내야 하지 않을까여?? 아실것 같지만 gensim ㅅ쓸때 hyper parameter 수를 바꿀 수 있으니까... 몇개로 쪼개지던 우리가 원하는 category만 있으면 되지 않을까 싶슴니다... -> optuna로 trial 해보면 될거같아요! #### DART 데이터 문제 #### DART 데이터 전처리 ####