# 12월 8일 피어세션
###### tags: `peer-session`
## 모더레이터: 나요한 (nudago)
### 재형님의 오늘의 점심메뉴: 호박씨
코코볼 + 우유 먹었습니다
왜 죽이 아니죠
영양사 '경악'
원래 코코볼을 엄ㅊ어 좋아해요...
### 해야 할 것
이번주 주간학습피드백 week19 에서 최종 프로젝트 “발표제목“에 대한 문항이 있을 예정이에요.
금요일 이전에는 팀별 프로젝트 주제와 발표제목을 확정해주세요.
모든 팀원이 동일하게 작성해야하며, 그렇지 않을 경우 운영진이 확인을 요청드릴 수 있어요.
작성해주신 발표제목은 행사안내에 사용될 예정이니 신중하게 작성해주세요.
## 제목
### 팀별 프로젝트 주제:
```
입력된 뉴스 기사와 관련된 기업명 추출
```
### 팀별 프로젝트 발표제목
#### 야, 너도 화성갈 수 있어 :+1: :+1: :+1: :+1: :100: :-)
```
부제: 관련주로 화성 갈끄니까~
```
## 서빙
### 그래도... 강의 좋아하시죠? 예? :-1:
#### 요한 2-2강 이론듣는중
#### 민재 2-1강(블루핸즈 이슈,학교 전산실 불에탐) + 엔진오일 이슈(사진 증빙 가능)

#### 한진 2-5강 거의 다들음
#### 재형 오늘은 못들었습니다 ㅜㅜ
#### 석진 2-3 듣는 중
#### 찬미 2-4강
#### 호영 강의 스킵
```
공지 : 이번 주
```
## 최프(최종프로젝트)
- 전처리 대충 완료
- BPE 기반 토크나이저로 쓰잘데 없는 char 파악해서 지움
- 네모, 세모, 한자, 당구장...
- 요약 살펴보려면 다트 EDA을 해야 했음
- 각 챕터 별 문장 길이 10,000은 기본으로 넘어감
- 값을 실제 까보면 표가 내용을 많이 차지함. 표를 제거하면 길이가 많이 줄어들까?
- 기존의 코드를 사용해서 측정해보기...
- 요약
- ETRI 버트 모델? KoBERT 모델? 끌고 와서 경제 뉴스를 요약 시키고 그걸 다트에 적용하면 잘할까?
- pre-train 모델 요약은 이게 짜세래요, kobert? kobart였나
https://kakaobrain.github.io/pororo/seq2seq/summary.html
- KoBERT로 한국어 텍스트 분류하기
#### 토픽 Classification
혹시 우리가 경제 IT 이렇게 구분하지 않고, LDA 써서 클러스링 한다음에 우리 목적이랑 맞는 토픽에 해당하는 category을 쓰면 어때요?
:+1: LDA 결과값이 어떻게나오는지 어떻게 학습하는지 한번 찾아볼게여
맞슴니다
토픽을 몇개로 쓸지도 잘 설정해야하겠네요 사실 저희 카테고리가 금융, IT 경제 이런식으로 들어가기보다, IT 내부에서도 스마트폰 IOT, LED 이런게 많을텐데 1차적으로 LDA에서 걸러내고 이후에 써도 괜찮을거같아요 :+1::+1::+1::+1::+1::+1::+1:
넨ㅇ 근데 그거 완전 하이퍼 파라미터여서... 실험으로 찾아내야 하지 않을까여??
아실것 같지만 gensim ㅅ쓸때 hyper parameter 수를 바꿀 수 있으니까... 몇개로 쪼개지던 우리가 원하는 category만 있으면 되지 않을까 싶슴니다...
-> optuna로 trial 해보면 될거같아요!
#### DART 데이터 문제
#### DART 데이터 전처리
####