# 팀 NLP 11조 Week8 Day2
## 목차
- [일자](#일자)
- [팀원](#팀원)
- [주간 일정](#주간-일정)
- [피어세션](#피어세션)
* [학습 공유](#학습-공유)
## 일자
- 2021년 09월 24일
## 팀원
- 문석암_T2075
- 박마루찬_T2078
- 박아멘_T2090
- 우원진_T2137
- 윤영훈_T2142
- 장동건_T2185
- 홍현승_T2250
## 주간 일정

## 피어세션
### 학습 공유
- inflearn 들어요
- https://www.inflearn.com/course/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4-%EC%8B%A4%EB%AC%B4/dashboard
- 선택과제 3 Byte pair encoding
- 영어 1글자에 1byte
- 데이터의 단어들에서 반복수가 높은 byte쌍 순으로 단어집합에 추가
- 질문 : word를 subword로 분해하는데 있어서 어떤 subword가 좋은가에 목적이 있는거죠? 그래서 빈도 높은 을 우선으로 해서 뭉쳐서 최대한 좋은 subword를 찾는 방식이라고 봐도 될까요? ->
- 질문 : BPE에서 예를들어 e가 ei, ea, eo, ee 등으로 표현되고, 이것의 빈도가 매우 커서 결국 e*꼴이 모두 subword사전에 들어간다면 e를 버리는 작업이 존재하나요? 아니면 계속 e를 들고있나요? -> 계속 e를 들고 있음