팀 NLP 11조 Week8 Day2

# 팀 NLP 11조 Week8 Day2 ## 목차 - [일자](#일자) - [팀원](#팀원) - [주간 일정](#주간-일정) - [피어세션](#피어세션) * [학습 공유](#학습-공유) ## 일자 - 2021년 09월 24일 ## 팀원 - 문석암_T2075 - 박마루찬_T2078 - 박아멘_T2090 - 우원진_T2137 - 윤영훈_T2142 - 장동건_T2185 - 홍현승_T2250 ## 주간 일정 ![](https://i.imgur.com/lAPsjnR.png) ## 피어세션 ### 학습 공유 - inflearn 들어요 - https://www.inflearn.com/course/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4-%EC%8B%A4%EB%AC%B4/dashboard - 선택과제 3 Byte pair encoding - 영어 1글자에 1byte - 데이터의 단어들에서 반복수가 높은 byte쌍 순으로 단어집합에 추가 - 질문 : word를 subword로 분해하는데 있어서 어떤 subword가 좋은가에 목적이 있는거죠? 그래서 빈도 높은 을 우선으로 해서 뭉쳐서 최대한 좋은 subword를 찾는 방식이라고 봐도 될까요? -> - 질문 : BPE에서 예를들어 e가 ei, ea, eo, ee 등으로 표현되고, 이것의 빈도가 매우 커서 결국 e*꼴이 모두 subword사전에 들어간다면 e를 버리는 작업이 존재하나요? 아니면 계속 e를 들고있나요? -> 계속 e를 들고 있음