# 11.16 피어세션
###### tags: `peer-session`
최종 프로젝트
- 이런건 일찍 정할수록 이득
- MRC? RE? 아니면 MLOps?
- 도메인 기반 챗봇? -> 접근쉬움, 고도화 매우 어려움
- 상업화 가능할 정도?
다른팀과 비슷하지 않은 참신함
*( 부캠안에서 배운걸 포함해야함 )*
#### 호영's idea
FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition
-> ASR 모델의 output sequence의 오류를 정정하는 모델
유튜브 자막의 오류를 정정하는 건 어떨까?
뭔가 부캠이랑 관련이 없는 것 같아서 유튜브 자막들을 추출해서 QA를 진행해보면 어떨까 생각해봤습니다.
혹은 텍스트 요약하기
http://it.chosun.com/site/data/html_dir/2020/10/15/2020101502668.html
이미 존재........
- 장점 : 개인적으로 유튜브 영상을 볼 때 15분이상이면 클릭이 망설여지는데 필요한 정보를 얻고 싶을 때 그 영상에 어떤 내용이 있는지 알면 좋을 것 같아서 자막을 요약하거나 QA task를 통해서 원하는 영상을 빠르게 찾는 데에 도움이 될거라 생각했습니다.
- 단점 : 유튜브 자막 저작권 문제, 유튜브 자막자체의 퀄리티, 텍스트 요약은 부캠과 관련이 없고 난이도가 얼마나 어려운지 모름
#### 요한's idea
구어체 데이터에서 화자를 분류해서 -> 대화 상대를 분리해주자
- 장점 : 현업에서 해결하고 있는 문제로 구현하게 되면 의미가 있을것
- 단점 : 한편으로는 이미 서비스가 시작되고 있는 문제, 구현하기 위해서 음성말고, 문서의 관계만 파악해서 하기에는 어려움이 있을 수도 있음
#### 재형's idea
NLP 대회에서 문제 풀다가 있었으면 좋겠다고 생각한 도구들 구현하기. RAG 한국어 버전, BackTranslation 프레임워크 등 구현
- 장점 : AI 엔지니어들에게서 인지도 쌓을 수 있음 + 다른 개발자들이 필요로 하는 뭔가를 개발한다는 뿌듯함이 있음.
- 단점 : V100 1개로 사전학습을 다 돌릴 수 있을 것 같지 않음. 아니면 도커의 V100을 여러개 묶을 수 있을지 확인 필요.
#### 민재's idea
자기가 만드는 동화책
pytorch 깃허브 : https://github.com/lucidrains/DALLE-pytorch
훈련데이터의 생김새
- 장점
- 꿀잼임
- 이미지, 자연어 처리 둘다 다뤄본 경험
- MLOPS까지 다룰 수 있는 기회
- 낭만있음

1. 문제 1 : 영어가 아님
##### 희망1 : 커스텀 토크나이저의 사용
> Custom Tokenizer
> This repository supports custom tokenization with YouTokenToMe, if you wish to use it instead of the default simple tokenizer. Simply pass in an extra --bpe_path when invoking train_dalle.py and generate.py, with the path to your BPE model file.
> The only requirement is that you use 0 as the pading during tokenization
>
##### 희망2 : 중국에 대해 지원

2. 문제 2 : 캐릭터의 모양이 계속 바뀔 것임
- 'cat', 'dog'처럼 고유대명사인 minjae의 캐릭터를 추가 적으로 학습시켜 해당 캐릭터로만 생성되게 할 수 있을까?
- 사실 주인공이 바뀌어도 재밌을 것 같긴하다
---
#### 찬미's idea
* 문장에 따라(문장 감정..) 적절한 이모티콘 보내기
* 채팅할 때 문장을 입력하고 상황에 맞는 이모티콘 찾기가 번거로움
* 이를 대신하여 문장을 입력하면 그 문장에 적절한 이모티콘을 찾아 전송
* 단점 : 이모티콘 저작권 문제 및 데이터셋 수집
* 헉.. 이미 있음 (이모티콘 플러스 짱신기해요)
* 카카오임티가 하고있음 마장요 저번에 저도 썼음 여러분이랑 대화할때
---
* 변수 이름 추천
* 프로그래밍할 때 변수 이름 후보군으로 보여주어 변수 이름 만드는 것에 대한 시간을 절약하도록 도와줌
* 단점 : 상품성이 없음
어림없지 a = 10, tmp = 10, n=100
어떤 텍스트를 줘야할지?
_count_variable_temporary_
코드생성 프로젝트 - 간단한 코드 구현
ㅜ
* 코디 추천 프로그램
* 예를 들어 상의를 찍어서 올리면 상의에 어울리는 하의를 추천해주는 프로그램
* 단점 : 완전 CV???, 데이터 수집
* 변수가 너무 많음
쇼핑몰 한정으로 기존의 쇼핑몰에서 추천하는 시스템을 CV로 변경
#### 석진's idea
#### dart(기업분석을 위한)에서 원하는 정보를 검색하자!
- 개요
상황 : 투자에 대한 관심이 높아지고, 취업난이 심해지면서 기업 분석의 중요성은 알지만 하나하나 찾아보기 어렵고 보고서 하나하나 내용이 너무 많다. 이를 조금이라도 손쉽게 하도록 도울 수 있지 않을까?라는 생각에서 시작해서 기업에 대한 입맛에 맞는 정보만을 추출할 수 있지 않을까에서 파생된 아이디어이다.
-
- 요청한 Question(및 주어진 정보를 선택하는 방식)을 사이트에서 가져와서 답변을 돌리는 프로세스도 가능할 수 있을 수 있다.
- 아마 웹서비스 형태로 구현해야할 것으로 생각한다.
- 장점
- 기업의 공시자료를 보는 것이 익숙하지 않은 사람들의 니즈를 충족할 수 있다.
- dart의 데이터는 공시가 된것은 출처만 밝히면 사용해도 된다.
- 단점
- 자연어로 기술과 적합한지 의문이다.
- 실시간으로 하는게 어려우면 크롤링을 기업마다 해야할 수도 있다.
#### 한진's idea
- 책을 보고 인물의 감정을 예측하는 모델
- 장점
- 신선한 프로젝트
- 챗봇을 만들 때 챗본의 배경을 만들 수 있음
- 게임 AI의 진화를 꾀할 수 있음
- 단점
- 상품성이 있는가?
- 구조가 너무 복잡해질 것 같다
- 책들은 저작권이 걸려 있어서 데이터를 구하기 쉽지 않을 듯

- 사용자의 요구사항 X
- 구현할려면 별도의 데이터 작업이 아주 많이 필요함
-
### 기업들에 어필할 것
1. 어떤 문제를 정의하고 해결했는가=> 프로젝트가 기존에 없는 문제이거나, 사용자들이 요구하는 것이 많거나, 기존의 프로젝트를 개선했는가?
2. 팀과의 협업이 잘 이루어 졌는가? => 분업, 마일스톤을 설정하고 이런 것들이 잘 지켜졌는가?
3. CV, NLP, MLOPS 수행 여부 => 기업의 주요 Task에 맞는 프로젝트를 수행했는가?
4.데이터 탐색, 논문 구현 및 적용, 모델 수정, 하이퍼 파라미터 조정 과정 => 어떤 가설들을 통해 모델을 구현하고, 성능을 올렸는가?
6. 어떤 프로젝트를 하는 것도 중요하지만, 해당 프로젝트를 어떻게 수행할지가 더 중요할 거 같다는 생각중..
7. end-to-end모델을 얼마나 잘할 수 있을지, upper-bound를 높이는 방법
8. 제약조건 하 최적의 성능
9. 우리가 구현할 수 있는가?
11. 정안되면, 외부 공모전 참여는 어떨까?
### 메인 태깅나누기
270개 씩 6명. 나머지 석진님
요한 0001 - 0270
재형 0271 - 0540
민재 0541 - 0810
호영 0811 - 1080
찬미 1081 - 1350
한진 1351 - 1620
석진 1621 - 1881
주소
:)=)=>
데드라인 => 내일 피어세션 전