11.16 피어세션

# 11.16 피어세션 ###### tags: `peer-session` 최종 프로젝트 - 이런건 일찍 정할수록 이득 - MRC? RE? 아니면 MLOps? - 도메인 기반 챗봇? -> 접근쉬움, 고도화 매우 어려움 - 상업화 가능할 정도? 다른팀과 비슷하지 않은 참신함 *( 부캠안에서 배운걸 포함해야함 )* #### 호영's idea FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition -> ASR 모델의 output sequence의 오류를 정정하는 모델 유튜브 자막의 오류를 정정하는 건 어떨까? 뭔가 부캠이랑 관련이 없는 것 같아서 유튜브 자막들을 추출해서 QA를 진행해보면 어떨까 생각해봤습니다. 혹은 텍스트 요약하기 http://it.chosun.com/site/data/html_dir/2020/10/15/2020101502668.html 이미 존재........ - 장점 : 개인적으로 유튜브 영상을 볼 때 15분이상이면 클릭이 망설여지는데 필요한 정보를 얻고 싶을 때 그 영상에 어떤 내용이 있는지 알면 좋을 것 같아서 자막을 요약하거나 QA task를 통해서 원하는 영상을 빠르게 찾는 데에 도움이 될거라 생각했습니다. - 단점 : 유튜브 자막 저작권 문제, 유튜브 자막자체의 퀄리티, 텍스트 요약은 부캠과 관련이 없고 난이도가 얼마나 어려운지 모름 #### 요한's idea 구어체 데이터에서 화자를 분류해서 -> 대화 상대를 분리해주자 - 장점 : 현업에서 해결하고 있는 문제로 구현하게 되면 의미가 있을것 - 단점 : 한편으로는 이미 서비스가 시작되고 있는 문제, 구현하기 위해서 음성말고, 문서의 관계만 파악해서 하기에는 어려움이 있을 수도 있음 #### 재형's idea NLP 대회에서 문제 풀다가 있었으면 좋겠다고 생각한 도구들 구현하기. RAG 한국어 버전, BackTranslation 프레임워크 등 구현 - 장점 : AI 엔지니어들에게서 인지도 쌓을 수 있음 + 다른 개발자들이 필요로 하는 뭔가를 개발한다는 뿌듯함이 있음. - 단점 : V100 1개로 사전학습을 다 돌릴 수 있을 것 같지 않음. 아니면 도커의 V100을 여러개 묶을 수 있을지 확인 필요. #### 민재's idea 자기가 만드는 동화책 pytorch 깃허브 : https://github.com/lucidrains/DALLE-pytorch 훈련데이터의 생김새 - 장점 - 꿀잼임 - 이미지, 자연어 처리 둘다 다뤄본 경험 - MLOPS까지 다룰 수 있는 기회 - 낭만있음 ![](https://i.imgur.com/HeA6tT8.png) 1. 문제 1 : 영어가 아님 ##### 희망1 : 커스텀 토크나이저의 사용 > Custom Tokenizer > This repository supports custom tokenization with YouTokenToMe, if you wish to use it instead of the default simple tokenizer. Simply pass in an extra --bpe_path when invoking train_dalle.py and generate.py, with the path to your BPE model file. > The only requirement is that you use 0 as the pading during tokenization > ##### 희망2 : 중국에 대해 지원 ![](https://i.imgur.com/5KcCNEL.png) 2. 문제 2 : 캐릭터의 모양이 계속 바뀔 것임 - 'cat', 'dog'처럼 고유대명사인 minjae의 캐릭터를 추가 적으로 학습시켜 해당 캐릭터로만 생성되게 할 수 있을까? - 사실 주인공이 바뀌어도 재밌을 것 같긴하다 --- #### 찬미's idea * 문장에 따라(문장 감정..) 적절한 이모티콘 보내기 * 채팅할 때 문장을 입력하고 상황에 맞는 이모티콘 찾기가 번거로움 * 이를 대신하여 문장을 입력하면 그 문장에 적절한 이모티콘을 찾아 전송 * 단점 : 이모티콘 저작권 문제 및 데이터셋 수집 * 헉.. 이미 있음 (이모티콘 플러스 짱신기해요) * 카카오임티가 하고있음 마장요 저번에 저도 썼음 여러분이랑 대화할때 --- * 변수 이름 추천 * 프로그래밍할 때 변수 이름 후보군으로 보여주어 변수 이름 만드는 것에 대한 시간을 절약하도록 도와줌 * 단점 : 상품성이 없음 어림없지 a = 10, tmp = 10, n=100 어떤 텍스트를 줘야할지? _count_variable_temporary_ 코드생성 프로젝트 - 간단한 코드 구현 ㅜ * 코디 추천 프로그램 * 예를 들어 상의를 찍어서 올리면 상의에 어울리는 하의를 추천해주는 프로그램 * 단점 : 완전 CV???, 데이터 수집 * 변수가 너무 많음 쇼핑몰 한정으로 기존의 쇼핑몰에서 추천하는 시스템을 CV로 변경 #### 석진's idea #### dart(기업분석을 위한)에서 원하는 정보를 검색하자! - 개요 상황 : 투자에 대한 관심이 높아지고, 취업난이 심해지면서 기업 분석의 중요성은 알지만 하나하나 찾아보기 어렵고 보고서 하나하나 내용이 너무 많다. 이를 조금이라도 손쉽게 하도록 도울 수 있지 않을까?라는 생각에서 시작해서 기업에 대한 입맛에 맞는 정보만을 추출할 수 있지 않을까에서 파생된 아이디어이다. - - 요청한 Question(및 주어진 정보를 선택하는 방식)을 사이트에서 가져와서 답변을 돌리는 프로세스도 가능할 수 있을 수 있다. - 아마 웹서비스 형태로 구현해야할 것으로 생각한다. - 장점 - 기업의 공시자료를 보는 것이 익숙하지 않은 사람들의 니즈를 충족할 수 있다. - dart의 데이터는 공시가 된것은 출처만 밝히면 사용해도 된다. - 단점 - 자연어로 기술과 적합한지 의문이다. - 실시간으로 하는게 어려우면 크롤링을 기업마다 해야할 수도 있다. #### 한진's idea - 책을 보고 인물의 감정을 예측하는 모델 - 장점 - 신선한 프로젝트 - 챗봇을 만들 때 챗본의 배경을 만들 수 있음 - 게임 AI의 진화를 꾀할 수 있음 - 단점 - 상품성이 있는가? - 구조가 너무 복잡해질 것 같다 - 책들은 저작권이 걸려 있어서 데이터를 구하기 쉽지 않을 듯 ![](https://i.imgur.com/N7v2uGP.png) - 사용자의 요구사항 X - 구현할려면 별도의 데이터 작업이 아주 많이 필요함 - ### 기업들에 어필할 것 1. 어떤 문제를 정의하고 해결했는가=> 프로젝트가 기존에 없는 문제이거나, 사용자들이 요구하는 것이 많거나, 기존의 프로젝트를 개선했는가? 2. 팀과의 협업이 잘 이루어 졌는가? => 분업, 마일스톤을 설정하고 이런 것들이 잘 지켜졌는가? 3. CV, NLP, MLOPS 수행 여부 => 기업의 주요 Task에 맞는 프로젝트를 수행했는가? 4.데이터 탐색, 논문 구현 및 적용, 모델 수정, 하이퍼 파라미터 조정 과정 => 어떤 가설들을 통해 모델을 구현하고, 성능을 올렸는가? 6. 어떤 프로젝트를 하는 것도 중요하지만, 해당 프로젝트를 어떻게 수행할지가 더 중요할 거 같다는 생각중.. 7. end-to-end모델을 얼마나 잘할 수 있을지, upper-bound를 높이는 방법 8. 제약조건 하 최적의 성능 9. 우리가 구현할 수 있는가? 11. 정안되면, 외부 공모전 참여는 어떨까? ### 메인 태깅나누기 270개 씩 6명. 나머지 석진님 요한 0001 - 0270 재형 0271 - 0540 민재 0541 - 0810 호영 0811 - 1080 찬미 1081 - 1350 한진 1351 - 1620 석진 1621 - 1881 주소 :)=)=> 데드라인 => 내일 피어세션 전