# 0. 최종 프로젝트 ###### tags: `idea` # 프로젝트 ### 사용할 수 있는 데이터 ### 그 데이터에 맞는 프로젝트 아이디어 ### 어떤 문제를 해결하려고 했는가 ### 엎어질 것을 대비해서 예비 아이디어 후보군 ## 한진 #### 한진's idea ### 개요 - 책의 특정 부분 (예시 p.231이라면 1~231p까지의 데이터가 주어짐) 주어진 문장에 따른 인물의 감정을 예측하는 모델 입력 데이터 예시 (p.231, "한진", "Boost Course가 끝난 기분은 어때?") => 시원섭섭해[문제의 단순화를 위한 Positive, Negative 고려] ### 훈련 데이터 구성 - 책에서 특정 인물의 감정이 들어나는 부분을 기준으로 - input : 이전 책 내용[Open Domain처럼?], 감정이 들어나는 전 부분 문장, 질문 - output : 해당 인물의감정 ### 테스트 데이터 구성 - 책의 페이지, 인물, 질문 - 해당 페이지에서의 인물 감정 ### 장점 - 신선한 프로젝트 - 챗봇을 만들 때 챗본의 배경을 만들 수 있음 - 소설의 몰입성을 높여 상품화를 노릴 수 있음 - 게임 AI 성능 개선을 통해 게임의 퀄리티를 높일 수 있음 ### 단점 - 상품성이 있는가? - 구조가 너무 복잡해질 것 같다 - 책들은 저작권이 걸려 있어서 데이터를 구하기 쉽지 않을 듯 ![](https://i.imgur.com/N7v2uGP.png) - 사용자의 요구사항 X - 구현할려면 별도의 데이터 작업이 아주 많이 필요함 ## 민재 #### 민재's idea 자기가 만드는 동화책 pytorch 깃허브 : https://github.com/lucidrains/DALLE-pytorch 훈련데이터의 생김새 - 장점 - 꿀잼임 - 이미지, 자연어 처리 둘다 다뤄본 경험 - MLOPS까지 다룰 수 있는 기회 - 낭만있음 1. 문제 1 : 영어가 아님 ##### 희망1 : 커스텀 토크나이저의 사용 > Custom Tokenizer > This repository supports custom tokenization with YouTokenToMe, if you wish to use it instead of the default simple tokenizer. Simply pass in an extra --bpe_path when invoking train_dalle.py and generate.py, with the path to your BPE model file. > The only requirement is that you use 0 as the pading during tokenization > ##### 희망2 : 중국에 대해 지원 ![](https://i.imgur.com/5KcCNEL.png) 2. 문제 2 : 캐릭터의 모양이 계속 바뀔 것임 - 'cat', 'dog'처럼 고유대명사인 minjae의 캐릭터를 추가 적으로 학습시켜 해당 캐릭터로만 생성되게 할 수 있을까? - 사실 주인공이 바뀌어도 재밌을 것 같긴하다 ## 찬미 #### 찬미's idea 1. 문장에 따라(문장 감정..) 적절한 이모티콘 보내기 * 채팅할 때 문장을 입력하고 상황에 맞는 이모티콘 찾기가 번거로움 * 이를 대신하여 문장을 입력하면 그 문장에 적절한 이모티콘을 찾아 전송 * 단점 : 이모티콘 저작권 문제 및 데이터셋 수집 * 이미 존재함(이모티콘 플러스) 2. 변수 이름 추천 * 프로그래밍할 때 변수 이름 후보군으로 보여주어 변수 이름 만드는 것에 대한 시간을 절약하도록 도와줌 * 단점 : 상품성이 없음 * 어떤 텍스트를 줘야할지? 코드생성 프로젝트 - 간단한 코드 구현 3. 코디 추천 프로그램 * 예를 들어 상의를 찍어서 올리면 상의에 어울리는 하의를 추천해주는 프로그램 * 단점 : 완전 CV???, 데이터 수집 * 변수가 너무 많음 쇼핑몰 한정으로 기존의 쇼핑몰에서 추천하는 시스템을 CV로 변경 ## 석진 #### 석진's idea #### dart(기업분석을 위한)에서 원하는 정보를 검색하자! ### 개요 https://dart.fss.or.kr/ 배경: 사회적으로 투자에 대한 관심이 높아지고, 취업난이 심해졌다. 이를 위해 기업을 분석해야 한다는 중요성은 알지만 하나하나 찾아보기 어렵다. 익숙하지 않은 사람에게는 보고서 하나하나의 내용이 너무 많다. 이를 "조금이라도 손쉽게 궁금한 것을 찾아서서 볼 수 있도록 도울 수 있지 않을까?"라는 생각에서 시작해서 기업에 대한 궁금한 점만 추출해서 제공하는 할 수 있지 않을까 생각한다. 현재 서비스 상황: - 요청한 Question(및 주어진 정보를 선택하는 방식)을 사이트에서 가져와서 답변을 돌리는 프로세스가 된다면 가장 이상적일 것이다. - 사용자를 위한 서비스적 측면이 강하니 웹이나 앱에서 서비스 형태로 구현해야 할 것으로 생각한다. ### 장점 - 기업의 공시자료를 보는 것이 익숙하지 않은 사람들의 니즈를 충족할 수 있다. - dart의 데이터는 공시가 된 것으로 출처만 밝히면 사용해도 된다. ### 단점 - 자연어로 기술과 적합한지 의문이다. - 실시간으로 하는게 어려우면 크롤링을 기업마다 해야할 수도 있다. ## 재형 NLP 대회에서 문제 풀다가 있었으면 좋겠다고 생각한 도구들 구현하기. RAG 한국어 버전, BackTranslation 프레임워크 등 구현 - 문제점: 영어 모델은 있는데 왜 한국어는 이게 없지? - 데이터셋: 사전학습할 위키 데이터 - 장점 : AI 엔지니어들에게서 인지도 쌓을 수 있음 + 다른 개발자들이 필요로 하는 뭔가를 개발한다는 뿌듯함이 있음. - 단점 : V100 1개로 사전학습을 다 돌릴 수 있을 것 같지 않음. 아니면 도커의 V100을 여러개 묶을 수 있을지 확인 필요. ## 호영's idea FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition -> ASR 모델의 output sequence의 오류를 정정하는 모델 유튜브 자막의 오류를 정정하는 건 어떨까? 뭔가 부캠이랑 관련이 없는 것 같아서 유튜브 자막들을 추출해서 QA를 진행해보면 어떨까 생각해봤습니다. 혹은 텍스트 요약하기 http://it.chosun.com/site/data/html_dir/2020/10/15/2020101502668.html 이미 존재........ - 장점 : 개인적으로 유튜브 영상을 볼 때 15분이상이면 클릭이 망설여지는데 필요한 정보를 얻고 싶을 때 그 영상에 어떤 내용이 있는지 알면 좋을 것 같아서 자막을 요약하거나 QA task를 통해서 원하는 영상을 빠르게 찾는 데에 도움이 될거라 생각했습니다. - 단점 : 유튜브 자막 저작권 문제, 유튜브 자막자체의 퀄리티, 텍스트 요약은 부캠과 관련이 없고 난이도가 얼마나 어려운지 모름 ## 요한's idea 회의록 화자분류 음성녹음된 회의록과 같은 구어체문서에서 화자분류 모델 개발하여 대화 상태를 파악 - 장점 : 음성녹음 데이터 등 녹음된 데이터를 문서화할때 화자를 쉽게 구분할 수 있음, 문서만으로 파악이 가능한 모델 개발 - 단점 : 네이버 클로바등 이미 존재, 구현하기 위해서 음성말고, 문서의 관계만 파악해서 하기에는 어려움이 있을 수도 있음 ## 11.21 새로운 아이디어 ### 민재님 만들어지게 된 배경: 민원상담 음성 데이터들을 읽어봤는데 뭔가 전문적인 지식 보다는 일반적인 메뉴얼을 얘기하는 경우가 많았다. 다른 분야에서도 이런 경우가 많을 것이라는 생각이 들었다. 솔루션 : 저 민원상담 텍스트데이터로 자동으로 FAQ만들어주거나 상담원 대기시간때 쉬운 질문정도는 답변해주는 프로젝트 생각했어요 ㅎㅎ ### 요한님 영어뉴스 한국어요약 -> 요약 모델 + 한국어 번역 + 생성 - 미국주식에서 활용되는 뉴스를 한국어로 핵심요약하는 모델 생성 - Summerization 데이터 - [NEWSROOM](https://paperswithcode.com/dataset/newsroom) - [New York Times Annotated Corpus]( https://paperswithcode.com/dataset/new-york-times-annotated-corpus) - [Multi-News](https://paperswithcode.com/dataset/multi-news), - 문장유사도 비교 데이터 - [KorSTS](https://paperswithcode.com/dataset/korsts) - 번역 데이터 - [한국어-영어 번역 말뭉치](https://aihub.or.kr/aidata/87) - 장점: 영어뉴스를 한국어 뉴스로 받아볼때 생기는 불필요한 오역을 제외하고, 핵심적인 내용을 받아볼 수 있음 - 단점: 모델을 두개 돌리면 해결되긴함. ### K-국뽕수집기 ![](https://i.imgur.com/dc6MlSa.jpg) 목표 산출물 - reddit등에서 "오징어게임","지옥"등의 반응을 가져오기 - 외부 댓글은 그대로 한국어로 번역 - 국뽕스타일로 한국어 설명 생성 - 사진 몇개 짤 연결하기(조금 어려움) - 영상으로 생성 ![](https://i.imgur.com/dTfgtgH.jpg) ![](https://i.imgur.com/D0VCQdy.png) - 자랑스럽다 ### 한진님 RE Task 데이터 증강을 위한 도구 문제 해결방법 1. 각각의 엔티티는 원형 그대로 보존 2. 각각의 엔티티를 번역 3. 엔티티의 유사도가 높은 단어를 탐색, 최고 유사도가 임계치를 넘지 않는 경우 고유명사라고 판단[이외에도 고유명사를 판단하는 방법이 필요], 해당 엔티티를 A 와 같은 임의의 단어로 변경 4. 문장을 번역하고, 고유명사가 아닌 경우에는 번역한 엔티티와 유사도가 높은 단어를 탐색, 고유명사인 경우 A를 그대로 삽입 5. 해당 단어에 <obj>, <sub> 태깅 6. 다시 원래의 문장으로 번역할 때, 고유 명사는 저장해놓은 단어를 넣고, 그렇지 않은 단어는 위의 작업을 반복하여 번역 - 장점 : 데이터 증강, 연구자들의 이목을 끌수 있음, - 단점 : 어떤 모델을 어떻게 훈련시켜야하지..? - 각 나라의 고유 명사를 탐색하는 모델? - 이 프로젝트가 우리가 공부한걸 제대로 나타낼 수 없다고 판단됨. ** 아마 폐기 ### 기존 석진 님 아이디어 구체화 - DART를 이용하는 사람들 중에 어느 사람들을 타겟으로 할 것인가? - 취준생 - 주식 투자자 - 그 사람들에게 어떠한 도움을 줄 수 있는가? - 사업 보고서나 재무 제표와 같은 해석하기 어려운 자료들을 요약해줄 수 있음 - 데이터를 어떻게 얻어낼 수 있나? ### 아이디어 구체화 단계 - 데이터셋 수집 방법(저작권) - 어떤 task인지(QA, RE, etc) - API 활용 여부 ## 아이디어 기획서 제출 - 수요일 피어세션 전까지 작성 후 피어세션 이후 slack으로 멘토님께 제출