3. 국뽕 - HackMD

# 3. 국뽕 ###### tags: `idea` ## 1. 배경 --- ![](https://i.imgur.com/XSGwEle.png) ![](https://i.imgur.com/RS0uVqr.png) --- - 이렇게 많은 수요 때문에 이런 영상또한 넘쳐난다. ![](https://i.imgur.com/TzhUHMh.png) ![](https://i.imgur.com/CHbgK71.png) 현재 유튜브나 해외반응 사이트에 대한 수요가 많다.당장 유튜브 검색창에 "노래제목", "드라마제목", "선수"등을 검색할 경우 뒤에 OOO reaction, OOO 해외반응이 뒤에 붙는다. 이렇게 해외반응에 대한 수요가 많은데 굳이 별도로 검색하지 않아도 해외의 반응을 수집하여 서비스를 만들어보는 것은 어떨까? --- ## 2. 아이디어 개요 최근 이슈가 된 트렌드 단어들이 존재할 것 이다. ex) 손흥민, 김연아, 지옥, 오징어게임 etc.. 유저가 키워드를 제공 했을시 해당 키워드에 따른 서비스 제공 서비스 목록 1. 해외 반응 통계 [국가별 긍정, 부정] 2. 해외 반응 중 샘플링하여 보여주기 3. 주요 해외 반응 요약(어떻게 생각하는지) ## 2. 데이터 수집 방법 ### 수집방법 확장성을 위해 스크래핑보단 일단 API를 위주로 수집했다. ### 유튜브 댓글 ![](https://i.imgur.com/diKxIWW.png) 1. 댓글 아래의 대댓글의 경우에는, 해당 댓글에 반응인지, 영상에 대한 반응인지 분별이 필요 2. plzzz라던지, toooo 같은 영어 특유의 강조 발음 해석 ![](https://i.imgur.com/0BPd0p7.png) Pizzz reaction on aksh baghla euphoria cover pizzzzzzzzzzz (오타 포함) 3. 외부 링크나, 관련 없는 댓글 필터링 @Dab Reaction React to LOONA - Star [MV] https://www.analyticssteps.com/blogs/extracting-pre-processing-youtube-comments 만약 리트리버를 구성한다면, Document 생성 필요 - 비슷한 주제를 가진 영상들의 댓글을 모아놓을 것인지, 각각의 영상이 하나의 문서가 될것인지 결정 ### 레딧 댓글 ![](https://i.imgur.com/8KvnIYR.png) 연결 자체는 간단함 대충보니까 레딧의 구조는 Reddit이라는 최상위 노드 아래에 SubReddit이라는 멀티 프로세스(ex, K-Drama, KPOP...) subreddit아래에 submission이라는 멀티스레드(글) 그아래에 comments가 존재하는 상태 ```python #KDRMA subreddit subreddit = reddit.subreddit('KDRAMA') #현재 hot한거 세개중 추천 수 높은 댓글 꺼내기 for submission in subreddit.hot(limit=3): for top_level_comment in submission.comments: print(top_level_comment.body) ``` 데이터 예시 ![](https://i.imgur.com/9r3YESi.png) 수집된 데이터 예시 ![](https://i.imgur.com/HC0Ix3i.png) ``` [Source] (https://www.soompi.com/article/1499370wpp/yoo-seung-ho-and-girls-days-hyeri-make-an-unlikely-couple-in-hilarious-posters-for-new-romance-drama) We’re getting a smorgasbord of good sageuks at the moment! How on earth will I keep track of all the old bearded dudes in gats? i hope yoo seung ho’s role will give his acting skills justice. 🤣 [Translation] (https://www.soompi.com/article/1499370wpp/yoo-seung-ho-and-girls-days-hyeri-make-an-unlikely-couple-in-hilarious-posters-for-new- 로맨스 드라마) 우리는 현재 좋은 사극의 smorgasbord를 얻고 있습니다! 도대체 수염 난 늙은 놈들을 어떻게 다 추적할 수 있단 말인가? 유승호의 연기가 그의 연기력을 제대로 보여주길 바란다. 🤣 ``` ### 저작권 이슈? [어지럽다](https://c11.kr/u16w) 결론 : 비영리적으로 해야한다.(서비스라기 보단 흥미위주가 되야할듯) ## 3. 구현 플로우 데이터 수집 -> 긍부정나누기(영어), summarization(영어) -> 주요 문장 sampling(한글번역), 요약값 보여주기(한글번역) ## 4. 예상 개발 결과 및 어필할 수 있는 항목 1. 해외 반응 통계 [국가별 긍정, 부정] -> Sentimental Classify 2. 해외 반응 중 샘플링하여 보여주기 -> Retriever 3. 주요 해외 반응 요약(어떻게 생각하는지) -> Summarization 결과 oven 만든거 올리려했는데 싹다날아갔네요 이게뭐지.. ![](https://i.imgur.com/pK3TqZj.png) 대충 만들었는데 뭔가 만들고나니 좀 슴슴해진것 같기도.. ## 문제점 나는 그것을 모두 폭식했다. 스토리는 복잡하고 6개의 에피소드로 구성되어 있지만 제작자는 모든 것을 이해하기 위해 최선을 다했습니다. 시청자들의 궁금증을 자아내기도 했다. 드라마가 길었다면 유아인이라는 캐릭터에 더 깊이 들어갈 수 있었을 텐데, 소개할 때 밋밋해서 초반에 드라마가 더디게 흘러갔다. 하지만, 지루하더라도 계속 봐주세요. 이건 긍정? 부정? 긍/부정을 classify가아니라 regression으로 한다음에 일정 임계치를 넘은 것들만 나오게 해야할까요? 국뽕 튜브니까 애매하게 장단점을 섞어놓은것보다는 그게 나으려나요 ## 회의록 회의록 중 서비스로 사용할만한 아이디어들 1. 기존의 뉴스 제목을 자극적인 제목으로 생성 1) 자극적인 제목에는 해당 키워드가 이슈가 되는 이유(근거) 2) 해외 특정 국가의 반응 3) 2. 저 이것도 조금 생각한게 사실 해외반응 수집하고 이런게 프로젝트적으로는 나쁘지않은데 NLP 프로젝트라고 할만한게 어떤 포인트를 강조해야할까요? 음 사실 내부 문제를 따지고 보면 찾아볼순있을것 같아요 필요해 보이기두하고요 그럼 저희 메인 테스크를 정리해봅시다. 1. 댓글 수집 영어 2. 우호/비우호 분류 3. 댓글들 불러오는 리트리버 4. 댓글들을 한글로 번역한뒤 -> 유튜브 국뽕튜브 제목을 학습한 버트모델로 변형? ㅋㅋㅋㅋㅋㅋㅋ 전 좋은데요 ㅋㅋㅋㅋㅋ 5. 그럼 저희의 메인 테스크는 일반적인 번역글을 과장섞인 자극적인글로 바꾸는 모델인가요? 뭔가 흥미롭긴하네요 ㅋㅋㅋㅋㅋㅋㅋ되게 나쁜짓하는기분이라 국뽕 유튜브도 좋고 그럼 필요한 데이터가 뉴스제목 -> 국뽕유튜브제목 이렇게 관계맺은 데이터가 필요할 것 같아요 이게 좀 문제네요 그렇네요 어떤 팩트에 기반한 뉴스 제목 : 국뽕튜브 제목 = 1: n으로 ![](https://i.imgur.com/IkCt6OB.png) ![](https://i.imgur.com/TzhUHMh.png) 아이거 ㅋㅋ 썸네일이 맛있는데 아 썸네일 제작 마려운데요 저..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ아 반응이 중요한거군요 ![](https://i.imgur.com/CHbgK71.png) 그 패턴발견했습니다. "넷플리스 지옥" + "sbs" = 뉴스기사 영상 "넷플릭스 지옥" + "반응" = 극 국뽕 유튜브영상 뒤에 반응 추가하니까 바로나오네요 아 제목 맛있다 "지옥을 보고 깜짝 놀라며 열광하는 이유" ![](https://i.imgur.com/DiS7c3S.png) 근데 원래 댓글을 국뽕유튜브처럼 과장하는건 GPT로 해야하나요? NLG가 될 것 같은 느낌인데 업적은 바로바로 추가는 안될꺼에요 유튜브에 올라오는 sbs,jtbc 뉴스제목이 아마 제일 빨를꺼같아요 제목만 가져오는건 api로 가져올 수 있어서 정리해보면 KoGPT를 국뽕 제목으로만 오지게 파인튜닝시키고 인풋으로 정상적인 뉴스 제목을 주면 아웃풋으로 국뽕 제목을 리턴해줄까요 ㅋㅋㅋㅋ 일반 NLP Task로 댓글이나 제목에 과장을 섞는게 쉽진 않아보여요 어떻게 구현할지 감이 잘 안오긴하네요 1. 댓글 선호/비선호 2. 뉴스기사와 댓글들을보여줌 3. 뉴스기사는 국뽕에 절여진 기사로 탈바꿈 투트랙인거죠 넷플릭스 지옥을 검색하면 보이는게 외국인들의 댓글기반으로 선호/비선호가 얼마나 갈리는지 시각화 및 각 선호별 비선호별 예시댓글 + 과장된 뉴스제목 이러면 결국 저희 메인 Task는 댓글 선호 비선호 갈리는게 되네요 레딧 댓글이 특히 비꼬는게 많은걸로 알고 있어서 ``` 와, 드라마에서 유아인을 마지막으로 본지 1분도 안됐네요. 확실히 주시하고 있을 것입니다. 사실 TIFF에 들어가는 걸 봤을 때 그 아이디어에 반했어요. 그 놀라운! ``` 이런 우호적인 댓글을 어떻게 바꾸시는 건가요? 아니면 차라리 뉴스기사를 빼버리고 댓글 우호/비우호나누는거랑 우호 비우호별 요약하나씩 만들고 예시댓글 몇개 보여주는걸로 할까요? => 이걸 우선으로 하고 시간이 남으면 뉴스 기사로 넘어가는 형식으로 하실까요? 그럼 이렇게 합시다 수요일 전까지 저희가 해야하는건 1. 데이터 수집 예시 실제로 데이터가 어떻게 쌓이는지 코드로 확인 (적용가능한지) 2. 페이지가 어떻게 구성되는지 예시 코드로 말고 그림판으로 어떤게 배치되는지 보여주기 => 좋습니다 저희 모델이 그럼 세개입니다. 1) 리트리버 2) 우호 비우호 3) 요약 다시 보게해야죠 ㅋㅋㅋ 아 같은 반ㄴ응을 다시 안보게한다는 뜻이었어여 ㅋ 앗 ㅋㅋ ㅋ - 한번본 국뽕 다시 안 보게 하는 방법[마약은 한번씪만] - 댓글 주기적 업데이트 - 모델이 매번 우호/비우호, 요약을 했을때 반응 시간 문제가 없으면 BEST, 시간 문제가 존재한다면 아래 방법 - 매일 12시에 업데이트 된 댓글로 여러 개의 반응을 만들고 페이지를 업데이트하기? 흠... 그럼 일정을 좀 짜시죠 저희 오늘 정도안에 파일럿 데이터 수집해보시죠 레딧이랑 유튜브 두개 중 각각 나눠서 해봐요 좋습니다 어느쪽하시겠어여? 둘다 사용방법 제 노션에 들어있고 음 그럼 제가 레딧한번 도전해볼께여 1. 운영진분께 댓글을 api로 수집하는게 저작권이슈가 있을 지 물어보기 2. 파일럿 데이터 수집 3. 저희 서비스 흐름 정리 웹앱이 가장 낫죠 이런 어플 깔사람은 없을 것 같네요 그림판으로 대충 배치해보기 . 이걸 수요일까지 해야하는데 음 선호/비선호, summarization 모델링 계획도 있으면 명확할 것 같습니다. 이건 내일 진행할까요? 운영진분께는 제가 문의해볼까요? 어떻게 여쭤봐야하지 안녕하세요! 프로젝트에서 데이터수집을 해야하는데 api로 레딧 커뮤니티의 댓글을 수집하려합니다. 최종 프로젝트에서 이 데이터를 사용할 수 있을까요? 이정도? 크리스님께 보내면되나 좋습니다 걍 복붙하셔도되겠는데요 아니면 공개질문으로올리셔도 될거같습니다 업데이트를 매일 해야겟죠? 댓글들이나 반응은 계속 올라올테니까요 그 댓글들을 계속 수집해야하지않을까요? 한번 본 넷플릭스 지옥 반응이 안바뀌면 다시는 안볼 것 같은데 자주 들어와서 보도록 하는 방안이 존재할까요? 그럼 모델이 매번 우호/비우호 요약을 수행하게 되는데 시간적인 문제는 없을까요? 안되면 ABCDEFG...로 미리생성해두고 랜덤으로 보여주는 것도 페이지 로딩속도가 너무 길면 안보게 될 것 같긴해요 모델 업데이트는 힘들어도 리트리버에서 사용하는 OD는 계속 업데이트 해줘야할 것 같습니다 네네 Open document에는 계속 넣어줘야할거같아요 아니면 매일 새로 바꿔주실 예정이신가요 오 완전 사업적이군요 그럼 저희가 100의 document를 가지고있으면 20 랜덤으로 추출해서 보여주는 ㅎ여식은 어떨가요, 최근반응 몇가지는 포함시키는 제한을 걸고요 음 추론 시간은 생각 안했는데, 테슽트가 필요할거같긴합니다 영어를 번역한거라 아마 매끄러운 댓글은 아닐 것 같아요 그렇네요 그리고 제가 생각하기에는 뉴스기사에서 바로 국뽕 기사가 되진 않을거같아서 우호적인 댓글 요약한 걸 뉴스기사 앞에 붙이는 형식으로 해서 국뽕요소를 첨가하는것도 좋을거같아요 그런 요소가 더 외국인 스럽게보여서 괜찮지않을까요 오 한국의 드라마 멋집니다 - k드라마 반응 이부분은 사실 부가적인 부분이라 엄청 하이 퀄리티를 요구하진 않아도될거같아욬ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 괜찮은데요 저는 b급 감성이 들어가서 좋 오 이렇게 써보니까 괜찮은 거같은데요 서빙까지하면 되게 있어보일거같긴해요 만들기 어려워 보이지도않고 사실 기사 제목만 쓰는건 좀 임팩트가 적긴한거같기도하네여 음 그것도 좋을것같습니다 약간 컨텐츠[지옥], 반응[깜짝 놀란 중국 반응], 이루어낸 업적[공개 하루만에 세계 1위 기록] 이런식으로 음.. 댓글가지고 반응에 대한걸 얻고, 지옥이라는 걸 위키에서 검색해서 업적같은걸 가지고와야할까요..? 아예 end to end로 저 제목 다생성하기 힘들어보이는데 되면 그래도 좀 만들만할까요 이정도일까요? 그럼 저희 데이터가 영어로 쌓이잖아요 영어 Task처럼 진행하고 댓글예시 보여줄때만 한국어로 번역해서 보여주는 형태가될까요? 윽, 한글로된 프로젝트를 진행하는게 의미있긴할텐데 그부분은 좀 아쉽네요 약간 학습적인 관점으로 우호/비우호를 영어로 진행해야하는게 좀 아쉽긴하네요 네 영어 TAsk로 진행하는게 다른 프레임워크 적용하기도 편해보여요 ㅋㅋ 음 한번 끼워 넣어볼까요 아 근데 번역할때 약간 국뽕 요소? 재미 요소를 넣어서 번역해서 제공하는건 어떨까요 주목하고 있다 - > 부러워서 발을 동동 구른다 음 지금 생각드는건 저희 줌 지금 할까요 ㅋㅋㅋㅋ 아 천천히 오셔도 되요 저는 한글 태스크 사용할 수 있는 부분을 조금 생각해볼께요 어떻게 넣어야할까요? 과장을 섞는다는게 사실 저희가 손으로 섞는건 쉬운데 룰베이스나 모델로 해결할 수 있을까요? 유튜브 국뽕 동영상제목을 수집해서 프리트레인해야하나 저 지금 도서관이라서 잠시만요 그럼 이거 어떤가요 위에 4. 댓글들을 한글로 번역한뒤 -> 유튜브 국뽕튜브 제목을 학습한 버트모델로 변형? ㅋㅋㅋㅋㅋㅋㅋ 그쵸 여기서 부족하다 싶으시면, 우호중에서 비꼬는 것들 골라내기 이런 것도 추가할순 있을거같아요 그렇네요 그리고 저희가 특정 분야 (예를 들어 지옥) 이면 리트리버로 해당하는 댓글들만 가지고와야 되는거잖아요 음 그렇게 말씀하니까 챗봇.. ㅋㅋㅋㅋㅋㅋㅋ 사실 넣을거면 진짜 많아서 ㅋㅋㅋ그쵸그쵸 넷플릭스 지옥이라고 명확하게 해놓긴해야할거같아요 아니면 최근 검색 기록이 많은 것들 중에 유사한 것들로 결과를 내도 될거같은데 이건 너무 나간거같아요ㅋㅋ 이게 제가 생각한 프로세스는 1. 사용자가 질문을 입력 2. 모델은 질문을 가지고 리트리버를 통해 해당 댓글들을 수집 3. 댓글중 우호적인 것들을 모으고, 이게 비꼬는건지 아닌지, 다양한 전처리 프로세스를 적용 4.