# 2. AI 논문 Daily Reporter ###### tags: `idea` ## 1. 아이디어 개요 하루에 AI와 관련된 논문이 약 25~75개정도씩 올라오고있다. 이렇게 대량의 정보가 하루가 다르게 나오고 있고, 모든 내용을 확인하기는 어렵다. 따라서 매일 새로나오는 논문을 빠르게 받아볼 수 있는 서비스를 만들고자한다. 매일 5~10개의 논문의 Abstract를 3줄 요약하여, 제목과 함께 제공하여, 최신트렌드의 기술 지식을 제공하는것이 서비스의 목표이다. 1) 키워드 추출, 5개 정도 선정을 해서 보여준다. 2) 유명논문들도 정리(ex. 인용수 기준 선발) ## 2. 활용가능 데이터 https://arxiv.org/list/cs.AI/recent arXiv AI카테고리에 매일 올라오는 논문을 활용해 데이터를 추출하고자한다. ex) 예시. 데이터 뽑기 카테고리 코드 https://arxiv.org/category_taxonomy 카테고리로 검색하는 경우 https://export.arxiv.org/api/query?search_query=cat:cs.CL&sortBy=lastUpdatedDate&sortOrder=descending&max_results=10 ![](https://i.imgur.com/wE9exeU.png) 코드 ![](https://i.imgur.com/iJUHkdC.png) ![](https://i.imgur.com/kgAY3Ng.png) ## 3. 구현 방안 ### 3.1. 데이터 추출 1. newspaper3k 라이브러리를 사용하여 논문 가져오기 2. arxiv API 있다면 사용하여 데이터 가져오기 3. 크롤링([Selenium](https://selenium-python.readthedocs.io/))을 통해 논문의 Abstract 추출 ### 3.2. 문서 선정 - 선호하는 토픽에 대해 ### 3.2. 3줄 요약 - 3 문장의 구성요소는 다음과 같다. 1. 사용 목적 2. 구현한 내용 3. 해당 구현으로 얻을수 있는 성과 - 해당 문장이 나타나지 않는 경우 2문장, 1문장이 될 수도 있다. - [KoBART](https://github.com/SKT-AI/KoBART)활용 요약 - [KcBERT](https://github.com/Beomi/KcBERT)(시간 나면 시도...) ### 3.3. 번역 영어를 한국어로 번역해주어야한다. 특이사항으로는 기술 스택의 단어들이 많이 포함되어있을 가능성이 있다. 1. 기존 번역기 API 사용 * Papago 유료, 구글 무료 + 유료, 카카오 무료 - 매일 최대 100개정도의 문서만 번역하면 되서 부담이없이 사용가능 2. 직접 제작 - [Seq2Seq, Transformer](https://kh-kim.github.io/blog/2020/12/11/KoEn-MT.html) - [t5](https://github.com/google-research/multilingual-t5) - [KE-t5](https://github.com/AIRC-KETI/ke-t5) ex) 카카오 번역 API Attention is All You Need 논문의 Abstract 번역 ``` The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data. ``` ![](https://i.imgur.com/JDlez4f.png) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ![](https://i.imgur.com/Tv8YwAp.png) ### 3.4. 방향 1. 영어 -> 한국어 번역(모델)을 먼저 시도후, 한국어요약 2. 영어요약을 진행하고, 영어 -> 한국어 번역(API) ### 3.5. 서빙 #### Web - 논문 요약과 링크를 제공하는 사이트 - 슬랙 또는 텔레그램 알림(선택) - 메일 통해 구독 또는 카톡 알림(선택) - 반응형 웹앱으로 제작(선택) - 배포 - [Firebase](https://blog.naver.com/iciacokr/222288250896) - 데이터베이스 제공 - 서버 및 도메인 무료 제공 - 배포까지 가능 - AWS - 서버 유료 제공 - 도메인은 따로 구매해야함 #### App - 알림 기능을 추가하여 논문 업데이트 알림을 보냄 - Android 또는 ios 사용 - 배포 - Android -> SDK로 play store에 배포 - ios -> apple store에 배포 ## 4. 문제점 - 영어 -> 한국어 번역시 기술용어에 대한 문제를 해결해야한다. - 용어만 따로 분리. - 아니면 나눠서 번역기에 넣고, 나중에 합치는 번역기모듈 구현 - 기술용어 이상하게 번역된 상태에서 요약x - 영어 요약 성능이 좋을거 같음. 번역되지 않은 상태가 좋을거 같음 - 번역양이 적으면 성능이 더 좋을거 같음 - 번역기 실사용가능한지. ## 4. 예상 개발 결과 매일 최신 AI 논문을 한국어로 읽기 쉽게 받아볼 수 있다. ## 5. 추가 아이디어 초록에 나오는 용어 등을 NER 분석하여 관련 논문 보여주기 전체 요약(큰 글씨 기준 요약) -> 안되면 초록만 요약 paperswithcode 한글버전 또는 여기서 데이터 가져오기 # 장점 한국어롤 요약을 해줬다.