# 12월 17일 멘토링 ###### tags: `mentoring` ### 서비스 요약 ``` <주식과 관련된 뉴스 분류> 1. text classification <KoBERT> 2. LDA ``` ``` <뉴스에서 관련주 추출> 1. 키워드랭크(뉴스) -> BM25(DART) 2. NER(뉴스)-> BM25(DART) > 512문장 쪼개서, 나중에 합치는, 3. 인코더(뉴스) <-> 인코더(DART) 유사도 계산, DPR - 평가방법: 손수 평가 - 3개 모델에 -> 관련주 뽑아주고 있는데 대해 앙상블 -> 하드보팅 - 좋은것을 활용하는 방법 ``` ``` <서빙> 평가 사이트, 뉴스입력 -> 관련주 보여주고 관련주 정보 <기업정보, 사업정보>, 관련뉴스5개정도 > summarize활용, KoBART ``` - 뉴스 문장이 512 문장까지만 들어가는 문제 발생 문장을 쪼개서 입력하고 나중에 합치는 방향 - KoBART 뉴스 요약 시 생성 모델을 사용할 것인지, 핵심 문장만 가져올것인지 생성 모델도 기사와 아예 다른 방향으로 생성할 수 있다. abstractive, extractive - 재형님의 질문 사업 보고서마다 길이가 다르다 2700~50000개까지 길이가 제각각임 - Text classification 리소스 문제 일단 ODQA 모델과 합쳐봐야 리소스 문제를 알 수 있다. classification이라서 자원을 그렇게 많이 쓰진 않을 것 LDA와 KoBERT 활용한 text classification 중에 정확도가 높은 모델을 선택하면 좋을 것 같다. - 한진님의 질문 지식 그래프 작업 중, 사업 보고서마다 형식이 달라서 일반화해야함