# Doc2Vec 모델 ## 모델 선정 이유 - 뉴스 데이터와 관련된 기업을 찾아오기 위해서 dart 문서를 Embedding하면 문서 간의 유사도를 비교할 수 있을 것이라 생각했다. - 이를 위해 cosine similarity를 활용해 문서간 비교를 할 수 있는 doc2vec 모델을 시도했다. ## 모델링 - Gensim Doc2Vec을 이용해 Tag로 기업의 이름을, tag되는 문서는 가장 최근의 분기, 사업보고서의 전문을 embedding한다. - 기업별 Dart 문서의 내용과 연관지어 Embedding 하기 때문에 어느 정도는 카테고리의 의미를 반영한다고 볼 수 있다. 유사 문서로 나온 결과값들을 보면 비슷한 산업군에 속하는 기업을 잘 나타낸다. ![](https://i.imgur.com/cwIR90k.png) - Embedding된 학습 모델과 뉴스 데이터의 유사도를 비교해서 가장 높은 수치를 보이는 기업 N개를 추출하는 형태로 결과를 출력한다. ![](https://i.imgur.com/5CzCYI2.png) - 위의 뉴스데이터를 입력했을 때, 아래와 같은 결과를 얻을 수 있다. ![](https://i.imgur.com/06N8dDk.png) ## 결과 - 위의 5개 기업을 보면 모두 반도체에 대한 기업을 추출해오는 것을 확인할 수 있다. - 정밀하게 맞다고 볼 수는 없으나, 어느 정도의 키워드들에 맞는 기업을 가져오는 것을 확인할 수 있는 것으로 보인다.