# 네트워킹 데이 프로젝트 예상 질문 ###### tags: `final-project` ## 프로젝트 예상질문 #### Q1) 뉴스가 작성된 시간(연도, 월, 일 등)에 관한 고려는 어떻게 되는지, 이를 어떻게 개선될 수 있을지? - A1) 사용자가 입력하는 뉴스에 대한 정보는 시간에 대한 고려를 안해도 될 것 같고 만약 결과내의 관련기업일 경우 1시간에 한번씩 업데이트됩니다. - 아마 사용자가 직접 뉴스를 입력하는 것을 뭔가 멘토님이 이해하기 어려우셨던 것 같은데 PPT에서 더 언급할 필요가 있어보임 #### 호영님의 예상질문1)입력한 뉴스의 시점에 따라 관련주 추출이 달라질텐데 그것을 고려할 때 어떤 방법을 사용해야 할까요? - A2) 뉴스의 시점보다는 뉴스내의 내용으로 관련 주식을 찾아내고 있으며 시점에 따라 내용이 달라진다면 관련주 추출도 달라 질것임 #### Q2)DART-뉴스 간 유사도 외에 고려할 수 있는 관련주의 기준은 어떤게 있을 것으로 생각되는지, 그리고 그 기준을 만족하는 관련주를 어떻게 NLP 기법을 통해 찾을 수 있을지 - NLP기준으로 못찾는 관련주가 있지 않을까? -> 지식그래프 3. 어떤 뉴스 및 이에 대한 실제 관련주(해당 뉴스와 관련된 사건으로 인해 주가가 실제로 급변한 주식)를 기반으로 평가를 해본 적이 있는지? 혹은 어떻게 할 수 있을지 - 평가방법. 테스트데이터셋(23개뉴스데이터 -> 각 3개 관련주) 관련이 있다 평가를 진행 - 뉴스시간, 주식 시간을 매칭해보는 가능성(반도체 사이클 등등. 테마주) 4. 임의의 관련주 추출 시스템이 있을 때, 이에 대한 정량적인 평가를 어떻게 하면 좋을지에 대한 아이디어가 있을지. 혹시 labeled 데이터가 필요하다면 이를 어떻게 수집할 수 있을지 -> 관련주 추출 성능에 대한 평가를 실제 관련주와 비교를 해본 적이 있는지? 없다면 어떤 방법으로 평가할 수 있을지?, 추천한 관련주에 대한 정량적 평가 방법으로는 어떤 것이 있을까요? 5. causality와 관련될 수 있는 접근법일 수 있는데, time dependency에 대한 정보가 반영될 수 있을까요?" -> 6. 해당 접근 방법을 통해 기업 공시 자료에 있는 지분 구조 및 매출 구조에 따른 주변 이익/손해를 보는 기업을 잡아낼 수 있을까요? -> 관련주에서 더 나아가서 어떤 기업이 이익을 보고 손해를 볼 수 있을지 잡아낼 수 있을까요? 1. 뉴스가 작성된 시간(연도, 월, 일 등)에 관한 고려는 어떻게 되는지, 이를 어떻게 개선될 수 있을지? - 지금 당장 나오는 뉴스에대해서 추출을 한다. 과거에 대해서 고려해보고 싶을때, 날짜 같이 넣어 주는 방법도 가능성. - 뉴스시간과 다트시간과 가까운 시간의 데이터/ (NER날짜) 3. DART-뉴스 간 유사도 외에 고려할 수 있는 관련주의 기준은 어떤게 있을 것으로 생각되는지, 그리고 그 기준을 만족하는 관련주를 어떻게 NLP 기법을 통해 찾을 수 있을지 - Q2 5. 어떤 뉴스 및 이에 대한 실제 관련주(해당 뉴스와 관련된 사건으로 인해 주가가 실제로 급변한 주식)를 기반으로 평가를 해본 적이 있는지? 혹은 어떻게 할 수 있을지 - 7. 임의의 관련주 추출 시스템이 있을 때, 이에 대한 정량적인 평가를 어떻게 하면 좋을지에 대한 아이디어가 있을지. 혹시 labeled 데이터가 필요하다면 이를 어떻게 수집할 수 있을지" "1. 해당 접근 방법을 통해 기업 공시 자료에 있는 지분 구조 및 매출 구조에 따른 주변 이익/손해를 보는 기업을 잡아낼 수 있을까요? 2. causality와 관련될 수 있는 접근법일 수 있는데, time dependency에 대한 정보가 반영될 수 있을까요?" ## 프로젝트 피드백 3. 26페이지의 세 갈래(KR-WordRank, NER, Doc2Vec)가 어떻게 앙상블 되는지, BM25는 각각 어떻게 사용되는지 조금 더 표현되면 좋을 것 같아요. -> KR-WordRank, NER, Doc2Vec가 어떤 방법으로 앙상블을 했는지? 각 방법에서 BM25를 어떻게 사용되었는지? 5. ""DART""가 뭔지 생소할 것 같은데, 15페이지 아래에서 스르륵 소개하고 넘어가는게 아니라 이게 어떤 정보고 기업과 어떤 관련이 있는지 좀 더 잘 설명하면 좋을 것 같아요. -> DART의 기업 보고서에서 각 항목이 무엇을 의미하는지? 1. dart 데이터 정보를 어떠한 형식으로 가공하는지에 대한 설명이 제공되면 좋을 것 같습니다. -> DART 데이터를 어떠한 방식으로 전처리를 하였는지 궁금합니다. 8. 프로젝트의 흐름 및 모델의 구조를 시각화하는 디자인에 개선의 여지가 많을 것 같습니다. -> 프로젝트 흐름이나 모델의 구조가 한 눈에 들어오지 않는데 간단하게 요약해주실 수 있을까요? 9. 사용한 기술 스택에 대한 설명에서 대표적인 몇몇 패키지를 언급해주시면 전달이 더 잘 될 것 같습니다. -> 사용한 기술스택에서 어떤 라이브러리나 패키지를 사용하셨나요? 10. 검증 방법 파트에서 motivation에 대한 설명이 더 쉽게 제시되었으면 좋을 것 같습니다. -> 점수를 매기는 기준.. 서로 합의가 되서 똑같은 기준으로 평가를 매기고 있는지. ## 프로젝트 내용 1. 모델 학습이나 Task 수행을 위한 데이터 확보나 모델 학습이 어려운 이유가 잘 나타난 것 같습니다~ 어려운 task를 주제로 삼은 만큼 이 부분을 염두해두고 발표하시면 좋지 않을까 싶어요. 2. 관련주 추출은 정말 어려운 task이고, 발표를 듣는 사람들도 현재의 시스템만으로 관련주를 100% 잘 예측할 것이라고 기대하지는 않을 것 같아요. 그렇다면 현재의 시스템은 어떤 경우에 관련주를 잘 예측하는지를 좀 정리해봐도 좋을 것 같아요. 바꿔말하면, ""적어도 이러이러한 경우에는 우리 시스템이 관련주를 잘 찾아줍니다~~ 라고 강조할 수 있을만한 sales point가 있어도 좋을 것 같아요. -> 현재의 시스템은 어떤 경우에 관련주를 잘 예측하나요? 3. 2와 관련되어, 현재 시스템의 한계점들이 무엇인지 최대한 명확하게 정리해보는게 좋을 것 같아요. 어떤 타입의 뉴스에 대해서는 관련주를 잘 못찾는지, 그리고 이러한 케이스는 추후에 어떻게 해결할 수 있을지 등등 " -> 현재 시스템의 한계점은 무엇인가요? -> 어떤 타입의 뉴스에 대해서는 관련주를 잘 추천하지 못하고 그 해결 방안으로는 무엇이 있을 까요? 1. 자동화된 지식 그래프가 무엇인지 설명이 제공되면 좋을 것 같습니다. -> 자동화된 지식 그래프가 어떻게 작동하나요? 2. 마찬가지로 도메인 지식을 이용한 지식 그래프를 어떻게 구축하고 사용했는지에 대한 설명이 제공되면 좋을 것 같습니다. -> 어떤 도메인 지식을 이용해서 지식 그래프를 구축 3. 검증 방법에서 표본의 개수가 너무 작은 것 같다는 질문이 들어올 수 있을 것 같습니다. 시도 자체는 너무 좋습니다. -> 검증할 때 표본의 개수가 너무 작은 것 같은데 더 많은 표본에서도 같은 성능을 가질 수 있을지? 4. 지식 그래프를 추가함으로써 얻는 효과 또는 ablation study가 시연 전에도 설명되면 좋을 것 같다는 생각이 들었습니다." -> 지식 그래프를 이용함으로써 얻을 수 있는 가장 큰 장점은 무엇인가요? 5. 주식이 오를까요? ->