# 12월 23일 피어세션 ###### tags: `peer-session` ## 모더레이터: 정찬미 ## 해야할 것 ### 1. 프로젝트 마무리 1. Dart 데이터 업데이트 2. 지식그래프 추가하기 3. 뉴스 검색어 어떻게 할지? ### 2. 검증 1. 앙상블 결과 올리기 2. 4개의 모델에 대한 평가하기 각자의 기준이 있어야함 예) 1개맞으면 2,3점 3개 맞으면 6점 근데 순서까지 맞으면 7점 이런식으로 ### 3. PPT 마무리 1. 피드백을 기반으로 PPT 수정 ### 4. 시연영상 1. 금요일 전에 촬영할 것 ## 최종 프로젝트 멘토 피드백 1. 발표 초반부의 문제 정의에서 시스템의 전반적인 파이프라인을 설명할 때, 기본적인 형태/추가된 구조를 나누어 설명하는게 잘 이해가 안되는 거 같아요. 제안하는 추천 시스템을 딱 하나로 표현해서 왼쪽에 넣고, 오른쪽에서 지금처럼 그 시스템의 세부 모듈을 소개하면 더 한눈에 들어오지 않을까 싶습니다. ``` 12p -> 형태/추가된 구조 설명 제안하는 시스템을 하나로 표현하고 오른쪽에서 세부 모듈 소개 ``` 2. 각 모듈이 도입된 의도 및 구현 결과에 대한 장단점, 개선 방법 등이 서술되어 정리되어 있어서 좋은 것 같습니다. 3. 26페이지의 세 갈래(KR-WordRank, NER, Doc2Vec)가 어떻게 앙상블 되는지, BM25는 각각 어떻게 사용되는지 조금 더 표현되면 좋을 것 같아요. 3. 발표 초반의 관련 주식 추출 모델에 대한 설명에서 앙상블에 대한 내용이 명시 및 강조되면 좋을 것 같습니다. ``` 어떤 방식으로 앙상블되는지 표현 어떤 방식으로 모델이 동작하는지 표현 ``` 4. "DART"가 뭔지 생소할 것 같은데, 15페이지 아래에서 스르륵 소개하고 넘어가는게 아니라 이게 어떤 정보고 기업과 어떤 관련이 있는지 좀 더 잘 설명하면 좋을 것 같아요. 5. dart 데이터 정보를 어떠한 형식으로 가공하는지에 대한 설명이 제공되면 좋을 것 같습니다. 7. '다트'로 언급하는 것이 무엇인지 청자에 따라 혼동이 있을 수 도 있을 것 같습니다. ``` DART 사업보고서의 형태에 대한 페이지 하나 파고 이 내용이 왜 기업을 추출하는데 도움이 되는지에 대한 근거가 될 만한 내용 추가 이를 어떤 방식으로 가공했는지에 대한 내용 추가 ``` 6. 뉴스 데이터의 source에 대해 설명이 제공되면 좋을 것 같습니다. ``` 뉴스 데이터도 출처와 가공 방식에 대한 설명 추가 ``` 5. 가끔씩 슬라이드 내의 텍스트 정보량이 너무 많은 것 같은데, 되도록 중요한 정보만 우선해서 슬라이드에 적으면 좋을 것 같아요. 내용이 많으면 이걸 하나하나 읽어야 하는지에 대한 부담감이 들 떄도 있고, 정말 중요한 내용이랑 덜 중요한 내용이랑 구분이 어려워서 전반적인 흐름을 따라가기 어려울 때도 있는 것 같습니다. ``` 텍스트 줄이기. 중요한 내용 위주로 표현 ``` 6. 사소한거긴 한데, 슬라이드 전반에서 구어체인 문장을 문어체로 바꾸고 접속사도 불필요하면 삭제해서 문장 길이를 좀 줄이면 좋을 것 같아요." ``` 문어체 -> 구어체 ``` 6. 마스킹을 시각화하는 파란색 박스가 보기에 더 편하도록 다듬어지면 좋을 것 같습니다. ``` 21p 파란 박스 예쁘게 수정 ``` 8. 프로젝트의 흐름 및 모델의 구조를 시각화하는 디자인에 개선의 여지가 많을 것 같습니다. ``` 시각화 예쁘게 ``` 9. 사용한 기술 스택에 대한 설명에서 대표적인 몇몇 패키지를 언급해주시면 전달이 더 잘 될 것 같습니다. ``` 기술 스택을 붙여만 놓을 것이 아니라 어떤 것을 위해 사용했는지에 대한 간단한 설명 추가 ``` 10. 검증 방법 파트에서 motivation에 대한 설명이 더 쉽게 제시되었으면 좋을 것 같습니다. 11. page 29에서 글씨가 작고 내용이 많아 어떤 것인지 한 눈에 잘 들어오지 않는 것 같습니다. ``` 왜 이런 검증 방식을 택했는지, 이 방식으로 얻을 수 있는 내용 설명 시각적으로 더 나은 방법 고민 ``` ## 최종 프로젝트 예상 질문 1. 뉴스가 작성된 시간(연도, 월, 일 등)에 관한 고려는 어떻게 되는지, 이를 어떻게 개선될 수 있을지? ``` X ``` 2. DART-뉴스 간 유사도 외에 고려할 수 있는 관련주의 기준은 어떤게 있을 것으로 생각되는지, 그리고 그 기준을 만족하는 관련주를 어떻게 NLP 기법을 통해 찾을 수 있을지 ``` ``` 3. 어떤 뉴스 및 이에 대한 실제 관련주(해당 뉴스와 관련된 사건으로 인해 주가가 실제로 급변한 주식)를 기반으로 평가를 해본 적이 있는지? 혹은 어떻게 할 수 있을지 ``` ``` 4. 임의의 관련주 추출 시스템이 있을 때, 이에 대한 정량적인 평가를 어떻게 하면 좋을지에 대한 아이디어가 있을지. 혹시 labeled 데이터가 필요하다면 이를 어떻게 수집할 수 있을지? ``` ``` 5. 해당 접근 방법을 통해 기업 공시 자료에 있는 지분 구조 및 매출 구조에 따른 주변 이익/손해를 보는 기업을 잡아낼 수 있을까요? ``` ``` 6. causality와 관련될 수 있는 접근법일 수 있는데, time dependency에 대한 정보가 반영될 수 있을까요? ``` ```