# 11월 29일 피어세션 ###### tags: `peer-session` ## 강의 일정 #### 월 #### 화 6,7 #### 수 8 #### 목 #### 금 9,10 ? ## DART 데이터 ['주식 코드', 'report_idx', '기업 코드', '기업 이름', '수정 일자', 'contents'] #### contents ['【 대표이사 등의 확인 】', 'I. 회사의 개요', 'II. 사업의 내용', 'III. 재무에 관한 사항', 'IV. 이사의 경영진단 및 분석의견', 'V. 회계감사인의 감사의견 등', 'VI. 이사회 등 회사의 기관에 관한 사항', 'VII. 주주에 관한 사항', 'VIII. 임원 및 직원 등에 관한 사항', 'IX. 계열회사 등에 관한 사항', 'X. 대주주 등과의 거래내용', 'XI. 그 밖에 투자자 보호를 위하여 필요한 사항', 'XII. 상세표', '【 전문가의 확인 】'] ##### 사업의 내용 ['1. 사업의 개요', '2. 주요 제품 및 서비스', '3. 원재료 및 생산설비', '4. 매출 및 수주상황', '5. 위험관리 및 파생거래', '6. 주요계약 및 연구개발활동', '7. 기타 참고사항'] 1. Dart에 대한 전처리가필요 2. 키워드 추출 개선필요(학습모델로) 3. 좀 의미있는 뉴스가 필요 --- 관련기업이 어느 회사가 있는지 모르는게 문제(2500개) ## DPR 방향성 1. 뉴스 / 사업보고서 요약 -> 인코딩 2. 뉴스의 첫 요약 문단 -> 인코딩 / 사업보고서에서 간략히 요약한 부분 -> 인코딩 3. 민재님 의견: 사용자가 입력한 쿼리 -> 인코딩해서 유사도 높은 보고서 찾음 ## 다트 할일 * 표 없애서 dictionary에 넣기 * 표 파싱해서 따로 넣기 * 표의 내용을 text으로 빼서 들어갔으면 좋겠다 * pandas에 read_xml을 사용해서 먼저 파싱 -> text 변환? * 표 내용이 실제 내용의 위치에 들어가게 되면 dataframe을 사용하지 않아도 됨 * 표 내용에서 dart api가 어디까지 해주는지 파악해 봐야 함. * 깃헙에 xml 파싱 코드 올리기 ## 경량화 - tune.py 돌려보시면 좋을거 같습니다.! optuna 사용법 설명왕킹요한! - postgresql - 제가 시도해볼게요 ## 내일 까지 - 요한 : postgresql optuna 적용 + - 한진 : 강의 다듣고 optuna + mobilenet v3 small적용해보기 - 재형 : 다트 - 석진 : 찍먹... 면접이랑 같이하느라 어디까지 할 수 있을지는 모르겠지만 시도는 해보겠습니다 - 찬미 : 강의 + optuna +