--- tags: '멘토링' --- 211020 멘토링 === 사전 질문 --- 멘토링 진행 과정 --- - 멘토님 근황 - 대회에 참여하고 있음 - LP(Linear Programming)문제 푸는 중 - IP(Integer Programming) : continus 한 것이 아닌 문제 - 강화학습 코드를 짜며 바쁘게 보냄 - LP, IP 활용 예시 - 딥마인드의 서버 컴퓨터 전력 효율 계산 - Scheduling 문제 - Knapsack 문제, Bin Packing 문제, 조합 최적화 - 빠르게 optimal한 정답을 찾는 연구 - 강화학습 Tutorial - 구성 요소 : 환경, state, agent - 환경에서의 조건이 존재 - 환경에서 시작과 끝이 존재하는 에피소드(시나리오?)가 누적 - 에피소드에 대한 기억이 쌓여서 학습 - 보상을 통해서 최적의 에피소드로 학습 - 강화학습 분야 공부하게 된 계기 - 대학원 와서 공부중 - 반복적을 듣다보니 익숙해 지는 중 - 아직 1년도 안된 듯 - 강화학습 자료 - https://www.youtube.com/playlist?list=PLlMkM4tgfjnKsCWav-Z2F-MMFRx-2gMGG - 대회 진행 조언 및 질문 - 팀 전체 코드 리뷰를 하다보니 한 번에 공통적인 review를 했었는데, 개별적으로 작성한 코드 피드백을 원하면 멘토링 시간을 활용하면 좋을 것 같다 - main code에 hydra 사용으로 얻은 이점 - log 관리가 자동으로 됨 - 원래 목적은 실험 관리 (argment가 엄청 많을 때, 각각 파일로 만들어서 관리 가능) - 하나의 yaml파일로 parameter를 설정해서 사용하도록 설정 - (나누어서 사용하려고 하니까)hydra가 decorator 함수가 쓰이는데, train에서 retune 값을 제대로 보내지 않음. - 지난 기수가 활용했던 성능 향상 팁이나 기술? - 알아고보 다음번에 알려주시기로 함 - base line 코드에서 생성 모델에서의 pre-training과 fine-tuning의 동작 과정? - embedding 하는것과 대칭적인 구조를 가지는 것이 대부분 - 데이터를 임베딩하고 복원하는 과정 - pre-train에 사용되는 dataset과 fine-tuning에 사용되는 dataset은 완전히 달라야 함 - 다음 멘토링 일정 - 다음주 수요일 6시 30분