---
tags: '멘토링'
---
211020 멘토링
===
사전 질문
---
멘토링 진행 과정
---
- 멘토님 근황
- 대회에 참여하고 있음
- LP(Linear Programming)문제 푸는 중
- IP(Integer Programming) : continus 한 것이 아닌 문제
- 강화학습 코드를 짜며 바쁘게 보냄
- LP, IP 활용 예시
- 딥마인드의 서버 컴퓨터 전력 효율 계산
- Scheduling 문제
- Knapsack 문제, Bin Packing 문제, 조합 최적화
- 빠르게 optimal한 정답을 찾는 연구
- 강화학습 Tutorial
- 구성 요소 : 환경, state, agent
- 환경에서의 조건이 존재
- 환경에서 시작과 끝이 존재하는 에피소드(시나리오?)가 누적
- 에피소드에 대한 기억이 쌓여서 학습
- 보상을 통해서 최적의 에피소드로 학습
- 강화학습 분야 공부하게 된 계기
- 대학원 와서 공부중
- 반복적을 듣다보니 익숙해 지는 중
- 아직 1년도 안된 듯
- 강화학습 자료
- https://www.youtube.com/playlist?list=PLlMkM4tgfjnKsCWav-Z2F-MMFRx-2gMGG
- 대회 진행 조언 및 질문
- 팀 전체 코드 리뷰를 하다보니 한 번에 공통적인 review를 했었는데, 개별적으로 작성한 코드 피드백을 원하면 멘토링 시간을 활용하면 좋을 것 같다
- main code에 hydra 사용으로 얻은 이점
- log 관리가 자동으로 됨
- 원래 목적은 실험 관리 (argment가 엄청 많을 때, 각각 파일로 만들어서 관리 가능)
- 하나의 yaml파일로 parameter를 설정해서 사용하도록 설정
- (나누어서 사용하려고 하니까)hydra가 decorator 함수가 쓰이는데, train에서 retune 값을 제대로 보내지 않음.
- 지난 기수가 활용했던 성능 향상 팁이나 기술?
- 알아고보 다음번에 알려주시기로 함
- base line 코드에서 생성 모델에서의 pre-training과 fine-tuning의 동작 과정?
- embedding 하는것과 대칭적인 구조를 가지는 것이 대부분
- 데이터를 임베딩하고 복원하는 과정
- pre-train에 사용되는 dataset과 fine-tuning에 사용되는 dataset은 완전히 달라야 함
- 다음 멘토링 일정
- 다음주 수요일 6시 30분