- 지능형소프트웨어 학부 연구실 레지던트
- ReinForceMent Learning Training CODE
- 2024.03 ~ 현재
이름 | 박효준 | 강민기 |
---|---|---|
깃허브 | @Kyxxn | @kang20 |
회차 | 주차 | 바닥부터 배우는 강화 학습 |
---|---|---|
1 | 4/8 | Ch.1 강화 학습이란 Ch.2 마르코프 결정 프로세스 |
2 | 4/15 | Ch.3 벨만 방정식 Ch.4 MDP를 알 때의 플래닝 |
3 | 5/6 | Ch.5 MDP를 모를 때 밸류 평가하기 |
4 | 5/13 | Ch.6 MDP를 모를 때 최고의 정책찾기 |
5 | 5/20 | Ch.7 Deep RL 첫 걸음 |
6 | 5/27 | Ch.8 가치 기반 에이전트 |
7 | 6/3 | Ch.9 정책 기반 에이전트 (9.1, 9.2) |
8 | 6/24 | Ch.9 정책 기반 에이전트 (9.3) |
9 | 7/1 | 간단한 게임으로의 적용 방안: Deep-Q, A2C |
10 | 7/8 | 최적화 문제로의 적용 방안: Deep-, A2C |