2025/09/27 3

강화학습의 신경망 선택 방법

모든 DRL 환경은 순차적 데이터를 생성하는 것으로 해석될 수 있다.RNN이 이러한 유형의 입력을 다루는 데 특화되어 있다고 알고있는데, 그렇다면 DRL은 왜 항상 RNN이나 CNN-RNN구조를 사용하지 않을까? 이에 대한 제대로된 이해를 위해선 우선 MDP와 POMDP의 차이에 대해 이해할 필요가 있다. 환경의 두 가지 특성얼마나 관측 가능한가상태 공간의 특성이 무엇인가MDP와 POMDPMDPMDP는 의사결정을 모델링하는 수학적 프레임워크다. MDP의 핵심은 상태 s_t가 다음 상태 s_t+1로 전이하는 방법을 모델링하는 전이 함수이다.MDP 전이 함수는 다음 식으로 표현될 수 있다.전이 함수는 마르코프 특성을 갖는다.즉, s_t+1로의 전이는 전적으로 현재 상태와 행동 (s_t, a_t)에 의해 결정..

AI Repository/DRL 2025.09.27

DRL에서의 디버깅 방법, 하이퍼파라미터 설정

사실 DRL은 디버깅 과정이 과학이라기보다는 예술에 더 가깝다.디버깅을 잘하려면 딥 러닝 소프트웨어의 특이한 점들과 수치 계산, 그리고 하드웨어에 대해 직접 무언가를 해보면서 경험을 많이 해볼 필요가 있다.난이도가 높은 프로젝트에서는 언제나 그렇듯이, DRL을 작동시키려면 엄청난 끈기가 필요하다. 디버깅의 주요 목적은 실패의 근본적인 원인 탐색이다.디버깅 과정은 본질적으로 문제 해결의 과정이며 오류가 의심되는 다양한 부분을 체계적으로 확인하면서 오류를 찾아내는 과정이다.여기서 중요한 것은 체계적으로 한다는 것이다. 오류라고 추측되는 의심스러운 부분들을 오류 가능성이 높은 순으로 나열해 놓고, 가능하면 독립적으로 하나씩 테스트해야 한다.테스트가 실패할 때마다 오류 의심 항목을 하나씩 지우면서 다음 항목을 ..

AI Repository/DRL 2025.09.27

76. Minimum Window Substring - Streak 14

t를 전부 포함하는 최소 길이의 부분 문자열을 찾는 문제였다.일단 최소 상태를 유지해야 하니 투 포인터가 떠올랐는데, "어떻게" 최소 상태를 유지할것인지에 대한 문제는 조금 까다로웠다.나의 경우, 문자열이 포함되었을 때부터 왼쪽 끝을 당겨오면서 t를 포함하는지 체크하였다.이때, 한 문자의 길이는 1이므로 왼쪽 문자의 이탈은 오른쪽에 바로 채워지지 않는 이상 더 짧아지기 어렵고, 따라서 항상 최소 상태 유지가 가능했다.class Solution { public String minWindow(String s, String t) { int left = 0, right = 0; int[] cnt = new int[58]; int[] need = new int[58]; ..

PS/LeetCode 2025.09.27