2025/09/28 3

DRL 환경 - 상태의 설계

DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다. 강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.상태행동보상전이함수이번 글에서는 이 중 상태에 집중해서 알아볼 것이다. 상태를 구현하는 데에는 다음 세가지를 고려해야 한다.상태의 완결성(completeness)상태의 표현이 세상이 제공하는 정보가 충분히 포함되어 있어서 문제를 해결하는 데 무리가 없는가?상태의 복잡성(complexity)상태의 표현이 얼마나 효과적이고 상태의 표현을 위해 요구되는 계산량은 얼마인가?상태 정보 손실(informat..

AI Repository/DRL 2025.09.28

212. Word Search II - Streak 15

보드의 크기는 최대 12x12로, 순수하게 DFS를 수행한다면 4^144의 시간복잡도가 된다. 하지만 문제의 제약조건을 잘 살펴보면, 단어의 길이가 최대 10자인 것을 확인할 수 있고, 즉 우리는 최대 10개의 글자만 살펴보면 된다. 이는 DFS의 과정이 O(4^10) 으로 제한됨을 의미한다.이를 보드의 각 칸(144개의 칸)에 수행해보면 된다. 그렇다면 이제 각 단어가 실제로 존재하는지를 매칭해보면 되는데, 확인해봐야 하는 단어는 총 3만개이다.이를 일일히 매칭해보는 것은 당연히 시간초과일 것이다. 그래서 word를 해시맵으로 바꾸는 것도 생각해볼 수 있다.하지만 이번엔 단순히 Trie를 이용하는 방식을 선택했다.트라이를 사용하게 되면, 해시맵을 이용한 완전탐색과 달리 트라이 아래에 더이상 노드가 존재..

PS/LeetCode 2025.09.28

MountainCar - Policy Gradient Methods, 그리고 회귀

다양한 알고리즘의 고민이전 글에서 이것 저것 수행해보고 난 뒤, 좀 더 다양한 기법들에 대해 트레이드오프를 이해할 필요성을 느낀 나는 다양한 알고리즘을 공부했다. 하지만 이번 MountainCar 환경에서는, 결국 DQN으로 다시 회귀할 수밖에 없었다.그 근거는 다음과 같다.나는 최근 다양한 정책 경사 알고리즘들을 공부해왔는데, 각 알고리즘은 해결하고자 하는 문제가 현재 MountainCar 의 상황과 맞지 않았다.하이퍼파라미터 튜닝은 예술의 영역이고, 숙련자들 또한 기존에 푼 문제와 논문에 존재하는 하이퍼파라미터를 참고하여 하이퍼파라미터를 설정한다는 것을 확인했다. REINFORCEREINFORCE는 가장 기초적인 Policy Gradient Method로, 다음과 같은 이점과 한계를 갖고 있다.이점정..