신경망 3

강화학습의 신경망 선택 방법

모든 DRL 환경은 순차적 데이터를 생성하는 것으로 해석될 수 있다.RNN이 이러한 유형의 입력을 다루는 데 특화되어 있다고 알고있는데, 그렇다면 DRL은 왜 항상 RNN이나 CNN-RNN구조를 사용하지 않을까? 이에 대한 제대로된 이해를 위해선 우선 MDP와 POMDP의 차이에 대해 이해할 필요가 있다. 환경의 두 가지 특성얼마나 관측 가능한가상태 공간의 특성이 무엇인가MDP와 POMDPMDPMDP는 의사결정을 모델링하는 수학적 프레임워크다. MDP의 핵심은 상태 s_t가 다음 상태 s_t+1로 전이하는 방법을 모델링하는 전이 함수이다.MDP 전이 함수는 다음 식으로 표현될 수 있다.전이 함수는 마르코프 특성을 갖는다.즉, s_t+1로의 전이는 전적으로 현재 상태와 행동 (s_t, a_t)에 의해 결정..

AI Repository/DRL 2025.09.27

[강화학습] DQN

본 내용은 심층강화학습 인 액션 도서를 참고하여 작성되었습니다. 심층 강화학습 인 액션 - 예스24프로젝트로 배우는 심층 강화학습의 이론과 실제!이 책 『심층 강화학습 인 액션』은 환경이 제공하는 직접적인 피드백에 기반해서 환경에 적응하고 자신을 개선해 나가는 에이전트의 구현 방www.yes24.com 과거에도 Q함수를 신경망으로 표현하려던 시도는 있었지만, 이는 다음과 같은 문제가 있어 해결하지 못했다.신경망 학습 연산의 비용이 감당 불가능했다.catastrophic forgetting 문제가 있었다. - ER(Experience Replay)신경망 자체의 편향을 제거하기가 어려웠다. - Target Network시대가 변화하며 GPU의 병렬 연산의 성능이 대폭 향상되었고,구글 딥마인드에서 2013년에..

[밑바닥부터 시작하는 딥러닝] 신경망

본 내용은 밑바닥부터 시작하는 딥러닝 1도서를 참고하여 작성되었습니다. 밑바닥부터 시작하는 딥러닝 1 - 예스24딥러닝 분야 부동의 베스트셀러!머리로 이해하고 손으로 익히는 가장 쉬운 딥러닝 입문서이 책은 딥러닝의 핵심 개념을 ‘밑바닥부터’ 구현해보며 기초를 한 걸음씩 탄탄하게 다질 수 있도록www.yes24.com 우리는 지난 시간, 퍼셉트론을 이용해 비선형의 영역까지 문제를 해결하는 성과를 이룰 수 있었다!하지만, 여전히 가중치를 설정하는 작업은 여전히 우리가 수동으로 해야만 했다.학습 과정도 스스로 학습할 수 있도록 할 수 있는 방법이 없을까? 신경망이 이 문제에 대한 해결의 실마리를 제공해준다.가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습하는 능력은 신경망의 중요한 성질이다.퍼셉트론에서..