Go Gradually - Repository

  • CS
  • PS
  • Backend
  • 개발
  • GitHub
  • 홈

분포 모델 에이전트 1

[강화학습] 에이전트 구현 방법 - 분포 모델과 샘플 모델

에이전트 구현 방법에는 크게 '분포 모델'과 '샘플 모델'이 있다.분포 모델분포 모델은 확률 분포를 명시적으로 유지하는 모델이다.그래서 '무작위로 행동하는 에이전트'를 분포 모델로 구현한다면, 다음처럼 구현할 수 있다.이와 같이 각 상태에서의 행동 확률 분포를 self.pi 변수에 유지한다.그리고 실제 행동을 할 때는 이 확률 분포를 토대로 샘플링한다. 이것이 에이전트를 분포 모델로 구현하는 방법이며, 이처럼 확률 분포를 명시적으로 유지한다는 점이 분포 모델의 특징이다.샘플 모델샘플 모델은 '샘플링이 가능하다' 라는 조건만 충족하면 되는 모델이다.확률 분포를 유지할 필요가 없기 때문에 분포 모델보다 간단히 구현할 수 있다.확률 분포 없이 단순히 네 가지 행동 중 하나를 무작위로 선택하도록 구현했다. 이건..

AI Repository/기초 강화학습 2025.09.01
이전
1
다음
더보기
프로필사진

Go Gradually - Repository

꾸준함은 모든 것을 이긴다.

  • 분류 전체보기 (215) N
    • Article - 깊게 탐구하기 (38)
      • 도메인 주도 설계 이해하기 (9)
      • 트랜잭션 완전정복 (2)
      • 모-던한 프로그래밍 (2)
      • OS - Deep Dive (6)
      • Network - Deep Dive (4)
      • 개발 꿀팁 (7)
      • 피드 한 줌 (1)
      • 개인 프로젝트 (3)
      • OpenAI Gym (2)
    • CS Repository (92)
      • 소프트웨어 공학 - Clean Code & Arc.. (4)
      • 객체지향 & Design Pattern + @ (1)
      • 운영체제 - Dinosaur Book + @ (1)
      • DB (2)
      • 네트워크 - Top-down Approach + .. (26)
      • 데이터 중심 애플리케이션 설계 (1)
      • 리팩터링 (4)
      • 엔터프라이즈 애플리케이션 아키텍처 패턴 (3)
      • HTTP 완벽 가이드 (8)
      • 프로그래밍 패러다임 (3)
    • AI Repository (0)
      • 기초 통계학 (10)
      • 기초 딥러닝 (12)
      • 기초 강화학습 (16)
      • DRL (0)
    • WEB BE Repository (31)
      • JAVA (5)
      • Spring (5)
      • JPA (1)
      • AWS (5)
      • 배포 및 운영 (3)
      • 주니어 백엔드 개발자가 반드시 알아야 할 실무 지.. (0)
      • Redis (1)
      • Spring Security (3)
      • RabbitMQ (7)
    • WEB FE Repository (5) N
      • React (5) N
    • PS (25) N
      • 이론 (1)
      • USACO Silver (1)
      • USACO Gold (4)
      • LeetCode (8) N
      • Baekjoon OJ (4)
      • Codeforces (7)
    • 주간 회고 - 체크리스트 (8) N
    • 개인적 공간 (16)
      • 방광암 치료 (2)

Tag

리팩터링, math, 티스토리챌린지, DQN, Pub-Sub, 마틴 파울러, 상태 가치 함수, rabbitmq, Greedy, 생산자-소비자, DP, 오블완, PS, settings.gradle, spring jdbctemplate, LeetCode, 도메인 이벤트, 최적 정책, Python, producer-consumer,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • GoGradually 의 Repository 입니다.

Archives

Calendar

«   2025/09   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • GitHub

티스토리툴바