학습교재
엑셀로 배우는 초입문 순환 신경망.강화학습
149p 주변 내용.
x <- (1-a(알파기호))x +a(알파기호){r(알) + r(감마기호)max(a, b, c, d)}
이전방의 출구의 매력도 = x .
a(알파기호) = 강화학습모델설계자가 임의로 정의하는 0<a<1 사이의 값, 학습률이라고 칭함.
r = reword ,즉각적인 보상점수.
r(감마기호) = 환경이 변할수 있는 확률이 있기에 이전에 설정된 보상값들에 일종에 환경변화확률을 반영한 보정치가 들어간다고 이해됨. 할인률이라고 칭함.
max = 어떤 요소들 중에 최대값을 선택한다는 의미.
(a, b, c, d) = 다음방의 출구의 매력도.
이글의 설명들은 글쓴이의 이해를 바탕으로 작성한 것이므로 오류가 있을 수 있음.
간단정리
*이런식으로 최종 목표에 도달했을 경우 이전방의 x값을 갱신하고 또 그 이전방의 x값을 갱신하는 식으로 처음x값부터 마지막 x값까지 갱신할수 있다.
'Development' 카테고리의 다른 글
인공신경망 deeplearning 기본구조 (0) | 2022.03.16 |
---|---|
pytorch 1.9.1 cu102 버전 설치 명령어,통합라이브러리 설치 명령어 (0) | 2021.11.04 |
딥러닝 시각화 도구 visdom 에러 대처법 (0) | 2021.11.04 |
Pyinstaller 통합라이브러리 만들시 팁! (0) | 2021.09.17 |
Pyinstaller 오류 대응 1. (0) | 2021.09.09 |