강화학습 Q러닝 학습정리.

학습교재

엑셀로 배우는 초입문 순환 신경망.강화학습

149p 주변 내용.

x <- (1-a(알파기호))x +a(알파기호){r(알) + r(감마기호)max(a, b, c, d)}

이전방의 출구의 매력도 = x .

a(알파기호) = 강화학습모델설계자가 임의로 정의하는 0<a<1 사이의 값, 학습률이라고 칭함.

r = reword ,즉각적인 보상점수.

r(감마기호) = 환경이 변할수 있는 확률이 있기에 이전에 설정된 보상값들에 일종에 환경변화확률을 반영한 보정치가 들어간다고 이해됨. 할인률이라고 칭함.

max = 어떤 요소들 중에 최대값을 선택한다는 의미.

(a, b, c, d) = 다음방의 출구의 매력도.

이글의 설명들은 글쓴이의 이해를 바탕으로 작성한 것이므로 오류가 있을 수 있음.

간단정리

*이런식으로 최종 목표에 도달했을 경우 이전방의 x값을 갱신하고 또 그 이전방의 x값을 갱신하는 식으로 처음x값부터 마지막 x값까지 갱신할수 있다.

인공신경망 deeplearning 기본구조 (0)	2022.03.16
pytorch 1.9.1 cu102 버전 설치 명령어,통합라이브러리 설치 명령어 (0)	2021.11.04
딥러닝 시각화 도구 visdom 에러 대처법 (0)	2021.11.04
Pyinstaller 통합라이브러리 만들시 팁! (0)	2021.09.17
Pyinstaller 오류 대응 1. (0)	2021.09.09

끄저크!