Lecture 14: Reinforcement Learning
์ด๋ฒ ๋จ์์์๋ ๊ฐํ ํ์ต(reinforcement learning)์ ๋ํด์ ๋ค๋ฃจ๊ณ ์๋ค.
์ด๋ฒ ๋จ์์์๋ ๊ฐํ ํ์ต(reinforcement learning)์ ๋ํด์ ๋ค๋ฃจ๊ณ ์๋ค.
์ด๋ฒ ๋จ์์์๋ ํ์ต๋ ์ด๋ฏธ์ง๋ก ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋(generate) ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ๋ค๋ฃจ๊ณ ์๋ค. ์ด์ ๊ฐ์ด ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๋ชจ๋ธ์ Generative Model ์ด๋ผ๊ณ ํ๋ค.
์ง๊ธ๊น์ง CNN์ ์๋ ์๋ฆฌ์ CNN์ ํตํด ์ปดํจํฐ๊ฐ ์ด๋ฏธ์ง๋ฅผ ์ฝ๊ณ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ ์์๋ณด์๋ค. ๊ทธ๋ ๋ค๋ฉด CNN์ ๊ฐ ์ธต์์ ์ด๋ฏธ์ง๊ฐ ์ด๋ ํ ํ์์ผ๋ก ๋ํ๋๊ฒ ๋ ๊น? CNN์ ์๋ ๊ณผ์ ์ ์ข ๋ ์ง๊ด์ ์ผ๋ก ์๊ธฐ ์ํด ์๊ฐํ ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ด ๋จ์์ ๋ค๋ฃจ๊ณ ์๋ค.
ํ์ฌ๊น์ง ์ด๋ฏธ์ง์ ๋ํ๋ ๋ฌผ์ฒด๋ฅผ ํน์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ ์ด๋ฏธ์ง ๋ถ๋ฅ(image classification) ์ ๋ํด ์ง์ค์ ์ผ๋ก ๋ฐฐ์๋ณด์๋ค. ๊ทธ๋ฌ๋ ์ปดํจํฐ ๋น์ ์ ๋ถํ (segmentation), ํ์ง (detection)๋ ์ํํ ์ ์๋ค. ๊ฐ๊ฐ์ ์ญํ ์ ๋ํด ๊ฐ๋จํ๊ฒ ์์๋ณด์
Process Sequence of Recurrent Neural Network