Lecture 7: Training Neural Networks 2
Optimization
์ ์ ์ต์ ํ ๊ณผ์ ์์ SGD(stochastic gradient descent)์ ๋ํด ๋ฐฐ์ด์ ์ด ์๋ค. SGD๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ ๋นํด ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ด๋ฉด์ ํจ๊ณผ๊ฐ ์ข์ ์๊ณ ๋ฆฌ์ฆ์ด๋ ๋ง์ ๋ฌธ์ ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ค์๊ณผ ๊ฐ์ ๊ฒฝ์ฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์.
์ ๊ฒฝ์ฐ์์ ๋นจ๊ฐ ์ ์ ์ค์ ์ ํฅํ๋ ๋ฐฉํฅ์ผ๋ก๋ ๋น ๋ฅด๊ฒ ์ด๋ํ๋ ์ต์ ์ ์ (์๊ณ ์๋ ์ )์ ํฅํด์๋ ๋๋ฆฌ๊ฒ ์ด๋ํ๋ค. ์ด๋ด๋๋ ๊ฐ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ ์๋๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ์ง๊ทธ์ฌ๊ทธ๋ก ์์ง์ฌ ์ต์ ์ ์ ๊น์ง ๋๋ฌํ๋๋ฐ ๋งค์ฐ ์ค๋ ๊ฑธ๋ฆฐ๋ค.
๋ํ ์์คํจ์๊ฐ ๋ค์๊ณผ ๊ฐ์ ๋ชจ์ต์ ๊ฐ์ง๊ณ ์๋ค๊ณ ์๊ฐํด๋ณด์.
๋นจ๊ฐ ์ ์ด ์์นํ ๊ณณ์ ์์คํจ์์ ๋ฏธ๋ถ ๊ฐ์ด 0์ด ๋๋ ๊ณณ์ด๋ฏ๋ก ์ ์ด ๋์ด์ ์ด๋ํ์ง ์๊ณ ๊ทธ๋๋ก ์์นํ๊ฒ ๋๋ค.
์์ ๊ฐ์ SGD์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ ๊ฒ์ด SGD+Momentum ์ด๋ค.
SGD+Momentum
SGD์ SGD+Momentum์ ๋น๊ตํ ํจ์๋ฅผ ํ๋ฒ ๋ณด์.
SGD๋ ๋ฏธ๋ถ๊ฐ๋ง ๊ณ ๋ คํ๋ ๋ฐ๋ฉด SGD+Momentum์ ๋ฏธ๋ถ๊ฐ๋ฟ๋ง ์๋๋ผ ์ ์ ์๋ ๋ํ ๊ณ ๋ คํ๋ค. ์ด๋ ๊ฒ ์งํ ๋ฐฉํฅ์ ์๋๋ฅผ ๊ณ ๋ คํ๊ฒ ๋๋ฉด SGD๊ฐ ๊ฐ์ง๊ณ ์๋ ๋ฌธ์ ์ ์ ์๋ฒฝํ๊ฒ ๋ณด์ํ ์ ์๋ค.
Momentum์๋ ๋๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
- Momentum update
์ผ๋ฐ Momentum์ ๋ฏธ๋ถ๊ฐ์ด ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ๊ณผ ์๋๊ฐ ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ ํฉ์น ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค.
2. Nesterov Momentum
Nesterov Momentum์ ์๋๊ฐ ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค ๊ทธ ๊ณณ์์์ ๋ฏธ๋ถ๊ฐ์ด ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์๋๊ฐ ๊ฐ๋ฆฌํค๋ ๋ฐฉํฅ์ด ์ฝ๊ฐ์ ์ค๋ฅ๊ฐ ์๊ฒจ๋ ๋ฏธ๋ถ๊ฐ์ผ๋ก ์์ ์ ํ ์ ์๊ฒ ๋๋ค.
๊ทธ ๋ฐ์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด์.
AdaGrad
AdaGrad๋ ์ด๋ํ ๋๋ง๋ค ์ง๋์จ ์ ๋ค์ ๋ฏธ๋ถ๊ฐ๋ค์ ๋์ ๊ณฑ์ ๊ตฌํ๊ณ ์ด ๊ฐ์ ์ ๊ณฑ๊ทผ ๊ฐ์ด learning rate๋ฅผ ๋๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์์ ๋ฏธ๋ถ๊ฐ์ ๊ฐ์ง๊ณ ์๋ ์ฐจ์์ผ๋ก๋ ์์ ๋ณดํญ์, ํฐ ๋ฏธ๋ถ๊ฐ์ ๊ฐ์ง๊ณ ์๋ ์ฐจ์์ผ๋ก๋ ํฐ ๋ณดํญ์ ๊ฐ์ง๊ฒ ๋๋ค.
๊ทธ๋ฌ๋ ์ ์ด ์ด๋ํ ์๋ก ๋ณดํญ์ด ์ข์์ง๋ค๋ ๋จ์ ๋๋ฌธ์ ์ ์ฌ์ฉ๋์ง ์๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
RMSprop
RMSprop๋ AdaGrad์ ๋ฌธ์ ์ ์ ๋ณด์ํด์ค๋ค. ์ด๋ํ ๋๋ง๋ค ์ง๋์จ ์ ๋ค์ ๋ฏธ๋ถ๊ฐ๋ค์ ๋์ ๊ณฑ์ decay_rate๋ผ๋ ๋ณ์๋ก ๊ฐ์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ค๋ค. ์ด๋ ๊ฒ ํจ์ผ๋ก์จ ๋ชจ๋ ์ฐจ์์ ๋ํด ์งํ๋ฐฉํฅ์ ์ต์ ํํ์ฌ AdaGrad๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
Adam
adam์ Mometum, AdaGrad/RMSProp ์ ํน์ง์ ๋ชจ๋ ํฉ์ณ๋ ผ ํํ์ด๋ค. ํ์ง๋ง ์ฒซ๋ฒ์งธ ๋ณดํญ์ด ๋งค์ฐ ํด ๊ฐ๋ฅ์ฑ์ด ์์ผ๋ฏ๋ก bias correction์ ์ญํ ์ ํ๋ ์์์ด ์ถ๊ฐ๋๋ค.
adam์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ ์ค ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ๋ํ ์ด ๊ฐ์์์๋ adam์ ํ๋ผ๋ฏธํฐ๋ฅผ beta1=0.9, beta2=0.999, learning_rate=1e-3 ๋๋ 5e-4 ์ผ๋ก ์ค์ ํ ๊ฒ์ ์ถ์ฒํ๊ณ ์๋ค!
๋ค์์ ์ ์๊ณ ๋ฆฌ์ฆ๋ค์ ํ๋ฒ์ ๋น๊ตํ์ฌ ๋ํ๋ด๋ ์ ๋๋ฉ์ด์ ์ด๋ค.
Comments