Lecture 9: CNN Architectures

5 minute read

CNN Architectures

CNN์—๋Š” ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์œ ๋ช…ํ•œ ๊ตฌ์กฐ์—๋Š” AlexNet, VGG, GoogLeNet, ResNet ๊ฐ€ ์žˆ๋‹ค. ์ด ๊ตฌ์กฐ๋“ค์„ ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ์—ฐ๋„ ์ˆœ์„œ๋Œ€๋กœ ์„ค๋ช…ํ•˜๊ฒ ๋‹ค.

์ฐธ๊ณ  ์‚ฌํ•ญ ์ด ๋‹จ์›์„ ๋‹ค๋ฃจ๋ฉด์„œ ๋ ˆ์ด์–ด์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ด ๊ฐœ์ˆ˜๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์„ ๊ฒƒ์ด๋‹ค. ๋ ˆ์ด์–ด์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ด ๊ฐœ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•œ๋‹ค.

$(total \, parmeter) = (filter \, size)^2\times (number \, of\, channels)\times(number\, of\, filters)$

์œ„ ๊ณต์‹์€ ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ๊ฐ€์ง„ ๋ ˆ์ด์–ด์—๋งŒ ์ ์šฉ์ด ๋˜๊ณ  Maxpooling ๊ณผ ๊ฐ™์ด ๊ฐ€์ค‘์น˜ ๊ฐ’์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๋ ˆ์ด์–ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ด ๊ฐœ์ˆ˜๋Š” ๋ฌด์กฐ๊ฑด 0์ด๋‹ค.

LeNet-5

LeNet์€ CNN์˜ ์ฒซ๋ฒˆ์งธ ๊ตฌ์กฐ์ด๋‹ค. ์ฒซ๋ฒˆ์งธ ๊ตฌ์กฐ์ธ ๋งŒํผ ์Œ“์ธ ์ธต ์ˆ˜๋„ ์ ๊ณ , ํ•„ํ„ฐ์˜ ํฌ๊ธฐ๋„ ์ตœ์ ์˜ ๊ฒฐ๊ณผ๋ฅผ ์œ„ํ•ด ์ •ํ•ด์ง€์ง€ ์•Š์€ ์ƒํƒœ์ด๋‹ค.

AlexNet

AlexNet์€ 2012๋…„ ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ๋Œ€๊ทœ๋ชจ ๊ตฌ์กฐ์ด๋‹ค. ์ด ๊ตฌ์กฐ๋กœ ์ธํ•ด ๋‹ค์†Œ ๋œ ์ค‘์š”ํ•˜๊ฒŒ ์ƒ๊ฐ๋˜์—ˆ๋˜ CNN ์—ฐ๊ตฌ๊ฐ€ ๋‹ค์‹œ ๋ถˆ๋ถ™๊ฒŒ ๋˜์—ˆ๋‹ค. ๋‹ค์Œ์€ AlexNet ๊ตฌ์กฐ์˜ ๋ชจ์Šต์ด๋‹ค.

  • ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋Š” 227x227x3 ์ด๋‹ค.
  • ์ฒซ๋ฒˆ์งธ ๋ ˆ์ด์–ด์—๋Š” 96๊ฐœ์˜ 11x11 ํ•„ํ„ฐ๊ฐ€ ์ ์šฉ๋˜์—ˆ๋‹ค.
  • ์ฒซ๋ฒˆ์งธ ๋ ˆ์ด์–ด์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๋Š” $(11\times 11 \times 3)*96 = 35000$(๊ฐœ) ์ด๋‹ค.
  • ๋‘๋ฒˆ์งธ ๋ ˆ์ด์–ด๋Š” Maxpooling ๋ ˆ์ด์–ด๋กœ, ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๋Š” 0์ด๋‹ค.
  • ์„ธ๋ฒˆ์งธ ๋ ˆ์ด์–ด๋Š” ์ •๊ทœํ™” ๋ ˆ์ด์–ด๋กœ, ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๋Š” ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ 0์ด๋‹ค.
  • ๋‹ค์Œ์€ ํ•„ํ„ฐ, Maxpooling, ์ •๊ทœํ™” ๋ ˆ์ด์–ด๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉ์‹œ์ผœ ๋‚˜ํƒ€๋‚ธ AlexNet์˜ ์ „์ฒด ๊ตฌ์กฐ์ด๋‹ค.

  • 2012๋…„์—๋Š” ๋ชจ๋ธ์˜ ํ›ˆ๋ จ์„ ์œ„ํ•œ GPU์˜ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ๋ชปํ•  ๋•Œ์ด๋ฏ€๋กœ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ 2๊ฐœ๋กœ ๋‚˜๋ˆˆ ํ›„ ๊ฐ์ž ํ›ˆ๋ จ์‹œ์ผฐ๋‹ค.
  • AlexNet์—์„œ ์ผ๋ถ€ ๋ ˆ์ด์–ด์˜ ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ๋ณ€๊ฒฝํ•œ ZFNet ์ด ์žˆ๋‹ค.

VGGNet

VGGNet์€ ๊ธฐ๋ณธ์ ์ธ CNN๊ตฌ์กฐ์—์„œ ํ•„ํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ์ž‘๊ฒŒํ•˜๊ณ  ์ธต์„ ๋” ๊นŠ๊ฒŒ ์Œ“์•„ ์„ฑ๋Šฅ์„ ๋น„์•ฝ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚จ ๊ตฌ์กฐ์ด๋‹ค. 2014๋…„ ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ๊ตฌ์กฐ์ด๋‹ค.

  • ํ•„ํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ์ž‘๊ฒŒ ์„ค์ •ํ•œ ์ด์œ ๋Š” ๋ฌด์—‡์ผ๊นŒ? 3๊ฐœ์˜ $3\times3$ ํ•„ํ„ฐ ์‚ฌ์ด์ฆˆ๋ฅผ ๊ฐ€์ง„ ๋ ˆ์ด์–ด๋Š” ํ•œ๊ฐœ์˜ $7\times7$ ํ•„ํ„ฐ ์‚ฌ์ด์ฆˆ๋ฅผ ๊ฐ€์ง„ ๋ ˆ์ด์–ด์™€ ๊ฐ™๋‹ค. ๋”ฐ๋ผ์„œ, ๋ชจ๋ธ์˜ ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ๊นŠ๊ฒŒ ์Œ“์„ ์ˆ˜ ์žˆ๊ฒŒ๋œ๋‹ค.
  • ์ด๋ฏธ์ง€๋‹น ๋ฉ”๋ชจ๋ฆฌ์˜ 96MB ๋ฅผ ์ฐจ์ง€ํ•˜๋Š” ๋งค์šฐ ๋ฌด๊ฑฐ์šด ๋ชจ๋ธ์ด๋‹ค.
  • VGG16๊ณผ VGG19๋Š” ๊ฐ๊ฐ 16๊ฐœ, 19๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. VGG19์˜ ์ธต ์ˆ˜๊ฐ€ ๋” ๋งŽ์ง€๋งŒ ์„ฑ๋Šฅ์€ VGG16๊ณผ ํฐ ์ฐจ์ด๊ฐ€ ์—†๋‹ค.

GoogLeNet

GoogLeNet์€ ๊ธฐ๋ณธ์ ์ธ CNN๊ตฌ์กฐ์—์„œ ์ธต์„ ๋” ๊นŠ๊ฒŒ ์Œ“๊ณ  ๊ณ„์‚ฐ์˜ ํšจ์œจ์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚จ ๋ชจ๋ธ์ด๋‹ค. ์„ฑ๋Šฅ์€ VGGNet๊ณผ ๋น„์Šทํ•˜๋ฉฐ, VGGNet๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ 2014๋…„ ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ๊ตฌ์กฐ์ด๋‹ค.

  • ์œ„ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด GoogLeNet์—๋Š” Inception module ์ด๋ผ๋Š” ๋…ํŠนํ•œ ํŠน์ง•์ด ์กด์žฌํ•œ๋‹ค. Inception module ์€ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋‹ค๋ฅธ ์‚ฌ์ด์ฆˆ์˜ ํ•„ํ„ฐ์™€ pooling ์„ ๋ณ‘ํ–‰ํ•˜์—ฌ ๊ธฐ์กด ๋ ˆ์ด์–ด์— ์ ์šฉํ•˜์—ฌ ๊ณ„์‚ฐํ•˜๊ณ  ๊ณ„์‚ฐํ•œ ๊ฐ’์„ ์—ฐ๊ฒฐํ•˜์—ฌ ์ถœ๋ ฅํ•˜๋Š” ๊ตฌ์กฐ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋ ‡๊ฒŒ ๊ณ„์‚ฐ์„ ๋ณ‘ํ–‰ํ• ์‹œ ๊ณ„์‚ฐ๋Ÿ‰์ด ์—„์ฒญ๋‚˜๊ฒŒ ๋Š˜์–ด๋‚œ๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ๋ ˆ์ด์–ด์˜ ์ฐจ์›์„ ์ค„์—ฌ์ฃผ๋Š” bottleneck ๋ ˆ์ด์–ด๋ฅผ ์ ์šฉํ•ด์•ผ ํ•œ๋‹ค. ์ด ๋ ˆ์ด์–ด๋ฅผ ์ ์šฉํ• ์‹œ ๊ณ„์‚ฐ๋Ÿ‰์€ ์ ˆ๋ฐ˜ ์ด์ƒ์œผ๋กœ ์ค„์–ด๋“ ๋‹ค. ์•„๋ž˜ ์‚ฌ์ง„์—์„œ ์™ผ์ชฝ์€ ์ผ๋ฐ˜ Inception module, ์˜ค๋ฅธ์ชฝ์€ bottleneck ๋ ˆ์ด์–ด๋ฅผ ์ ์šฉํ•œ Inception module์ด๋‹ค.

  • ์ด 22๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ๊ฐ’์„ ๊ฐ€์ง„ ๋ ˆ์ด์–ด๊ฐ€ ์กด์žฌํ•œ๋‹ค.
  • ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๊ฐ€ Fully Connected ๋ ˆ์ด์–ด๊ฐ€ ์•„๋‹ˆ๋‹ค.
  • AlexNet๋ณด๋‹ค 12๋ฐฐ๋‚˜ ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

ResNet

ResNet์€ 2015๋…„ ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ๊ตฌ์กฐ์ด๋‹ค. ๋ฐ”๋กœ ์ „๋…„๋„์— ์šฐ์Šนํ•œ VGG, GoogleNet๊ณผ ๋น„๊ตํ•ด ์—„์ฒญ๋‚œ ์„ฑ๋Šฅ์˜ ํ–ฅ์ƒ์„ ๋ถˆ๋Ÿฌ์˜จ ๋ชจ๋ธ์ด๋‹ค

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด residual block ์ด๋ผ๋Š” ๊ฐœ๋…์ด ๋‚˜์˜จ๋‹ค. ํ•œ๋ฒˆ ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.

Residual block

๋ชจ๋ธ์˜ ์ธต์„ ๋‹จ์ˆœํžˆ ๊นŠ๊ฒŒ๋งŒ ์Œ“๋Š”๋‹ค๊ณ  ํ•ด์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์•„๋ž˜์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ํ•œ๋ฒˆ ์ฐธ๊ณ ํ•ด๋ณด์ž.

์ด์ฒ˜๋Ÿผ ํ›ˆ๋ จ๊ณผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ๋ชจ๋‘ 56๊ฐœ์˜ ์ธต์„ ๊ฐ€์ง„ ๋ชจ๋ธ์ด 20๊ฐœ์˜ ์ธต์„ ๊ฐ€์ง„ ๋ ˆ์ด์–ด๋ณด๋‹ค ์ข‹์ง€ ์•Š์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ๊ฒƒ์ด Residual block ์ธ๋ฐ, ์›๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์™ผ์ชฝ ๊ตฌ์กฐ๋Š” ์ผ๋ฐ˜์ ์ธ plain ๋ ˆ์ด์–ด์ด๊ณ , ์˜ค๋ฅธ์ชฝ ๊ตฌ์กฐ๋Š” residual block ์ด๋‹ค. ๋‘ ๋ ˆ์ด์–ด์˜ ์ฐจ์ด์ ์€ ํ•œ ๊ฐ€์ง€์ธ๋ฐ, ๊ณ„์‚ฐํ•˜๋Š” ๋™์•ˆ์˜ ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง€์ง€ ์•Š๋Š”๊ฐ€(plain ๋ ˆ์ด์–ด) ์•„๋‹ˆ๋ฉด ๊ณ„์‚ฐํ•˜๋Š” ๋™์•ˆ์˜ ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง€๋Š”๊ฐ€(residual block) ์ด๋‹ค.


์œ„์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋‹ค์‹œ ํ•œ๋ฒˆ ๋ณด์ž. $x$๋Š” ์ž…๋ ฅ๊ฐ’, $H(x)$๋Š” ๊ณ„์‚ฐ๊ณผ์ •์„ ํ†ตํ•ด ์–ป์€ ์ตœ์ข… ๊ฐ’์ด๊ณ  $F(x)$๋Š” ๋ชจ๋“  ๋ ˆ์ด์–ด์˜ ๊ณ„์‚ฐ๊ณผ์ •์„ ์ด์นญํ•œ ํ•จ์ˆ˜์ด๋‹ค. plain ๋ ˆ์ด์–ด๋Š” ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง€์ง€ ์•Š์œผ๋ฏ€๋กœ $H(x)=F(x)$ ๊ฐ€ ๋˜์ง€๋งŒ residual block์€ ์ž…๋ ฅ ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง€๋ฏ€๋กœ $H(x)=F(x)+x$ ๊ฐ€ ๋œ๋‹ค. ์ฆ‰, residual block์€ ๊ธฐ์กด์— ํ•™์Šตํ•œ ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๊ณ , ๊ฑฐ๊ธฐ์— ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ๋งŒ์„ ์‹ค์‹œํ•˜๋ฏ€๋กœ plain ๋ ˆ์ด์–ด๋ณด๋‹ค ์—ฐ์‚ฐ๋Ÿ‰์ด ํ›จ์”ฌ ๋” ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค.


์œ„ ๊ณผ์ •์„ ์ดํ•ดํ•˜๊ธฐ ํž˜๋“ค๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋น„์œ ๋ฅผ ํ•œ๋ฒˆ ์ƒ๊ฐํ•ด๋ณด์ž.
์ฐธ์กฐ: https://itrepo.tistory.com/36

  1. ์˜คํ”ˆ๋ถ์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ์‹œํ—˜
  2. ์˜คํ”ˆ๋ถ์ด ๊ฐ€๋Šฅํ•œ ์‹œํ—˜

1์˜ ๊ฒฝ์šฐ์—๋Š” ์‹œํ—˜์˜ ๋ฒ”์œ„๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก(=์ธต์ด ๊นŠ์–ด์ง€๊ณ  ํ•™์Šตํ•ด์•ผ ํ•  ์–‘์ด ๋งŽ์•„์ง€๋ฉด) ๊ณต๋ถ€ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ค์›Œ์งˆ ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด 2์˜ ๊ฒฝ์šฐ์—๋Š” ์ด๋ฏธ ๋ฐฐ์› ๋˜ ๋‚ด์šฉ($x$)๊ฐ€ ์ฃผ์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์— ์ถ”๊ฐ€์ ์œผ๋กœ ํ•™์Šตํ•œ ๋‚ด์šฉ๋งŒ์„ ๊ณต๋ถ€ํ•  ๊ฒƒ์ด๋‹ค.


ResNet์— ๋Œ€ํ•œ ์„ค๋ช…์„ ๋งˆ์ € ํ•˜๋„๋ก ํ•˜๊ฒ ๋‹ค.

  • 2๊ฐœ์˜ 3x3 convolutional ๋ ˆ์ด์–ด๋กœ ์ด๋ฃจ์–ด์ง„ residual block์„ ๋งค์šฐ ๊นŠ๊ฒŒ ์Œ“์€ ๋ชจ๋ธ์ด๋‹ค.
  • ๋งˆ์ง€๋ง‰์— 1000๊ฐœ์˜ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” Fully Connected ๋ ˆ์ด์–ด ์™ธ์˜ Fully Connected ๋ ˆ์ด์–ด๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค.
  • ๋ ˆ์ด์–ด์˜ ์ด ๊ฐœ์ˆ˜๋Š” 34, 50, 101, 152 ๊ฐœ์ด๋‹ค.
  • ์—ฐ์‚ฐ๋Ÿ‰์„ ๋” ์ค„์ด๊ธฐ ์œ„ํ•ด GoogLeNet์— ์‚ฌ์šฉ๋œ bottleneck ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค.

Comparing the models

๋‹ค์Œ์€ ์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์šด ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด ๋น„๊ตํ•œ ๊ฒƒ์ด๋‹ค.

  • ์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„์—์„œ ์›์˜ ํฌ๊ธฐ๋Š” ๋ชจ๋ธ์˜ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.
  • VGG16,19์˜ ํšจ์œจ์„ฑ์ด ๊ฐ€์žฅ ๋‚ฎ๋‹ค (์›์˜ ํฌ๊ธฐ๊ฐ€ ๊ฐ€์žฅ ํฌ๋‹ค).
  • GoogLeNet์˜ ํšจ์œจ์„ฑ์ด ๊ฐ€์žฅ ๋†’๋‹ค (์›์˜ ํฌ๊ธฐ๊ฐ€ ๊ฐ€์žฅ ์ž‘๋‹ค).
  • AlexNet์˜ ์ •ํ™•๋„๊ฐ€ ๊ฐ€์žฅ ๋–จ์–ด์ง„๋‹ค.
  • ResNet์€ ์ ๋‹นํ•œ ํšจ์œจ์„ฑ+๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„๋กœ ์„ฑ๋Šฅ์ด ์ œ์ผ ์ข‹์€ ๋ชจ๋ธ์ด๋‹ค.

๋‹ค์Œ์€ ๊ตฌ์กฐ๋ฅผ ํ›ˆ๋ จ ์‹œ๊ฐ„๊ณผ ํ›ˆ๋ จ์— ํ•„์š”ํ•œ ์ „๋ ฅ์˜ ์–‘์„ ๋น„๊ตํ•œ ๊ทธ๋ž˜ํ”„์ด๋‹ค.

Extra architectures

ImageNet classification ๋Œ€ํšŒ์—์„œ ์šฐ์Šนํ•œ ๊ตฌ์กฐ์™ธ์— ๋‹ค์–‘ํ•œ ๋…ผ๋ฌธ ๋“ฑ์—์„œ ์—ฐ๊ตฌํ•œ ๊ตฌ์กฐ์— ๋Œ€ํ•ด ๊ฐ„๋‹จํ•˜๊ฒŒ ์„ค๋ช…ํ•˜๋„๋ก ํ•˜๊ฒ ๋‹ค.

Network in Network (NiN)

๊ธฐ๋ณธ์ ์ธ convolutional layer ์•ˆ์— micronetwork๋ฅผ ์ถ”๊ฐ€ํ•ด ๋” ์ž์„ธํ•œ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“  ๋ชจ๋ธ์ด๋‹ค. bottleneck ๋ ˆ์ด์–ด์˜ ์„ ๊ตฌ์ž๊ฒฉ์ด ๋˜๋Š” ๋ชจ๋ธ์ด๋‹ค.

Improving ResNet

ResNet์ด ๊ฐ€์žฅ ์ตœ๊ทผ์— ์šฐ์Šนํ•œ ๊ตฌ์กฐ์ธ๋งŒํผ ResNet์˜ ์„ฑ๋Šฅ์„ ๋ฐœ์ „ํ•˜๊ธฐ ์œ„ํ•œ ๋งŽ์€ ์—ฐ๊ตฌ๊ฐ€ ์‹œ๋„ ๋˜์—ˆ๋‹ค.

  1. Identity Mappings in Deep Residual Networks

residual block์—์„œ ๊ณ„์‚ฐํ• ๋•Œ ๋” ์ง์ ‘์ ์œผ๋กœ ๊ธฐ์กด ์ •๋ณด์— ๋Œ€ํ•ด ์•Œ๋ ค์ค€๋‹ค.


2. Wide Residual Networks

ResNet์—์„œ ๋ ˆ์ด์–ด์˜ ์ˆ˜๋ณด๋‹ค residual block๊ฐ€ ๋” ์ค‘์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•ด F๊ฐœ์˜ ํ•„ํ„ฐ๊ฐ€ ์•„๋‹Œ F x k ๊ฐœ์˜ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด residual block์„ ๋” ๋„“๊ฒŒ ๋งŒ๋“  ๋ชจ๋ธ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋งŒ๋“  50๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์ด ๊ธฐ์กด์˜ 152๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.


3. Aggregated Residual Transformations for Deep Neural Networks (ResNeXt)

Inception module๊ณผ ๋น„์Šทํ•˜๊ฒŒ residual block์— ์—ฌ๋Ÿฌ๊ฐœ์˜ ํ•„ํ„ฐ๋ฅผ ๋ณ‘ํ–‰ํ•˜์—ฌ ์ ์šฉํ•˜์—ฌ residual block์„ ๋” ๋„“๊ฒŒ ๋งŒ๋“  ๋ชจ๋ธ์ด๋‹ค.


4. Deep Networks with Stochastic Depth

๊ณ„์‚ฐํ• ์ˆ˜๋ก gradient ๊ฐ’์ด ์ค„์–ด๋“œ๋Š” ๊ฒƒ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ์‹œ ๋žœ๋คํ•˜๊ฒŒ ๋ ˆ์ด์–ด๋ฅผ ๋“œ๋กญํ•˜์—ฌ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ์ค„์ธ ๋ชจ๋ธ์ด๋‹ค. ๋‹จ, ํ…Œ์ŠคํŠธ ํ• ๋•Œ๋Š” ๋ ˆ์ด์–ด๋ฅผ ๋“œ๋กญํ•˜์ง€ ์•Š์€ ๋ชจ๋ธ์„ ์ด์šฉํ•œ๋‹ค.

Beyond ResNet

๋‹ค์Œ ์„ค๋ช…ํ•˜๋Š” ๋ชจ๋ธ๋“ค์€ ResNet์˜ ์ค‘์š”ํ•œ ์š”์†Œ์ธ residual block์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค.

  1. FractalNet: Ultra-Deep Neural Networks without Residuals

์–‰์€ ์ธต๊ณผ ๊นŠ์€ ์ธต์ด ๋ณ‘ํ–‰ํ•˜์—ฌ ์กด์žฌํ•ด ํ›ˆ๋ จ์‹œ์— ๋žœ๋คํ•˜๊ฒŒ ๋ ˆ์ด์–ด๋ฅผ ๋“œ๋กญํ•˜์—ฌ ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ์ค„์ธ๋‹ค. ๋‹จ, ํ…Œ์ŠคํŠธ ํ• ๋•Œ๋Š” ๋ ˆ์ด์–ด๋ฅผ ๋“œ๋กญํ•˜์ง€ ์•Š์€ ๋ชจ๋ธ์„ ์ด์šฉํ•œ๋‹ค.


2. Densely Connected Convolutional Networks (DenseNet)

๋ ˆ์ด์–ด ์‚ฌ์ด์— Dense block์ด๋ผ๋Š” ๋ณ„๋„์˜ block์ด ์กด์žฌํ•˜๋Š”๋ฐ, ์ด block ์•ˆ์— ์žˆ๋Š” ๋ ˆ์ด์–ด๋“ค์€ ๋‹ค์Œ ๋ ˆ์ด์–ด๋“ค๊ณผ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐํ• ์ˆ˜๋ก gradient ๊ฐ’์ด ์ค„์–ด๋“œ๋Š” ํ˜„์ƒ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๊ณ , ๋” ์ž์„ธํ•œ ํŠน์ง•์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.


3. SqueezeNet

squeezeNet์€ AlexNet๊ณผ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋‚˜ 50๋ฐฐ๋‚˜ ์ ์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์š”๊ตฌํ•˜๊ณ  0.5MB์˜ ์šฉ๋Ÿ‰์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. 1x1์˜ ํฌ๊ธฐ์ธ ํ•„ํ„ฐ๋ฅผ ๊ฐ€์ง„ squeeze ๋ ˆ์ด์–ด์™€ ๋” ํฐ ํ•„ํ„ฐ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง„ expand ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.


Summary

  • VGG, GoogLeNet, ResNet ๋ชจ๋‘ ๋„๋ฆฌ ์“ฐ์ด๋Š” ๋ชจ๋ธ์ด๋‹ค.
  • ์ด์ค‘ ResNet์ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.
  • ๋” ๊นŠ๊ฒŒ ๋ชจ๋ธ์„ ์Œ“์œผ๋ฉด์„œ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋‹ค.
  • ๋ ˆ์ด์–ด๋ฅผ ์–ด๋–ป๊ฒŒ ๋””์ž์ธํ•˜๊ณ  gradient flow๋ฅผ ์–ด๋–ป๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ์ง€์— ๋Œ€ํ•ด ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋˜๊ณ  ์žˆ๋‹ค.

Comments