Understanding Diffusion Models Towards Adversarial Robustness
1. Introduction
-
Diffusion model (์ดํ DM)์ likelihood-based ๋ชจ๋ธ๋ก, ์์ฑํ๋ ์ํ ํ๋ฆฌํฐ๊ฐ ์ข์ ๋์์ GAN์ด ๊ฐ์ง๊ณ ์๋ mode collapse issue๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์๋ค.
-
DM์ input image์ ๋ ธ์ด์ฆ๋ฅผ ์ฃผ๊ธฐ์ ์ผ๋ก ์ถ๊ฐํ๋ forward process์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํด ๋๊ฐ๋ reverse process๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
-
Empirical research๋ฅผ ํตํด DM์ด adversarial attack์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๋ค๋ ๊ฒ์ด ๋ํ๋ฌ์ง๋ง ์ด์ ๋ํ ๊ตฌ์ฒด์ ์ธ ์ด์ ์ ๋ํด์๋ ์์ง ์ฐ๊ตฌ๋์ง ์์๋ค.
-
์ด ๋ ผ๋ฌธ์์๋ DM์ด adversarial attack์ 1. ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๋์ง์ ์ด๋ฅผ ํตํด 2. DM์ ํตํด ๋ชจ๋ธ์ robustํ๊ฒ ๋ง๋๋ ์๋ก์ด framework์ธ DensePure์ ์ ์ํ๋ค.
2. Preliminaries and Backgrounds
1. Continuous-Time Diffusion Model
โScore-based generative modeling through stochastic differential equations.โ ๋ ผ๋ฌธ์์๋ Score-based generative model๋ค์ SDE(Stochastic Differential Equation) framework์์์ ํฌ๊ฒ ๋๊ฐ์ง ์์์ธ diffusion forward process์ reverse process๋ก ๊ตฌ์ฑ๋์ด ์๋ค๊ณ ์ฃผ์ฅํ๊ณ ์๋ค. ๋จผ์ forward diffusion process์ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
๋ค์์ผ๋ก reverse process๋ ๋ค์๊ณผ ๊ฐ์ด reverse-time SDE๋ก ๋ํ๋ผ ์ ์๋ค.
2. Discrete-Time Diffusion Model(or DDPM)
โDenoising Diffusion Probablistic Modelโ๋ ผ๋ฌธ์์๋ DDPM์ forward diffusion process๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ธ๋ค.
Reverse diffusion process๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ธ๋ค.
์ฌ๊ธฐ์ ์ด ๋ ผ๋ฌธ์์๋ ๋ค์ step์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๊ฑฐํ ์ํ ๋ถํฌ์ ๋ถ์ฐ์ $\beta_i$ ($i$๋ฒ์งธ step์ ์ฃผ์ ํ ๋ ธ์ด์ฆ์ ์) ์ผ๋ก ๊ณ ์ ํ๊ณ , ํ๊ท ์ธ $\mu_\theta (x_i, i)$ ๋ง์ ๊ตฌํ๋ ๊ฒ์ผ๋ก ๊ฐ๋จํ ํ์๋ค. ์์ค ํจ์๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ ์ด ์๋ ๋ณต์กํ๊ธฐ ๋๋ฌธ์ ์ด ๊ณผ์ ์ ์๋ตํ๊ณ ์ต์ข ์ ์ธ ์์ค ํจ์๋ง์ ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ ๊ณต์์ ๊ณง $i$๋ฒ์งธ step์์ ๋ ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ ๊ฐ์ผ๋ก ๋ฃ์์ ๋ ์ถ๊ฐํ ๋ ธ์ด์ฆ์ ์์ ์ถ๋ ฅํ๋ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค๋ ๊ฒ์ผ๋ก ์ดํดํ ์ ์๋ค.
3. Randomized Smoothing
RS(Randomized Smoothing)์ $L_2$-norm์ ํด๋น๋๋ adversarial attack์ ํจ๊ณผ์ ์ผ๋ก ๋ง๊ธฐ ์ํด ๊ณ ์๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก classifier์ smoothing ํด์ค์ผ๋ก์จ classifier์ robustํ๊ฒ ๋ง๋ค์ด์ค๋ค.
์ฌ๊ธฐ์ $\sigma$๋ ๋ชจ๋ธ์ robustness์ accuracy๋ฅผ ์กฐ์ ํ๋ parameter์ด๋ค. ์์ง ํด๋น ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด์ง ์์๊ธฐ ๋๋ฌธ์ ์์ธํ ์ดํด๋ฅผ ์ํด ์ถ๊ฐ๋ก ์ฝ์ด ๋ณผ ์์ ์ด๋ค.
3. Theoretical Analysis
ํด๋น ์น์ ์์๋ DM์ด ์ด๋ป๊ฒ adversarial attack์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ฑฐํ๋์ง์ ๋ํด ๋ค์๊ณผ ๊ฐ์ 3๊ฐ์ง Theorem์ ํตํด ๋ฐํ๋ด๊ณ ์๋ค. ๋จผ์ ํด๋น ์น์ ์ Theorem๋ค์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ ์ ๋ง์กฑํ๊ณ ์๋ค.
Theorem 3.1
Perturbed๋ ๋ฐ์ดํฐ ํฌ์ธํธ์ธ $x_{a,t}$๊ฐ reverse-SDE๋ฅผ ๊ฑฐ์น๊ณ ๋ ํ purify๋ ๋ฐ์ดํฐ ํฌ์ธํธ $\hat{x}$ ๋ ๋ค์๊ณผ ๊ฐ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ง๋ค.
์ ๊ณต์์ ํตํด $\mathbb{P}$๋ฅผ ์ฆ๊ฐ์ํค๊ธฐ ์ํด์๋ $\left | x-x_a \right |_2^2$๋ฅผ ๊ฐ์์์ผ์ผ ํ๊ณ , ์ด๋ ๊ณง $x$๊ฐ $x_a$ ์ฃผ๋ณ์ผ๋ก ๋์ ๋ฐ๋๋ฅผ ๊ฐ์ ธ์ผ ํจ์ ์ ์ ์๋ค. ๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ์ด $\mathbb{P}$๋ฅผ ์ต๋ํํ๋ ๋ฐ์ดํฐ ํฌ์ธํธ $x$๋ฅผ ์ ํํ๋ ๊ฒ์ผ๋ก ๊ฐ๋จํ ๋ํ๋ผ ์ ์๋ค.
Theorem 3.2
$f$๊ฐ classifier์ด๊ณ $G(x_0)$๊ฐ $x_0$๊ณผ ๊ฐ์ class๋ฅผ ๊ฐ์ง๋ data region์ด๋ผ๊ณ ํ์. ์ฌ๊ธฐ์ $P(\cdot ;\psi)$๊ฐ purification model ์ด๋ผ๊ณ ํ ๋ $G(x_0)$์ robust data region์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ ์์ purified ๋ $x$๊ฐ $x_0$๊ณผ ๊ฐ์ label์ ๊ฐ์ง๋ $x$์ ์งํฉ์ ๋ํ๋ด๋ robust data region์ด๋ผ๊ณ ํด์ํ ์ ์๋ค.
๋ํ $x_0$์ robust radius๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
์ ์์ ๊ณง $x_0$์ ๋๋ฌ์ธ๊ณ ์๋ $D(x_0 ; \psi)$ ์ maximum inclined ball์ ๋ฐ์ง๋ฆ์ด๋ค.
๊ฒฐ๊ตญ Theorem 3.2๋ฅผ ํตํด ๋ํ๋ด๊ณ ์ถ์ ๊ฒ์ ๋ค์๊ณผ ๊ฐ๋ค:
$x_a$๊ฐ Euculidean distance ์์ผ๋ก $x_0$๊ณผ ์ถฉ๋ถํ ๊ฐ๊น์ธ ๋ $x_a$๋ $x_0$์ purified ๋ sample์ธ $P(x_a;t)$๊ณผ ๊ฐ์ label semantics๋ฅผ ์ ์งํ๊ณ ๊ฐ์ label๋ก ๋ถ๋ฅ ํ๋ค. ๊ทธ๋ฌ๋ $x_a$๊ฐ $x_0$์ ๊ฐ๊น์ง ์์๋ $x_0$๊ณผ ๊ฐ์ label์ ๊ฐ์ง๊ณ ์๋ ๋ค๋ฅธ ๋ฐ์ดํฐ ํฌ์ธํธ, $ \tilde{x}$์ ๊ฐ๊น์๋ $x_0$์ ๊ฐ์ label๋ก ๋ถ๋ฅํ๋ค. ์ด๊ฒ์ ๋ํ ์ฆ๋ช
์ ๋ค์ Theorem์์ ํ๋ค.
Theorem 3.3
1. $x_0$๊ฐ ground truth label์ ๊ฐ์ง๊ณ ์๋ data point์ด๊ณ $x_a$๊ฐ perturbed ๋ $x_0$๋ผ๋ฉด purified๋ $P(x_a;t)$๋ ๋ค์๊ณผ ๊ฐ์ convex set์ ํฌํจ๋ ๋ $x_0$์ ๊ฐ์ label์ ๊ฐ์ง๋ค.
2. ๋ํ $x_a$๋ ๋ค์๊ณผ ๊ฐ์ convex set์ ํฌํจ๋ ๋ $x_0$๊ณผ ๊ฐ์ label์ ๊ฐ์ง๋ค.
์ฌ๊ธฐ์ 1๊ณผ 2์ ๋ค๋ฅธ ์ ์ 2๋ $x_0$๊ณผ ๊ฐ์ ๋ ์ด๋ธ์ ๊ฐ์ง ๋ค๋ฅธ ๋ฐ์ดํฐ ํฌ์ธํธ $\tilde{x}$๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ด๋ค.
๊ฒฐ๊ตญ robust radius์ธ $r(G(x_0);t$๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ด ๋ฌธ์ ์ ํต์ฌ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ฌ๊ธฐ์ ํ๊ฐ์ง ์ฃผ์ํด์ผ ํ ์ ์ด ์๋ค. ๋ฐ๋ก $D_{sub}(x_0 ; t)$๋ convex์ฌ๋ $D(G(x_0);t)$๋ convex๊ฐ ์๋๋ผ๋ ์ ์ด๋ค. ๋ฐ๋ผ์ $D(G(x_0);t)$๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ฌธ์ ์ ์ ๊ทผํด์ผ ํ๋ค.
- non-convex optimization ๋ฐฉ๋ฒ์ ์ด์ฉํด์ผ ํ๋ค.
- $D_{sub}(x_0 ; t)$๋ convex์ด๋ฏ๋ก convex optimization์ ์ด์ฉํด ํด๊ฒฐํด์ $r(G(x_0);t$์ ๋ํ lower bound๋ฅผ ์ฐพ์ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ 2๋ฒ์ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๊ณ ์๋ค. (๊ทธ ์ด์ ์ ๋ํด์ ๊ฐ๋จํ๊ฒ ์ค๋ช ํ๊ณ ์์ผ๋ convex optimization์ ๋ํด์ ๋ฐ๋ก ๊ณต๋ถ๋ฅผ ํ์ง ์์ ์ดํด๋ฅผ ํ์ง ๋ชปํ๋ค. ์ถํ์ ๊ณต๋ถํ ํ ์ด ๋ถ๋ถ์ ๋ํด์๋ ๋ค์ ์์ฑํ๋๋ก ํ๊ฒ ๋ค.) ๊ทธ๋ฌ๋ $D(G(x_0);t)$๋ ๋ค๋ฅธ sub region๋ค์ ํฉ์งํฉ ํ ๊ฒ์ด๋ฏ๋ก sub region๋ณด๋ค ํจ์ฌ ๋ ์ปค์ง ์ํ์ด ์๋ค. ์ด๊ฒ์ ๋ํด์ ํด๋น ๋ ผ๋ฌธ์์๋ ์๋์ ๊ฐ์ figure์ ํตํด ์ค๋ช ํ๊ณ ์๋ค.
๋ฐ๋ผ์ reverse-SDE๋ฅผ ํตํด ์ ํํ ๊ฐ์ ์ฐพ๋ ๊ฒ ๋์ ์ approximation ๋ฐฉ๋ฒ์ ์ด์ฉํ๊ณ ์๋ค. approximation ๋ฐฉ๋ฒ์๋ ์์๋ก score-based model์ ์ฌ์ฉํด reverse-SDE์์ KL-Divergence๋ฅผ ๋ํ๋ธ ๊ฒ์ด Theorem 3.4์ด๋ค.
์ฌ๊ธฐ์ convex์ ๋ํด ์๋ ๊ฒ์ด ๊ฑฐ์ ์์๊ธฐ ๋๋ฌธ์ convexity๋ฅผ ๋ณด์กดํ๋ ์ฐ์ฐ์ ๋ํด์ ๋ณ๋๋ก ์ฐพ์๋ณด์๋ค. convex set์ convexity๋ฅผ ๋ณด์กดํ๋ ์ฐ์ฐ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Intersection
- Scaling and transition
์์) $C$๊ฐ convex set์ด๊ณ $a$, $b$๊ฐ ๊ฐ๊ฐ scaling, transition scalar factor์ด๋ฉด $aC+b$ ๋ํ convex set์ด๋ค. - Affine images and preimages
์์) $f(x)=Ax+b$์ด๊ณ C๊ฐ convex set์ด๋ฉด $f(C)$๋ convex set์ด๋ค. ๋ํ D๊ฐ convex set์ด๋ฉด $f^{-1}(D)$ ๋ํ convex set์ด๋ค.
Theorem 3.4
$\lVert {\hat{x_\gamma} \rVert }_{\gamma \in [0, t]}$ ์$\lVert {x^{\theta}_\gamma \rVert }_{\gamma \in [0, t]}$๊ฐ ๊ฐ๊ฐ reverse-SDE, score-based diffusion model์ด๋ผ๊ณ ํ๋ฉด ์ด ๋ ๋ถํฌ์ KL-Divergence๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
DensePure
์ง๊ธ๊น์ง ์ฆ๋ช ํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก DM์ ํตํด ๋ชจ๋ธ์ robustํ๊ฒ ๋ง๋๋ ์๋ก์ด framework์ธ DensePure ์ ์๋ก ์ ์ํ๊ณ ์๋ค. ์ด framework๊ฐ ์๋ํ๋ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ ๋ ฅ๊ฐ $x$๊ฐ reverse process๋ฅผ ๊ฑฐ์ณ์ $rev(x)$๋ฅผ ์ป๋๋ค.
- 1๋ฒ ๊ณผ์ ์ K๋ฒ ๋ฐ๋ณตํ์ฌ ${rev(x)_1,โฆ,rev(x)_K}$๋ฅผ ์ป๋๋ค.
- ${rev(x)_1,โฆ,rev(x)_K}$๋ฅผ classifier์ ํต๊ณผ์์ผ ๊ทธ ์ค์์ ๊ฐ์ฅ ๋ง์ด ๋์จ label์ ์ต์ข ์์ธก๊ฐ์ผ๋ก ์ค์ ํ๋ค. ์ด๋ ๊ฒ ๊ฐ์ฅ ๋ง์ด ๋์ค๋ label์ ์ฐพ๋ ๊ณผ์ ์ Majority Vote, ์ค์ฌ์ MV๋ผ๊ณ ํ๋ค.
๋ํ DensePure์
- Randomized Smoothing์ ์ ์ฉํด $L_2$-norm adversarial attack์ ํจ๊ณผ์ ์ผ๋ก ๋ง๋ ๊ฒ์ ๋ํ ์ฆ๋ช ๊ณผ
- Improved Denoising Diffusion Probablistic Models์ ์ฌ์ฉ๋ Fast Sampling ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๋ ๋น ๋ฅด๊ฒ ์ํ๋งํ๋ ๊ณผ์ ์ ๋ํด์
์ค๋ช
ํ๊ณ ์์ผ๋ ์ค์ํ ๋ด์ฉ์ ์๋๋ฏ๋ก ์๋ตํ๋๋ก ํ๊ฒ ๋ค.
๋ค์์ DensePure์ pipeline์ ๋ํด ๋ํ๋ธ figure์ด๋ค.
Experiments
์๋๋ ๋ค๋ฅธ baseline method์์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด ๋ํ๋ ๊ฒฐ๊ณผ์ด๋ค. ๋ฐ์ดํฐ์ ์ CIFAR-10, ImageNet์ ์ฌ์ฉํ์๋ค.
์ฌ๊ธฐ์ $\epsilon$์ adversarial attack์ ์ํด perturbed๋ ๋น์จ์ด๊ณ , ๊ฐ ์ ํ๋ ์์น ์์ ๊ดํธ๋ $\epsilon=0$ ์ผ ๋์ ์ ํ๋์ด๋ค. ์ฆ, standard accuracy ์ด๋ค. ๋ํ off-the-shelf๋ ๋ชจ๋ธ์ด๋ classifier์ ๋ณ๋์ ํ์ต์ ์๊ตฌํ์ง ์๋ plug-and-play manner๋ก ์๋ํ๋ method๋ฅผ ์ง์นญํ๋ค. ๊ฒฐ๊ณผํ๋ฅผ ๋ณด๋ฉด ์ ์ ์๋ฏ์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ต๋ฅผ ํ์ ๋ ๊ฑฐ์ ๋ชจ๋ $\epsilon$์ ๋ํด์ SOTA๋ฅผ ๋ฌ์ฑํ๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
๋ํ DensePure๊ณผ ๋น์ทํ๊ฒ DM์ ์ฌ์ฉํ ๋ ผ๋ฌธ์ธโ(certified!!) adversarial robustness for free!โ ์์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ๊ณ ์๋ค. ๋ค์ ๊ทธ๋ํ๋ CIFAR-10, ImageNet ๋ฐ์ดํฐ์ ์ ๋ํ ๋น๊ต ๊ฒฐ๊ณผ์ด๋ค.
๋ชจ๋ noise scale $\sigma$์ ๋ํด์ DensePure๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ์ ์ ์๋ค.
Ablation study
์๋ figure์ Voting sample์ $K$๊ฐ๊ณผ Fast sampling steps $b$์ ๋ํ ablation study๋ฅผ ์งํํ ๊ฒฐ๊ณผ์ด๋ค.
๊ฒฐ๊ณผํ๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ ์ฌ์ค์ ์ ์ ์๋ค.
- $K$๊ฐ์ด ์ฆ๊ฐํ ๋๋ง๋ค ์ ํ๋๊ฐ ์ฆ๊ฐํ๋ค.
- MV(Majority Vote)๊ฐ ์ฌ์ฉ๋๋ฉด sampling step์ด ์ฆ๊ฐํ ๋๋ง๋ค ์ ํ๋๊ฐ ์ฆ๊ฐํ์ง๋ง, MV(Majority Vote)๊ฐ ์ฌ์ฉ๋์ง ์์ผ๋ฉด sampling step์ด ์ฆ๊ฐํ ๋๋ง๋ค ์ ํ๋๊ฐ ๊ฐ์ํ๋ค.
Limitations
MV์ ์ฌ์ฉ๋๋ reverse process ๋๋ฌธ์ time complexity๊ฐ ๋งค์ฐ ๋๊ฒ ๋ํ๋๋ค. ํด๋น ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด fast sampling ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง๋ง ๋ฌธ์ ๊ฐ ์์ ํ ํด๊ฒฐ๋ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์ ๋ ๋ฐ์ ๋ fast sampling ๋ฐฉ๋ฒ์ด ํ์ํ ๊ฒ์ด๋ค.
Comments