[MLSys 2020] FedProx

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Federated Learning

[MLSys 2020] FedProx - (3) 본문

Federated Learning/Papers

[MLSys 2020] FedProx - (3)

pseudope 2022. 8. 1. 02:30

728x90

논문 제목: Federated Optimization in Heterogeneous Networks

출처: https://arxiv.org/abs/1812.06127

이전 포스트에서, 우리는 non-convex한 $F_k$ 에 관한 FedProx의 convergence를 증명하였습니다. (이전 글 보기) 이번 포스트에서는 FedProx의 convergence rate를 구해보고, convex case와 $\gamma$ 가 device 별로, 또 round 별로 달라지는 case에 관해서도 살펴볼 것입니다.

6. non-convex case의 convergence rate

$\text{Theorem 6}$ (Convergence rate: FedProx)

$\epsilon > 0$ 이 주어졌을 때, $B > B_{\epsilon}$ , $\mu$ , $\gamma$ , 그리고 $K$ 에 대해서 $\text{Theorem 4}$ 의 assumption들이 FedProx algorithm의 매 iteration마다 성립한다고 가정하자. 그리고 $f(w^0) - f^* =: \Delta$ 라고 정의하자. 이때, FedProx algorithm의 $T := O(\frac {\Delta} {\rho \epsilon})$ 회 iteration이 진행되었다면, $\frac {1} {T} \sum_{t = 0}^{T - 1} \mathbb{E} [||\nabla f(w^t)||^2] \leq \epsilon$ 이다.

$\text{Theorem 6}$ 에 따르면, $\epsilon$ 을 작게 잡을수록 수렴하는 데에 더 많은 iteration이 필요하고, 대신 더 정확한 결과가 도출된다는 것을 알 수 있습니다. 이는, overfitting이 바람직한 상황은 아니라는 것을 감안했을 때, 저자가 앞서 이야기한 "굳이 tight하게 $\epsilon$ 을 잡을 필요 없다"는 주장과 일맥상통하는 부분입니다. 이를 증명하기 위해서는 추가적인 assumption이 한 가지 필요한데, $\mathbb{E}_k [||\nabla F_k(w) - \nabla f(w)||^2] \leq \sigma ^2$ 를 만족하는 $\sigma$ 가 존재한다, 즉, variation이 bounded되어 있다는 것입니다. 이는 앞서 살펴본 $\text{Assumption 1}$ 과 마찬가지로 크게 문제가 되는 가정은 아닙니다.

$\text{Corollary 10}$ (Bounded variance equivalance)

$\text{Assumption 1}$ 이 성립하고, $\mathbb{E}_k [||\nabla F_k(w) - \nabla f(w)||^2] \leq \sigma ^2$ 때, $B_\epsilon \leq \sqrt{1 + \frac {\sigma ^2} {\epsilon}}$ 이다.

$\text{Proof}$

$Var[X] = \mathbb{E} [X^2] - \mathbb{E} [X]^2$ 임을 이용하면 $\mathbb{E}_k [||\nabla F_k (w)||^2] - ||\nabla f(w)||^2 = \mathbb{E}_k [||\nabla F_k(w) - \nabla f(w)||^2] \leq \sigma ^2$ 임을 알 수 있다. 이를 다시 정리하면 $\mathbb{E}_k [||\nabla F_k (w)||^2] \leq \sigma ^2 + ||\nabla f(w)||^2$ 로 나타낼 수 있으며, $B$ 의 정의에 따라서 $B_\epsilon = \sqrt{\frac {\mathbb{E}_k[||\nabla F_k(w)||^2]} {||\nabla f(w)||^2}} \leq \sqrt{\frac {\sigma ^2 + ||\nabla f(w)||^2} {||\nabla f(w)||^2}} = \sqrt{1 + \frac {\sigma ^2} {||\nabla f(w)||^2}} \leq \sqrt{1 + \frac {\sigma ^2} {\epsilon}}$ 이다. $\square$

$\text{Proof of Theorem 6}$

$\text{Corollary 10}$ 의 결과를 $\text{Theorem 4}$ 의 $\rho$ 에 대입하면 알 수 있다. $\square$

7. convex case의 convergence

$\text{Corollary 7}$ (Convergence: Convex case)

$\text{Theorem 4}$ 의 assumption이 모두 성립하고, $F_k(\cdot)$ 들이 모두 convex하다고 가정하자. 더 나아가, 모든 $k$ 와 $t$ 에 대해서 $\gamma_k^t = 0$ 을 만족한다고 하자. (이는 곧 모든 local update가 exact하게 이루어짐을 뜻한다.) 이때, 만약 $1 \ll B \leq 0.5 \sqrt{K}$ 라면, 최적의 $\mu$ 는 $\mu \approx 6LB^2$ 이며, 따라서 $\rho \approx \frac {1} {24LB}$ 이다.

$\text{Proof}$

$\rho = \left( \frac {1} {\mu} - \frac {\gamma B} {\mu} - \frac {B(1 + \gamma) \sqrt{2}} {\bar{\mu} \sqrt{K}} - \frac {LB(1 + \gamma)} {\bar{\mu} \mu} - \frac {L(1 + \gamma)^2 B^2} {2 \bar{\mu}^2} - \frac {LB^2 (1 + \gamma)^2} {\bar{\mu}^2 K} (2 \sqrt{2K} + 2) \right)$ 임을 알고 있고, 가정에 따라 $L_- = 0$ , $\bar{\mu} = \mu$ , $\gamma = 0$ 이다. 따라서 식을 정리하면 $\rho = \left( \frac {1} {\mu} - \frac {B \sqrt{2}} {\mu \sqrt{K}} - \frac {LB} {\mu^2} - \frac {LB^2} {2 \mu^2} - \frac {LB^2} {\mu^2 K} (2 \sqrt{2K} + 2) \right)$ 이다. 또한, $B \leq 0.5 \sqrt{K}$ 이므로 $\rho \geq \frac {(2 - \sqrt{2})} {2 \mu} - \frac {LB + (1 + \sqrt{2})LB^2} {2 \mu^2}$ 이다. 따라서,

$\begin{align*} \mathbb{E}_{S_t} [f(w^{t+1})] &\leq f(w^t) - \rho ||\nabla f(w^t)||^2 \\&\leq f(w^t) - \frac {2 - \sqrt{2}} {2 \mu} ||\nabla f(w^t)||^2 + \frac {LB + (1 + \sqrt{2})LB^2} {2 \mu^2} ||\nabla f(w^t)||^2 \\&\lessapprox f(w^t) - \frac {1} {2 \mu} ||\nabla f(w^t)||^2 + \frac {3LB^2} {2 \mu^2} ||\nabla f(w^t)||^2 \end{align*}$

이며, 더 나아가 $\mu \approx 6LB^2$ 로 잡을 경우, $\mathbb{E}_{S_t} [f(w^{t+1})] \lessapprox f(w^t) - \frac {1} {24LB^2} ||\nabla f(w^t)||^2$ 이다. $\square$

convex case의 convergence는 최소 $T := O(\frac {LB^2 \Delta} {\epsilon})$ 회의 iteration 후에 진행되며, 이는 $\text{Theorem 6}$ 과 $\text{Corollary 7}$ 으로부터 자명합니다. 또한, bounded variance assumption에 의하여 $O (\frac {L \Delta} {\epsilon} + \frac {L \Delta \sigma ^2} {\epsilon ^2})$ 로도 표기할 수 있습니다. 이는 SGD의 시간복잡도와 정확히 일치하며, 저자들은 이러한 점을 근거로 해당 논문이 의미있다고 주장하고 있습니다. 물론, 이것이 FedProx가 distributed SGD보다 우위에 있다는 것을 의미하지는 않습니다. 그렇다기보다는, 연합학습 체계 중에서 convergence를 엄밀하게 증명해보인 첫 논문이라는 점, 그리고 그 속도가 SGD에 준한다는 점에서 해당 논문이 의미가 있다고 생각합니다.

또한, $\text{Corollary 7}$ 을 통해서 알 수 있는 것이 한 가지 더 있는데, 비록 convex case로 한정지었지만, $\mu$ 를 어떻게 잡는지가 model의 convergence에 큰 영향을 준다는 것입니다. (물론, non-convex case에서도 똑같이 증명하기는 어렵겠지만 비슷한 결과가 나오리라 예상할 수 있고, 이 부분은 empirical test에서 확인하도록 하겠습니다.) 저는 처음에 이 부분을 명확하게 이해하기 어려웠는데, 분명 논문 초반부에서부터 계속해서 $\gamma_k^t$ 의 중요성을 언급하였음에도, 저자들은 $\gamma$ 가 아닌 $\mu$ 를 hyperparameter로 잡았기 때문입니다. (심지어, 이 $\mu$ 는 proximal term에서부터 정의도 되지 않은 채 쓰이고 있습니다.) 그렇다면, $\gamma$ 는 어디에서 사용되는 것이고, 또 hyperparameter가 아니라면 어디에서부터 주어지는 것일까요? 이에 관해서는 다음 포스트에서 ablation study와 함께 알아보도록 하고, 이에 관한 이야기를 하기 위해서 $\gamma$ 를 $\gamma_k^t$ 로 generalize하는 것으로 이번 포스트를 마무리짓겠습니다.

8. $\gamma$ 가 달라지는 경우의 convergence

$\text{Corollary 9}$ (Convergence: variable $\gamma$ 's)

local function $F_k$ 들이 모두 non-convex하고, $L$ -Lipschitz smooth하다고 가정하자. 그리고 $L_- > 0$ 가 존재하여 $\nabla^2 F_k \succeq -L_- \textbf{I}$ , $\bar{\mu} := \mu - L_{-} > 0$ 를 만족한다고 하자. $w^t$ 가 non-stationary한 solution이고 각 device의 local functions $F_k$ 가 $B$ -dissimilar할 때 (즉, $B(w^t) \leq B$ 일 때), $\mu$ , $K$ , $\gamma_k^t$ 가 $\rho^t := \left( \frac {1} {\mu} - \frac {\gamma^t B} {\mu} - \frac {B(1 + \gamma^t) \sqrt{2}} {\bar{\mu} \sqrt{K}} - \frac {LB(1 + \gamma^t)} {\bar{\mu} \mu} - \frac {L(1 + \gamma^t)^2 B^2} {2 \bar{\mu}^2} - \frac {LB^2 (1 + \gamma^t)^2} {\bar{\mu}^2 K} (2 \sqrt{2K} + 2) \right) > 0$ 를 만족한다면, FedProx의 $t$ 번째 iteration에서 global objective function $f$ 의 expected decrease는 $\mathbb{E}_{S_t} [f(w^{t + 1})] \leq f(w^t) - \rho^t ||\nabla f(w^t)||^2$ 를 만족한다. (여기에서, $S_t$ 는 $t$ 번째 iteration에 참여하는 device들의 집합이고, $\gamma^t := max_{k \in S_t} \; \gamma_k^t$ 이다.)

$\text{Proof}$

$\gamma^t$ 의 정의와 $\text{Theorem 4}$ 로부터 자명하다. $\square$

이번 포스트에서는 FedProx의 convergence rate에 대한 증명과 convex case에서의 convergence 증명을 살펴보고, $\gamma$ 가 달라지는 case로 증명을 확장해보았습니다. 그리고 이 과정에서 hyperparameter $\mu$ 의 중요성도 확인해보았습니다. 다음 포스트에서는 도대체 $\gamma$ 가 무엇인지 (알아보자고 몇 번째 말하고 있는 것 같지만) 알아보고, 각종 ablation test를 살펴보겠습니다. (다음 글 보기)

'Federated Learning > Papers' 카테고리의 다른 글

[ICLR 2020] Convergence of FedAvg - (1) (0)	2022.08.15
[MLSys 2020] FedProx - (4) (0)	2022.08.13
[MLSys 2020] FedProx - (2) (0)	2022.07.30
[MLSys 2020] FedProx - (1) (0)	2022.07.25
[AISTATS 2017] FedSGD, FedAvg - (2) (0)	2022.07.16

'Federated Learning/Papers' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Federated Learning

Federated Learning

[MLSys 2020] FedProx - (3) 본문

[MLSys 2020] FedProx - (3)

'Federated Learning > Papers' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역