일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- PPML
- q-FFL
- value shaping
- Analysis
- 머신러닝
- FedAvg
- FL
- Federated Transfer Learning
- Machine learning
- ML
- OSR
- 딥러닝
- Federated Learning
- OOD
- Open Set Recognition
- 기계학습
- free rider
- ordered dropout
- Differential Privacy
- OoDD
- DP
- convergence
- 개인정보
- q-FedAvg
- data maximization
- 연합학습
- FedProx
- deep learning
- Agnostic FL
- Fairness
- Today
- Total
Federated Learning
[ICLR 2020] Convergence of FedAvg - (5) 본문
논문 제목: On the Convergence of FedAvg on Non-IID Data
출처: https://arxiv.org/abs/1907.02189
지난 포스트에 이어서 partial device participation case의 convergence를 증명하도록 하겠습니다. (이전 글 보기) C term만 다르기 때문에, Scheme I과 II 구분 없이 동시에 증명합니다.
7. Partial Device Participation Case
Theorem 2
Assumtion 1 ~ 4가 성립하고, Scheme I을 사용한다고 가정하자. (즉, Assumption 5가 성립한다고 가정하자.) 그러면 partial device participation case의 FedAvg는 다음을 만족한다. (단, L,μ,σk,G는 Assumption 1 ~ 4에서 정의된 것과 동일하며, κ.γ,ηt,B는 Theorem 1에서 정의된 것과 동일하다. 그리고 C:=4KE2G2이다.)
Theorem 3
Assumtion 1 ~ 4가 성립하고, Scheme II를 사용한다고 가정하자. (즉, Assumption 6가 성립한다고 가정하자.) 그러면 partial device participation case의 FedAvg는 다음을 만족한다. ((단, L,μ,σk,G는 Assumption 1 ~ 4에서 정의된 것과 동일하며, κ.γ,ηt,B는 Theorem 1에서 정의된 것과 동일하다. 그리고 C:=N−KN−14KE2G2이다.)
E[F(WT)]−F∗≤κγ+T−1(2(B+C)μ+μγ2E[||w1−w∗||2])
Proof
||ˉwt+1−w∗||2=||ˉwt+1−ˉvt+1+ˉvt+1−w∗||2=||ˉwt+1−ˉvt+1||2⏟A1+||ˉvt+1−w∗||2⏟A2+2⟨ˉwt+1−ˉvt+1,ˉvt+1−w∗⟩⏟A3
에서, A3는 St에 대한 expectation을 취할 경우 0이 되기 때문에, 우리는 A1과 A2만 정리하면 된다. 우선, t+1∉IE일 경우, ˉwt+1=ˉvt+1이므로 A1=0이다. 따라서, 다음이 성립한다. (1)
E||ˉwt+1−w∗||2=E[A2]=E[||ˉvt+1−w∗||2]≤(1−ηtμ)E[||ˉwt−w∗||2]+η2tE[||gt−ˉgt||2]+6Lη2tΓ+2EN∑k=1pk||ˉwt−wkt||2(∵
다음으로, t+1 \in \mathcal{I}_E일 경우, \text{Lemma 5}에 의하여 \mathbb{E}_{\mathcal{S}_t} [A_1] \leq ||\bar{w}_{t+1} - \bar{v}_{t+1}||^2 \leq \eta_t^2 C 이다. (2) 따라서, 다음이 성립한다.
\begin{align*} \mathbb{E} ||\bar{w}_{t+1} - w^*||^2 &= \mathbb{E} [A_1] + \mathbb{E} [A_2] = \mathbb{E} [||\bar{w}_{t+1} - \bar{v}_{t+1}||^2] + \mathbb{E} [||\bar{v}_{t+1} - w^*||^2] \\&\leq \mathbb{E} [||\bar{w}_{t+1} - \bar{v}_{t+1}||^2] + (1 - \eta_t \mu) \mathbb{E} [||\bar{w}_t - w^*||^2] + \eta_t^2 B \; (\because (1)) \\&\leq \eta_t^2 C + (1 - \eta_t \mu) \mathbb{E} [||\bar{w}_t - w^*||^2] + \eta_t^2 B \; (\because (2)) \\&= (1 - \eta_t \mu) \mathbb{E} [||\bar{w}_t - w^*||^2] + \eta_t^2 (B+C) \end{align*}
\text{Theorem 1}과의 차이점은 C term 뿐이므로, v = \max \{ \frac {\beta^2 B} {\beta \mu - 1}, (\gamma + 1) \Delta_1 \} = \max \{ \frac {\beta^2 B} {\beta \mu - 1}, (\gamma + 1) \mathbb{E} ||\bar{w}_1 - w^*||^2 \}로 정의하였던 것을 v = \max \{ \frac {\beta^2 (B+C)} {\beta \mu - 1}, (\gamma + 1) \mathbb{E} ||\bar{w}_1 - w^*||^2 \}로 바꾸면 동일하게 성립한다. \square
8. 어떠한 \text{Scheme}을 사용하여야 할까?
\text{Scheme II}에는 balanced dataset이라는 비현실적인 가정이 포함되어 있기 때문에, 이론적으로는 \text{Scheme I}을 사용하는 것이 좋습니다. 특히 p_1, p_2, \cdots, p_N이 매우 non-uniform할 경우에 이러한 replacement를 허용하는 sampling 기법이 더욱 효과적으로 작동합니다. 문제는, (Cross-Silo case라면 이러한 걱정이 덜 하겠지만) 일반적으로 연합학습 과정에는 불특정 다수의 기기가 참여하기 때문에, 우리가 N개의 device 중 K개를 언제나 임의로 sampling할 수 없다는 점입니다. 즉, straggler를 고려하여야 한다는 것이죠. 따라서, K개를 확정적으로 sampling할 수 없는 경우에는, 그저 먼저 반환되는 K개의 parameter들을 가지고 update를 하는 것이 현실적인 방법일 수 있습니다. 이러한 상황에서는 K개의 device가 uniformly distributed되어 있다고 가정하고 \text{Theorem 3}을 이용하여 수렴성을 보장하면 됩니다. 다시 말해, 비록 다소 비현실적인 가정을 갖고 있더라도, \text{Scheme II}가 \text{Scheme I}보다 더 현실에 들어맞는 이야기일 수도 있다는 의미입니다.
그렇다면, balanced dataset이라는 가정을 조금 더 완화할 수 있는 방법은 없을까요? \widetilde{F}_k := p_k N F_k(w)로 정의할 때, global objective function F(w)를 다음과 같이 정리할 수 있고, 따라서 uniform distribution을 보장할 수 있습니다.
F(w) = \sum_{k=1}^N p_k F_k(w) = \frac{1} {N} \sum_{k=1}^N \widetilde{F}_k (w)
그리고 이때에도 \text{Theorem 3}는 동일하게 성립하는데, F_k를 p_k N F_k로 scaling한 만큼 L, \mu, \sigma_k, G도 scaling을 해주어야 합니다. 정확히는, \nu := N \cdot \max_k p_k, \varsigma := N \cdot \min_k p_k일 때, L, \mu, \sigma_k, G를 각각 \widetilde{L} := \nu L, \widetilde{\mu}:= \varsigma \mu, \widetilde{\sigma}_k := \sqrt{\nu} \sigma, \widetilde{G} := \sqrt{\varsigma}G로 바꾸면 convergence가 동일하게 보장됩니다. 이러한 방법을 \text{Scheme T}라고 이야기하겠습니다.
물론, uniform distribution을 가정하더라도, 만약p_1, p_2, \cdots, p_N이 매우 non-uniform하다면, \nu는 매우 커지고 \varsigma는 매우 작아질 것입니다. 이는 FedAvg 알고리즘의 수렴 속도를 낮추는 요인이 되며, (이에 관한 이야기는 다음 포스트에서 다루겠습니다.) 따라서 이러한 경우에는 앞서 언급한 대로 \text{Scheme I}이 더 좋은 성능을 보일 것입니다. 하지만 앞서 이야기하였듯이 \text{Scheme I}은 이상적인 case에서만 성립합니다. 따라서 \text{Scheme I}과 \text{Scheme II} 중 어떠한 방법이 더 낫다고 이야기하기는 어려우며, 우리는 상황에 따라 유연하게 둘 중 하나를 선택하거나, 혹은 이 둘의 중간자적인 성격의 \text{Scheme}을 사용하여야 합니다. \text{Scheme T}가 이에 해당하는 셈인데, 실제로 experiments를 보면 \text{Scheme I}가 제일 우수한 성능을 보여주기는 하나, \text{T}도 \text{I}에 버금가는 정도의 performance를 보여주고 있습니다. 즉, \text{Scheme T}가 적절한 대안이라는 것을 확인할 수 있습니다.
다음 포스트에서는 hyperparameter K와 E를 어떻게 정해야 할지에 관하여 살펴본 후, experiments를 확인하도록 하겠습니다.
'Federated Learning > Papers' 카테고리의 다른 글
[ICLR 2020] Convergence of FedAvg - (7) (0) | 2022.08.30 |
---|---|
[ICLR 2020] Convergence of FedAvg - (6) (0) | 2022.08.28 |
[ICLR 2020] Convergence of FedAvg - (4) (0) | 2022.08.25 |
[ICLR 2020] Convergence of FedAvg - (3) (0) | 2022.08.19 |
[ICLR 2020] Convergence of FedAvg - (2) (0) | 2022.08.16 |