Federated Learning

[ICLR 2020] Convergence of FedAvg - (4) 본문

Federated Learning/Papers

[ICLR 2020] Convergence of FedAvg - (4)

pseudope 2022. 8. 25. 23:00
728x90

논문 제목: On the Convergence of FedAvg on Non-IID Data

출처: https://arxiv.org/abs/1907.02189

 

 지난 두 개의 포스트를 통해, 우리는 full decive participation case에서 FedAvg의 convergence를 확인하였습니다. (이전 글 보기) 이번 포스트부터는 partial device participation case를 살펴볼 것입니다. 마찬가지로 증명 과정이 다소 길기 때문에 두세 편에 나누어서 작성될 예정입니다.

 

5. Assumtions - (2)

 

 이전 포스트에서 살펴보았듯이,  Sampling 과정에서 replacement가 허용되는지(FedProx 논문에서 제시한 Sampling 기법) 혹은 그렇지 않은지(해당 논문에서 제시한 Sampling 기법)에 따라 Averaging 기법이 상이하게 나타납니다. 해당 논문에서는 전자를 Scheme I, 후자를 Scheme II로 표기하며, 아래 두 assumption들은 각각의 Sampling과 Averaging에 관한 것입니다. 여기에서, [N]은 서로 다른 N개의 client의 집합을 의미하며, 정의에 따라 St[N]입니다. (partial case이기 때문에 St=[N]은 고려하지 않습니다.)

 

Assumption 5 [Scheme I]

 [N]으로부터 K개의 device를 sampling probability p1,p2,,pk에 따라 replacement를 허용하여 sampling한 것을 St라고 하자. 이때, FedAvg 알고리즘의 aggregation step은 wt1KkStwkt로 진행된다.

 

Assumption 6 [Scheme II]

 [N]으로부터 K개의 device를 replacement 없이 uniform하게 sampling한 것을 St라고 하자. 그리고 p1=p2==pk=1N이라는 의미에서 data가 balanced라고 가정하자. 이때, FedAvg 알고리즘의 aggregation step은 wtNKkStpkwkt로 진행된다.

 

 Assumption 6에는 balanced data라는 가정이 추가되어 있는데, 이것은 data가 서로 IID하다는 의미가 아니라, data의 개수가 고르게 분포한다는 의미입니다. 물론, 이러한 가정 역시 현실과 다소 동떨어진 것입니다. 현실에서는 각 device가 서로 다른 개수의 data를 가지고 있는 것이 일반적이죠. 그럼에도 왜 이러한 비현실적인 가정을 감수하면서 Scheme II를 고려해야 하는지, 그리고 이러한 가정을 정당화하거나 완화할 수는 없는지에 대한 논의는 잠시 뒤로 미루도록 하겠습니다.

 

6. Key Lemmas for Theorem 2 and 3 

 

 full device participation case에서는 t+1IE인 경우 t+1기에 자동으로 aggregation step을 진행하였습니다. 하지만 partial device participation case에서는 t+1기에 적절한 scheme을 사용하여 N개의 device 중 K개를 적절히 sampling한 뒤, 이 K개의 device에 대해서만 aggregation step을 진행해야 합니다. 문제는, 먼저 St를 구성한 뒤, 이에 해당하는 client에 대해서만 update를 진행하는 것이 (communication cost 등을 고려할 때) 현실적이지만, Stt에 따라 계속해서 변하기 때문에 이러한 과정을 그대로 반영할 경우 convergence analysis에 어려움이 발생한다는 것입니다. 따라서, 저자들은 우선 모든 device가 local update를 수행한 후, sampling된 K개의 device에게서만 update 결과를 받아 global update를 하는 상황을 가정하고 analysis를 진행하였습니다. 결론적으로는 (local에서의 computation cost는 다소 증가하겠지만, convergence의 관점에서는) 동일한 과정이기 때문에 이는 큰 문제가 없는 가정이며, 이러한 가정 하에 t기에서 t+1기로의 update 과정은 다음과 같습니다.

vkt+1=wktηtFk(wkt,ξkt)

wkt+1={vkt+1if t+1IEsamples St+1 and average {vkt+1}kStif t+1IE

 여기에서 Sampling은 어떠한 scheme을 사용하는지에 따라서 달라질 것이며, 이 Sampling 때문에 우리는 더 이상 ˉwt+1=ˉvt+1을 보장할 수 없게 되었습니다. 평소에는 해당 식이 성립하겠지만, 문제가 되는 경우는 t+1IE일 때입니다. ˉwt+1ˉvt+1라는 것은 곧 특정 device(들)에 biased된 학습을 하고 있다는 것이므로, 우리는 평균적으로라도 ˉwt+1ˉvt+1이 같다는 보장이 필요합니다. 다행히도, 이를 Lemma 4가 해결해줍니다.

 

Lemma 4 [Unbiased Sampling Scheme]

 t+1IE일 때, Scheme III 모두 ESt[ˉwt+1]=ˉvt+1을 만족한다.

 

Proof

  t기에서 t+1기로 넘어가는 과정에서 St:={i1,i2,,iK}[N]를 sampling할 때, 어떠한 (이미 정해져서 변하지 않는) 수열 {xi}Ni=1에 대하여 xkqk의 확률로 함께 sampling한다고 가정하자. (이때, scheme에 따라서 특정 ik들이 서로 동일할 수도 있으며, Scheme I의 경우 qk=pk이고, Scheme II의 경우 qk=1N이다.) 이때, NK개의 선택되지 못한 xk들은 global update에 반영되지 않으므로, 다음과 식이 성립한다. ()

ESt[kStxk]=ESt[Kk=1xik]=KNk=1qkxk

 

 따라서, ESt[ˉwt+1]=ESt[1KkStvkt+1]=KNk=11Kqkvkt+1=Nk=1qkvkt+1=ˉvt+1 이다.

 

 저자들이 FedAvg 논문에서 제안되었던 기존의 Sampling 방법은 고려하지 않았는데, 그 이유는 해당 방법을 사용할 경우 Lemma 4가 성립하지 않기 때문입니다. 물론, 이 부분이 기존의 FedAvg가 heterogeneous한 구성에서 적절하게 동작하지 못한 근본적인 원인이라고 단정지을 수는 없지만, 적어도 Sampling과  Averaging 기법을 잘 선택하는 것이 convergence에 직접적으로 영향을 준다는 것은 알 수 있으며, 이는 저자들도 강조하는 부분입니다. 그리고 이러한 이유 때문에, 기존의 방법론의 경우 앞서 살펴본 표에 convergence rate가 기입되어 있지 않습니다.

 

 다음으로, Lemma 5ESt[||ˉvt+1ˉwt+1||2]이 bounded되어있음을 보장해줍니다. 이는 Lemma 4에 의하여 ESt[ˉwt+1]=ˉvt+1이므로 Var[ˉwt+1]이 bounded되어있다는 것과 동치입니다.

 

Lemma 5 [Bounding the variance of ˉwt]

 임의의 t에 대해서 ηt가 non-ibcreasing하고, ηt2ηt+E일 때, 다음이 성립한다.

 (i) 만약 Scheme I을 채택하였다면, ESt[||ˉvt+1ˉwt+1||2]4Kη2tE2G2이다.

 (ii) 만약 Scheme II를 채택하였다면, ESt[||ˉvt+1ˉwt+1||2]NKN14Kη2tE2G2이다.

        (단, 이때 Assumption 6에 의하여 p1=p2==pN=1N이라고 가정한다.)

 

Proof

 증명에 앞서, t0:=tE+1로 정의한다. (즉, t0는 바로 직전의 communication round를 의미한다.)

 (i) ˉwt+1=1KkStvkt+1=1KKl=1vilt+1이므로, ESt[||ˉwt+1ˉvt+1||2]는 다음과 같이 bounded된다.

 

ESt[||ˉwt+1ˉvt+1||2]=ESt[||1KKl=1vilt+1ˉvt+1||2]=ESt[1K2Kl=1||vilt+1ˉvt+1||2]=1K2×KNk=1pk||vkt+1ˉvt+1||2(())=1KNk=1pk||vkt+1ˉvt+1||2=1KNk=1pk||(vkt+1ˉwt0)(ˉvt+1ˉwt0)||21KNk=1pk||vkt+1ˉwt0||2(Nk=1pk(vkt+1ˉwt0)=ˉvt+1ˉwt0 and E[||XE[X]||2]E[||X||2])=1KNk=1pkE||vkt+1ˉwt0||2(E[X]=E[E[X|Y]])1KNk=1pkE||vkt+1ˉwkt0||21KNk=1pkEti=t0E||ηiFk(wki,ξki)||2(vkt+1=wktηtFk(wkt,ξkt))1KE2η2t0G2(Assumption 4)4Kη2tE2G2(ηt is non-increasing and ηt02ηt)

 

 (ii) 가정에 의하여 p1=p2==pN=1N이므로, (i)과 동일하게 ˉwt+1=1KkStvkt+1=1KKl=1vilt+1이다. 따라서,  ESt[||ˉwt+1ˉvt+1||2]는 다음과 같이 bounded된다. (여기에서, I는 support이다.)

 

ESt[||ˉwt+1ˉvt+1||2]=ESt[||1KiStvit+1ˉvt+1||2]=1K2ESt[iSt||vit+1ˉvt+1||2]=1K2ESt[||Ni=1I{iSt}(vit+1ˉvt+1)||2]=1K2||Ni=1P(iSt)(vit+1ˉvt+1)||2=1K2Ni=1P(iSt)(vit+1ˉvt+1),Ni=1P(iSt)(vit+1ˉvt+1)=1K2[i[N]P(iSt)||vit+1ˉvt+1||2+iji,j[N]P(i,jSt)vit+1ˉvt+1,vjt+1ˉvt+1]=1K2Ni=1KN||vit+1ˉvt+1||2+iji,j[N]K1KN(N1)vit+1ˉvt+1,vjt+1ˉvt+1(P(iSt)=KN and P(i,jSt)=KN×K1N1)=1KNNi=1||vit+1ˉvt+1||2+K1KN(N1)iji,j[N]vit+1ˉvt+1,vjt+1ˉvt+1=1KNNi=1||vit+1ˉvt+1||2+K1KN(N1)×(Ni=1||vit+1ˉvt+1||2)=(1KNK1KN(N1))Ni=1||vit+1ˉvt+1||2=1KN(1K1N1)Ni=1||vit+1ˉvt+1||2=1KN(NKN1)Ni=1||vit+1ˉvt+1||2=1K(N1)(NKN)Ni=1||vit+1ˉvt+1||2=1K(N1)(1KN)Ni=1||vit+1ˉvt+1||2=NK(N1)(1KN)1NNi=1||vit+1ˉvt+1||2=NK(N1)(1KN)E[1N||vit+1ˉvt+1||2](E[X]=E[E[X|Y]])NK(N1)(1KN)4η2tE2G2(the same with (i))=NKN14Kη2tE2G2

 

 따라서, (i)(ii) 모두 성립한다.

 

 다음 포스트에서는 Lemma 4, 5Theorem 1을 이용하여 Theorem 2, 3을 증명하도록 하겠습니다.