Federated Learning

[ICML 2019] Agnostic FL - (5) 본문

Federated Learning/Papers

[ICML 2019] Agnostic FL - (5)

pseudope 2022. 11. 14. 13:30
728x90

논문 제목: Agnostic Federated Learning

출처: https://arxiv.org/abs/1902.00146

 

 지난 포스트까지 해서 learning guarantee에 관한 내용은 모두 마쳤고, 이번 포스트부터는 objective function의 optimization에 관한 내용을 다루려고 합니다. (이전 글 보기) 지난 포스트의 마지막 부분에서 밝혔듯이, 앞으로는 objective function이 convex하다고 가정합니다. 또한, L¯Dλ(h)=L¯Dconv(λ)(h)임 고려하여 앞으로는 Λ가 convex set이라고 가정하겠습니다.

 

8. Optimization Algorithm 

 

 지금부터는 관습을 따르기 위하여 notation을 일부 고치도록 하겠습니다. 우선, 우리가 해결해야 할 문제는 다음과 같습니다.

minhHmaxλconv(Λ)(L¯Dλ(h)+γ||h||μχ2(λ¯m))

그리고 우리가 조절해야 할 parameter는 hypothesis hH와 mixture weight λΛ, 이렇게 두 가지입니다. 여기에서, h 대신 model의 weight wWRn에 기반하는 것으로 objective function을 다시 정의할 것입니다. (이는 w에 의하여 h가 formation될 것이라는 점을 고려하면 자연스럽습니다.)

L(w,λ):=pk=1λkLk(w), where Lk(w):=1mkmki=1(h(xk,i),yk,i)

즉, w에 해당하는 h에 대하여, L¯Dλ(h)L(w,λ)로, LˆDkLk(w)로 다시 정의된 상황입니다. 추가적으로, regularization term들이 optimization을 하는 데에 있어 영향을 미치지는 않을 것이기 때문에, 이 부분은 잠시 고려하지 않기로 하겠습니다. 그러면 최종적으로 우리가 논의하고자 하는 문제는 다음과 같이 정리되는데, 이는 전형적인 minimax algorithm의 모습입니다.

minwWmaxλΛL(w,λ)

 이 decision rule이 equilibrium에 도달하였을 때의 값을 각각 wW, λΛ라고 정의합시다. 즉, λ는 가장 objective function을 크게 만드는 mixture weight이고, w는 그 objective function을 최소화하는 weight입니다. 이때, λλ로부터 멀어진다면, 당연히 objective function이 갖는 값은 커지게 될 것입니다. 이러한 맥락에서, λΛ의 중심이라고 이야기할 수 있습니다. 또한, w w로부터 멀어질 때에도 마찬가지로 objective function이 갖는 값은 커지게 될 것입니다.

 

 이제, 이러한 setting 하에서 optimization을 수행하도록 하겠습니다. 우선, w에 대한 L의 gradient를 wL(w,λ)로, λ에 대한 L의 gradient를 λL(w,λ)로 denote하겠습니다. 그리고 δwL(w,λ)δλL(w,λ)는 각각 이들의 unbiased estimate라고 합시다. 다시 말해, Eδ[δwL(w,λ)]=wL(w,λ), Eδ[δλL(w,λ)]=λL(w,λ)입니다. 이때, 저자들은 이러한 unbiased estimates에 접근할 수 있다는 가정 하에, STOCHASTIC-AFL이라는 optimization algorithm을 고안하였고, 이에 관한 pseudo code는 오른쪽 그림과 같습니다. (해당 pseudo code에서도 regularization term은 생략되어 있다는 점 참고 바랍니다.)

 

 다음은 convergence analysis를 위한 몇 가지 가정과 notation에 관한 이야기입니다. Convexity를 제외하고는 크게 문제되는 것들이 아니며, 이러한 가정에 기반하여 Theorem 5를 증명할 것입니다.

 

Properties 1

 

 objective function L, weight wW, 그리고 mixture weight λ들의 집합 Λ는 다음 성질을 만족한다:

 

1. [Convexity]

 임의의 λΛ에 대해서, wL(w,λ)는 convex하다.

2. [Compactness]

 maxλΛ||λ||2RΛ, maxwW||w||2RW를 만족하는 RΛ, RW가 존재한다.

3. [Bounded Gradients]

 임의의 wW,λΛ에 대해서, ||wL(w,λ)||2Gw, ||λL(w,λ)||2Gλ를 만족하는 Gw, Gλ가 존재한다.

4. [Stochastic Variance]

 임의의 wW,λΛ에 대해서, E[||δwL(w,λ)wL(w,λ)||22]σ2w, E[||δλL(w,λ)λL(w,λ)||22]σ2λ를 만족하는 σ2w, σ2λ가 존재한다.

5. [Notation]

 UwδwL(w,λ)에 대한 시간복잡도, UλδλL(w,λ)에 대한 시간복잡도, 그리고 Up는 projection에 대한 시간복잡도를 의미한다. 추가적으로, d:=dimW이다.

 

Theorem 5

 

 Properties 1이 성립한다고 가정하자. 그리고 STOCHASTIC-AFL 알고리즘이 반환한 값을 각각 wA, λA라고 하자. 이때, step size γw:=2RWT(σ2w+G2w), γλ:=2RΛT(σ2λ+G2λ)에 대해서, 해당 알고리즘은 다음과 같은 convergence guarantee를 갖는다:

E[maxλΛL(wA,λ)minwWmaxλΛL(w,λ)]3RWσ2w+G2wT+3RΛσ2λ+G2λT

그리고, 해당 알고리즘의 시간복잡도는 O((Uλ+Uw+Up+d+k)T)이다.

 

Proof

 Properties 1에 의하여 Lw에 convex하다. 또한, Lλ에 linear하므로,  Lλ에 concave하기도 하다. 따라서 다음과 같은 부등식이 성립한다:

maxλΛL(wA,λ)minwWmaxλΛL(w,λ)=maxλΛL(wA,λ)maxλΛminwWL(w,λ)(Minimax Theorem)maxλΛ{L(wA,λ)minwWL(w,λA)}(subadditivity of max)=maxλΛwW{L(wA,λ)L(w,λA)}1TmaxλΛwW{Tt=1L(wt,λ)L(w,λt)}=:A(convexity in w and linearity in λ)

 

같은 이유로, 다음이 성립한다:

L(wt,λ)L(w,λt)=L(wt,λ)L(wt,λt)+L(wt,λt)L(w,λt)(λλt)λL(wt,λt)+(wtw)wL(wt,λt))(definition of λ and w)=(λλt)λL(wt,λt)+(wtw)wL(wt,λt))+(λλt)δλL(wt,λt)(λλt)δλL(wt,λt)+(wtw)δwL(wt,λt)(wtw)δwL(wt,λt)=(λλt)δλL(wt,λt)+(wtw)δwL(wt,λt)+(λλt)(λL(wt,λt)δλL(wt,λt))+(wtw)(wL(wt,λt)δwL(wt,λt))=(λλt)δλL(wt,λt)+(wtw)δwL(wt,λt)+λ(λL(wt,λt)δλL(wt,λt))w(wL(wt,λt)δwL(wt,λt))+λt(λL(wt,λt)δλL(wt,λt))wt(wL(wt,λt)δwL(wt,λt))

 

따라서, A는 다음과 같이 세 개의 term으로 bounded되며, 이제부터 각각을 bound할 것이다.

A:=maxλΛwW{Tt=1L(wt,λ)L(w,λt)}maxλΛwWTt=1{(λλt)δλL(wt,λt)+(wtw)δwL(wt,λt)}=:A1+maxλΛwWTt=1{λ(λL(wt,λt)δλL(wt,λt))w(wL(wt,λt)δwL(wt,λt))}=:A2+maxλΛwWTt=1{λt(λL(wt,λt)δλL(wt,λt))wt(wL(wt,λt)δwL(wt,λt))}=:A3

 

 우선, A1을 살펴보자. A1의 왼쪽 term은 다음과 같이 정리된다:

Tt=1(wtw)δwL(wt,λt)=12γwTt=12γw(wtw)δwL(wt,λt)=12γwTt=1[||(wtw)||22+||γwδwL(wt,λt)||22||(wtw)γwδwL(wt,λt)||22](X2+Y2(XY)2=2XY)=12γwTt=1[||(wtw)||22+γ2w||δwL(wt,λt)||22||(wtγwδwL(wt,λt)w||22]12γwTt=1[||(wtw)||22+γ2w||δwL(wt,λt)||22||(wt+1w)||22](wt:=Project(wt1γwδwL(wt1,λt1,W)))=12γwTt=1[||(wtw)||22||(wt+1w)||22]+12γwTt=1γ2w||δwL(wt,λt)||22=12γw[||(w1w)||22||(wT+1w)||22]+γw2Tt=1||δwL(wt,λt)||2212γw||(w1w)||22+γw2Tt=1||δwL(wt,λt)||22=12γw[||w1||222w1w+||w||22]+γw2Tt=1||δwL(wt,λt)||224R2W2γw+γw2Tt=1||δwL(wt,λt)||22(maxwW||w||2RW??????)=2R2Wγw+γw2Tt=1||δwL(wt,λt)L(wt,λt)+L(wt,λt)||22

따라서,

E[maxwWTt=1(wtw)δwL(wt,λt)]E[maxwW(2R2Wγw+γw2Tt=1||δwL(wt,λt)||22)]=E[2R2Wγw]+γw2E[Tt=1||δwL(wt,λt)||22](there is no w term)=2R2Wγw+γw2Tt=1E[||δwL(wt,λt)||22](expectation is linear)=2R2Wγw+γw2Tt=1E[||δwL(wt,λt)L(wt,λt)+L(wt,λt)||22]=2R2Wγw+γw2Tt=1E[||δwL(wt,λt)L(wt,λt)||22]+γw2Tt=1E[(δwL(wt,λt)L(wt,λt))L(wt,λt)]+γw2Tt=1E[||L(wt,λt)||22]((X+Y)2=X2+2XY+Y2)=2R2Wγw+γw2Tt=1E[||δwL(wt,λt)L(wt,λt)||22]+γw2Tt=1E[||L(wt,λt)||22](E[δwL(wt,λt)]=wL(wt,λt))2R2Wγw+γw2×T×σ2w+γw2×T×G2w(Properties 1)=2R2Wγw+γwTσ2w2+TγwG2w2

이며, A1의 오른쪽 term도 동일한 방식으로 다음과 같이 정리된다:

E[maxλΛTt=1(λtλ)δλL(wt,λt)]2R2Λγλ+γλTσ2λ2+TγλG2λ2

 

 다음으로, A2를 살펴보자. A2의 왼쪽 term의 경우, Cauchy-Schwarz inequality에 의하여 다음이 성립한다:

maxλΛ{Tt=1λ(λL(wt,λt)δλL(wt,λt))}maxλΛ{Tt=1||λ||2||λL(wt,λt)δλL(wt,λt)||2}RΛTt=1||λL(wt,λt)δλL(wt,λt)||2(Properties 1)

따라서, 양변에 expectation을 취해주면, 다음 결과를 얻을 수 있다:

E[maxλΛ{Tt=1λ(λL(wt,λt)δλL(wt,λt))}]E[RΛTt=1||λL(wt,λt)δλL(wt,λt)||2]=RΛE[Tt=1||λL(wt,λt)δλL(wt,λt)||2]=RΛE[(Tt=1||λL(wt,λt)δλL(wt,λt)||2)212]RΛ(E[Tt=1||λL(wt,λt)δλL(wt,λt)||22])12(Jensen's inequality)=RΛ([Tt=1E||λL(wt,λt)δλL(wt,λt)||22])12(expectation is linear)RΛTσ2w=RΛTσw

그리고 A2의 오른쪽 term도 동일한 방식으로 다음과 같이 정리된다:

maxwW{Tt=1w(wL(wt,λt)δwL(wt,λt))}RWTσw

 

 마지막으로, A3의 경우, E[δwL(wt,λt)]=wL(wt,λt), E[δλL(wt,λt)]=λL(wt,λt)이므로, expectation을 취하면 0이 된다. 다시 말해, 

E[Tt=1{λt(λL(wt,λt)δλL(wt,λt))wt(wL(wt,λt)δwL(wt,λt))}]=0

이다. 따라서, 위 세 가지를 모두 종합하면 다음과 같은 결론을 얻을 수 있다:

E[maxλΛL(wA,λ)minwWmaxλΛL(w,λ)]E[1TA]1TE[A1]+1TE[A2]+1TE[A3][2R2WTγw+γwσ2w2+γwG2w2]+[2R2ΛTγλ+γλσ2λ2+γλG2λ2]+[RΛσλT]+[RWσwT]+0=2R2WTγw+γw(σ2w+G2w)2+2R2ΛTγλ+γλ(σ2λ+G2λ)2+RΛσλT+RWσwT

위 식에 주어진 step size γw:=2RWT(σ2w+G2w), γλ:=2RΛT(σ2λ+G2λ)를 대입하는 것으로 증명을 마무리한다.

 

 Theorem 5이 보장하는 convergence는 σ2wσ2λ, 즉, stochastic gradient의 variance에 의존하고 있습니다. 다음 포스트에서는 이 stochastic gradient에 관해서 조금 더 자세하게 살펴보도록 하겠습니다.

 

'Federated Learning > Papers' 카테고리의 다른 글

[ICML 2019] Agnostic FL - (7)  (1) 2022.11.18
[ICML 2019] Agnostic FL - (6)  (0) 2022.11.17
[ICML 2019] Agnostic FL - (4)  (0) 2022.11.08
[ICML 2019] Agnostic FL - (3)  (0) 2022.11.07
[ICML 2019] Agnostic FL - (2)  (1) 2022.11.05