일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 딥러닝
- DP
- Differential Privacy
- 기계학습
- 머신러닝
- convergence
- free rider
- Federated Transfer Learning
- FL
- FedProx
- OSR
- Analysis
- 개인정보
- q-FFL
- q-FedAvg
- Agnostic FL
- Machine learning
- ordered dropout
- FedAvg
- OoDD
- 연합학습
- deep learning
- data maximization
- ML
- value shaping
- PPML
- Open Set Recognition
- OOD
- Fairness
- Federated Learning
- Today
- Total
Federated Learning
[ICML 2019] Agnostic FL - (5) 본문
논문 제목: Agnostic Federated Learning
출처: https://arxiv.org/abs/1902.00146
지난 포스트까지 해서 learning guarantee에 관한 내용은 모두 마쳤고, 이번 포스트부터는 objective function의 optimization에 관한 내용을 다루려고 합니다. (이전 글 보기) 지난 포스트의 마지막 부분에서 밝혔듯이, 앞으로는 objective function이 convex하다고 가정합니다. 또한, L¯Dλ(h)=L¯Dconv(λ)(h)임 고려하여 앞으로는 Λ가 convex set이라고 가정하겠습니다.
8. Optimization Algorithm
지금부터는 관습을 따르기 위하여 notation을 일부 고치도록 하겠습니다. 우선, 우리가 해결해야 할 문제는 다음과 같습니다.
minh∈Hmaxλ∈conv(Λ)(L¯Dλ(h)+γ||h||−μχ2(λ∥¯m))
그리고 우리가 조절해야 할 parameter는 hypothesis h∈H와 mixture weight λ∈Λ, 이렇게 두 가지입니다. 여기에서, h 대신 model의 weight w∈W⊂Rn에 기반하는 것으로 objective function을 다시 정의할 것입니다. (이는 w에 의하여 h가 formation될 것이라는 점을 고려하면 자연스럽습니다.)
L(w,λ):=p∑k=1λkLk(w), where Lk(w):=1mkmk∑i=1ℓ(h(xk,i),yk,i)
즉, w에 해당하는 h에 대하여, L¯Dλ(h)가 L(w,λ)로, LˆDk가 Lk(w)로 다시 정의된 상황입니다. 추가적으로, regularization term들이 optimization을 하는 데에 있어 영향을 미치지는 않을 것이기 때문에, 이 부분은 잠시 고려하지 않기로 하겠습니다. 그러면 최종적으로 우리가 논의하고자 하는 문제는 다음과 같이 정리되는데, 이는 전형적인 minimax algorithm의 모습입니다.
minw∈Wmaxλ∈ΛL(w,λ)

이 decision rule이 equilibrium에 도달하였을 때의 값을 각각 w∗∈W, λ∗∈Λ라고 정의합시다. 즉, λ∗는 가장 objective function을 크게 만드는 mixture weight이고, w∗는 그 objective function을 최소화하는 weight입니다. 이때, λ가 λ∗로부터 멀어진다면, 당연히 objective function이 갖는 값은 커지게 될 것입니다. 이러한 맥락에서, λ∗는 Λ의 중심이라고 이야기할 수 있습니다. 또한, w가 w∗로부터 멀어질 때에도 마찬가지로 objective function이 갖는 값은 커지게 될 것입니다.

이제, 이러한 setting 하에서 optimization을 수행하도록 하겠습니다. 우선, w에 대한 L의 gradient를 ∇wL(w,λ)로, λ에 대한 L의 gradient를 ∇λL(w,λ)로 denote하겠습니다. 그리고 δwL(w,λ)와 δλL(w,λ)는 각각 이들의 unbiased estimate라고 합시다. 다시 말해, Eδ[δwL(w,λ)]=∇wL(w,λ), Eδ[δλL(w,λ)]=∇λL(w,λ)입니다. 이때, 저자들은 이러한 unbiased estimates에 접근할 수 있다는 가정 하에, STOCHASTIC-AFL이라는 optimization algorithm을 고안하였고, 이에 관한 pseudo code는 오른쪽 그림과 같습니다. (해당 pseudo code에서도 regularization term은 생략되어 있다는 점 참고 바랍니다.)
다음은 convergence analysis를 위한 몇 가지 가정과 notation에 관한 이야기입니다. Convexity를 제외하고는 크게 문제되는 것들이 아니며, 이러한 가정에 기반하여 Theorem 5를 증명할 것입니다.
Properties 1
objective function L, weight w∈W, 그리고 mixture weight λ들의 집합 Λ는 다음 성질을 만족한다:
1. [Convexity]
임의의 λ∈Λ에 대해서, w↦L(w,λ)는 convex하다.
2. [Compactness]
maxλ∈Λ||λ||2≤RΛ, maxw∈W||w||2≤RW를 만족하는 RΛ, RW가 존재한다.
3. [Bounded Gradients]
임의의 w∈W,λ∈Λ에 대해서, ||∇wL(w,λ)||2≤Gw, ||∇λL(w,λ)||2≤Gλ를 만족하는 Gw, Gλ가 존재한다.
4. [Stochastic Variance]
임의의 w∈W,λ∈Λ에 대해서, E[||δwL(w,λ)−∇wL(w,λ)||22]≤σ2w, E[||δλL(w,λ)−∇λL(w,λ)||22]≤σ2λ를 만족하는 σ2w, σ2λ가 존재한다.
5. [Notation]
Uw는 δwL(w,λ)에 대한 시간복잡도, Uλ는 δλL(w,λ)에 대한 시간복잡도, 그리고 Up는 projection에 대한 시간복잡도를 의미한다. 추가적으로, d:=dimW이다.
Theorem 5
Properties 1이 성립한다고 가정하자. 그리고 STOCHASTIC-AFL 알고리즘이 반환한 값을 각각 wA, λA라고 하자. 이때, step size γw:=2RW√T(σ2w+G2w), γλ:=2RΛ√T(σ2λ+G2λ)에 대해서, 해당 알고리즘은 다음과 같은 convergence guarantee를 갖는다:
E[maxλ∈ΛL(wA,λ)−minw∈Wmaxλ∈ΛL(w,λ)]≤3RW√σ2w+G2w√T+3RΛ√σ2λ+G2λ√T
그리고, 해당 알고리즘의 시간복잡도는 O((Uλ+Uw+Up+d+k)T)이다.
Proof
Properties 1에 의하여 L은 w에 convex하다. 또한, L은 λ에 linear하므로, L은 λ에 concave하기도 하다. 따라서 다음과 같은 부등식이 성립한다:
maxλ∈ΛL(wA,λ)−minw∈Wmaxλ∈ΛL(w,λ)=maxλ∈ΛL(wA,λ)−maxλ∈Λminw∈WL(w,λ)(∵Minimax Theorem)≤maxλ∈Λ{L(wA,λ)−minw∈WL(w,λA)}(∵subadditivity of max)=maxλ∈Λw∈W{L(wA,λ)−L(w,λA)}≤1Tmaxλ∈Λw∈W{T∑t=1L(wt,λ)−L(w,λt)}⏟=:A(∵convexity in w and linearity in λ)
같은 이유로, 다음이 성립한다:
L(wt,λ)−L(w,λt)=L(wt,λ)−L(wt,λt)+L(wt,λt)−L(w,λt)≤(λ−λt)∇λL(wt,λt)+(wt−w)∇wL(wt,λt))(∵definition of ∇λ and ∇w)=(λ−λt)∇λL(wt,λt)+(wt−w)∇wL(wt,λt))+(λ−λt)δλL(wt,λt)−(λ−λt)δλL(wt,λt)+(wt−w)δwL(wt,λt)−(wt−w)δwL(wt,λt)=(λ−λt)δλL(wt,λt)+(wt−w)δwL(wt,λt)+(λ−λt)(∇λL(wt,λt)−δλL(wt,λt))+(wt−w)(∇wL(wt,λt)−δwL(wt,λt))=(λ−λt)δλL(wt,λt)+(wt−w)δwL(wt,λt)+λ(∇λL(wt,λt)−δλL(wt,λt))−w(∇wL(wt,λt)−δwL(wt,λt))+λt(∇λL(wt,λt)−δλL(wt,λt))−wt(∇wL(wt,λt)−δwL(wt,λt))
따라서, A는 다음과 같이 세 개의 term으로 bounded되며, 이제부터 각각을 bound할 것이다.
A:=maxλ∈Λw∈W{T∑t=1L(wt,λ)−L(w,λt)}≤maxλ∈Λw∈WT∑t=1{(λ−λt)δλL(wt,λt)+(wt−w)δwL(wt,λt)}⏟=:A1+maxλ∈Λw∈WT∑t=1{λ(∇λL(wt,λt)−δλL(wt,λt))−w(∇wL(wt,λt)−δwL(wt,λt))}⏟=:A2+maxλ∈Λw∈WT∑t=1{λt(∇λL(wt,λt)−δλL(wt,λt))−wt(∇wL(wt,λt)−δwL(wt,λt))}⏟=:A3
우선, A1을 살펴보자. A1의 왼쪽 term은 다음과 같이 정리된다:
T∑t=1(wt−w)δwL(wt,λt)=12γwT∑t=12γw(wt−w)δwL(wt,λt)=12γwT∑t=1[||(wt−w)||22+||γwδwL(wt,λt)||22−||(wt−w)−γwδwL(wt,λt)||22](∵X2+Y2−(X−Y)2=2XY)=12γwT∑t=1[||(wt−w)||22+γ2w||δwL(wt,λt)||22−||(wt−γwδwL(wt,λt)−w||22]≤12γwT∑t=1[||(wt−w)||22+γ2w||δwL(wt,λt)||22−||(wt+1−w)||22](∵wt:=Project(wt−1−γwδwL(wt−1,λt−1,W)))=12γwT∑t=1[||(wt−w)||22−||(wt+1−w)||22]+12γwT∑t=1γ2w||δwL(wt,λt)||22=12γw[||(w1−w)||22−||(wT+1−w)||22]+γw2T∑t=1||δwL(wt,λt)||22≤12γw||(w1−w)||22+γw2T∑t=1||δwL(wt,λt)||22=12γw[||w1||22−2w1⋅w+||w||22]+γw2T∑t=1||δwL(wt,λt)||22≤4R2W2γw+γw2T∑t=1||δwL(wt,λt)||22(∵maxw∈W||w||2≤RW??????)=2R2Wγw+γw2T∑t=1||δwL(wt,λt)−∇L(wt,λt)+∇L(wt,λt)||22
따라서,
E[maxw∈WT∑t=1(wt−w)δwL(wt,λt)]≤E[maxw∈W(2R2Wγw+γw2T∑t=1||δwL(wt,λt)||22)]=E[2R2Wγw]+γw2E[T∑t=1||δwL(wt,λt)||22](∵there is no w term)=2R2Wγw+γw2T∑t=1E[||δwL(wt,λt)||22](∵expectation is linear)=2R2Wγw+γw2T∑t=1E[||δwL(wt,λt)−∇L(wt,λt)+∇L(wt,λt)||22]=2R2Wγw+γw2T∑t=1E[||δwL(wt,λt)−∇L(wt,λt)||22]+γw2T∑t=1E[(δwL(wt,λt)−∇L(wt,λt))⋅∇L(wt,λt)]+γw2T∑t=1E[||∇L(wt,λt)||22](∵(X+Y)2=X2+2XY+Y2)=2R2Wγw+γw2T∑t=1E[||δwL(wt,λt)−∇L(wt,λt)||22]+γw2T∑t=1E[||∇L(wt,λt)||22](∵E[δwL(wt,λt)]=∇wL(wt,λt))≤2R2Wγw+γw2×T×σ2w+γw2×T×G2w(∵Properties 1)=2R2Wγw+γwTσ2w2+TγwG2w2
이며, A1의 오른쪽 term도 동일한 방식으로 다음과 같이 정리된다:
E[maxλ∈ΛT∑t=1(λt−λ)δλL(wt,λt)]≤2R2Λγλ+γλTσ2λ2+TγλG2λ2
다음으로, A2를 살펴보자. A2의 왼쪽 term의 경우, Cauchy-Schwarz inequality에 의하여 다음이 성립한다:
maxλ∈Λ{T∑t=1λ(∇λL(wt,λt)−δλL(wt,λt))}≤maxλ∈Λ{T∑t=1||λ||2⋅||∇λL(wt,λt)−δλL(wt,λt)||2}≤RΛT∑t=1||∇λL(wt,λt)−δλL(wt,λt)||2(∵Properties 1)
따라서, 양변에 expectation을 취해주면, 다음 결과를 얻을 수 있다:
E[maxλ∈Λ{T∑t=1λ(∇λL(wt,λt)−δλL(wt,λt))}]≤E[RΛT∑t=1||∇λL(wt,λt)−δλL(wt,λt)||2]=RΛ⋅E[T∑t=1||∇λL(wt,λt)−δλL(wt,λt)||2]=RΛ⋅E[(T∑t=1||∇λL(wt,λt)−δλL(wt,λt)||2)2⋅12]≤RΛ⋅(E[T∑t=1||∇λL(wt,λt)−δλL(wt,λt)||22])12(∵Jensen's inequality)=RΛ⋅([T∑t=1E||∇λL(wt,λt)−δλL(wt,λt)||22])12(∵expectation is linear)≤RΛ√Tσ2w=RΛ√Tσw
그리고 A2의 오른쪽 term도 동일한 방식으로 다음과 같이 정리된다:
maxw∈W{T∑t=1w(∇wL(wt,λt)−δwL(wt,λt))}≤RW√Tσw
마지막으로, A3의 경우, E[δwL(wt,λt)]=∇wL(wt,λt), E[δλL(wt,λt)]=∇λL(wt,λt)이므로, expectation을 취하면 0이 된다. 다시 말해,
E[T∑t=1{λt(∇λL(wt,λt)−δλL(wt,λt))−wt(∇wL(wt,λt)−δwL(wt,λt))}]=0
이다. 따라서, 위 세 가지를 모두 종합하면 다음과 같은 결론을 얻을 수 있다:
E[maxλ∈ΛL(wA,λ)−minw∈Wmaxλ∈ΛL(w,λ)]≤E[1TA]≤1TE[A1]+1TE[A2]+1TE[A3]≤[2R2WTγw+γwσ2w2+γwG2w2]+[2R2ΛTγλ+γλσ2λ2+γλG2λ2]+[RΛσλ√T]+[RWσw√T]+0=2R2WTγw+γw(σ2w+G2w)2+2R2ΛTγλ+γλ(σ2λ+G2λ)2+RΛσλ√T+RWσw√T
위 식에 주어진 step size γw:=2RW√T(σ2w+G2w), γλ:=2RΛ√T(σ2λ+G2λ)를 대입하는 것으로 증명을 마무리한다. ◻
Theorem 5이 보장하는 convergence는 σ2w와 σ2λ, 즉, stochastic gradient의 variance에 의존하고 있습니다. 다음 포스트에서는 이 stochastic gradient에 관해서 조금 더 자세하게 살펴보도록 하겠습니다.
'Federated Learning > Papers' 카테고리의 다른 글
[ICML 2019] Agnostic FL - (7) (1) | 2022.11.18 |
---|---|
[ICML 2019] Agnostic FL - (6) (0) | 2022.11.17 |
[ICML 2019] Agnostic FL - (4) (0) | 2022.11.08 |
[ICML 2019] Agnostic FL - (3) (0) | 2022.11.07 |
[ICML 2019] Agnostic FL - (2) (1) | 2022.11.05 |