일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- PPML
- q-FFL
- 기계학습
- 머신러닝
- Fairness
- q-FedAvg
- FedProx
- deep learning
- Differential Privacy
- FL
- 개인정보
- FedAvg
- OoDD
- data maximization
- Federated Learning
- Analysis
- convergence
- Machine learning
- ordered dropout
- DP
- OSR
- 연합학습
- value shaping
- Federated Transfer Learning
- free rider
- ML
- Open Set Recognition
- 딥러닝
- OOD
- Agnostic FL
- Today
- Total
Federated Learning
[ICLR 2020] q-FFL, q-FedAvg - (2) 본문
논문 제목: Fair Resource Allocation in Federated Learning
출처: https://arxiv.org/abs/1905.10497
지난 포스트에서 q-FFL을 정의한 후, Agnostic FL을 q-FFL의 특수한 case로 볼 수 있다는 것을 확인하였습니다. 그리고 두 model 간의 fairness를 비교하기 위하여, 몇 가지 형태의 uniformity를 정의하였습니다. (이전 글 보기) 이번 포스트에서는 fairness를 비교하는 몇 가지 예시들을 확인해보도록 하겠습니다.
4. Uniformity 비교
시작하기에 앞서, 증명 과정에서의 편의를 위하여 fq(w)를 다시 정의하도록 하겠습니다.
fq(w):=m∑k=1pkq+1Fq+1k(w)⟶fq(w):=(1mm∑k=1Fq+1k(w))1q+1
즉, pk term 대신 1m term을 사용한, unweighted version의 objective function이라고 보시면 됩니다. (1q+1을 지수로 옮긴 것은 ℓ(h(x),y)가 log 값을 가지고, 이들의 합인 Fk(w)도 log로 표현되기 때문입니다.) 앞으로는 이와 같이 정의한 fq(w)를 w에 대하여 minimize하는 task를 수행할 것이며, 이 fq(w)에 대한 global optimum solution을 w∗q로 표기하겠습니다.
Lemma 7
Performance Distribution의 variance에 대한 관점에서 볼 때, q=1이 q=0보다 더욱 fair한 solution을 이끌어낸다. 다시 말해, Var(F1(w∗1),⋯,Fm(w∗1))≤Var(F1(w∗0),⋯,Fm(w∗0))이다.
Proof
w∗0=argminwf0(w), where f0(w)=(1mm∑k=1Fk(w)),w∗1=argminwf1(w), where f1(w)=(1mm∑k=1F2k(w))12
이므로,
m∑k=1F2k(w∗1)≤m∑k=1F2k(w∗0),m∑k=1Fk(w∗1)≥m∑k=1Fk(w∗0)
이다. (†) 따라서,
Var(F1(w∗1),⋯,Fm(w∗1))=∑mk=1F2k(w∗1)m−(1mm∑k=1Fk(w∗1))2(∵Var(X)=E[X2]−(E[X])2)≤∑mk=1F2k(w∗0)m−(1mm∑k=1Fk(w∗1))2(∵(†))≤∑mk=1F2k(w∗0)m−(1mm∑k=1Fk(w∗0))2(∵(†))
이다. ◻
Lemma 8
Performance Distribution과 1 간의 Cosine Similarity에 대한 관점에서 볼 때, q=1이 q=0보다 더욱 fair한 solution을 이끌어낸다. 다시 말해,
1m∑mk=1Fk(w∗1)√1m∑mk=1F2k(w∗1)≥1m∑mk=1Fk(w∗0)√1m∑mk=1F2k(w∗0)
이다.
Proof
Lemma 7의 (†)에 의하여 자명하다. ◻
물론, q=0, q=1일 때에만 이러한 이야기를 할 수 있는 것은 아닙니다. 지금부터는 조금 더 general한 case를 살펴보겠습니다.
Lemma 9
F(w)가 w에 대해서 twice differnetiable하고, ∇2F(w)≻0이라고 가정하자. 이때, 다음이 성립한다:
∂∂p˜H(Fq(w∗p))|p=q≥0
Proof
∂∂p˜H(Fq(w∗p))|p=q=−∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)log(Fqk(w∗p)∑mk=1Fqk(w∗p))|p=q(∵By definition of ˜H(⋅))=−∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)logFqk(w∗p)|p=q+∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)logm∑k=1Fqk(w∗p)|p=q=−∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)logFqk(w∗p)|p=q+∂∂plogm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)∑mk=1Fqk(w∗p)⏟=1|p=q=−∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)logFqk(w∗p)|p=q⏟=:A+∂∂plogm∑k=1Fqk(w∗p)|p=q⏟=:B
여기에서,
A:=−∂∂pm∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)logFqk(w∗p)|p=q=−m∑k=1∂∂p(Fqk(w∗p)∑mk=1Fqk(w∗p)logFqk(w∗p))|p=q=−m∑k=1∂∂p(Fqk(w∗p))logFqk(w∗p)∑mk=1Fqk(w∗p)|p=q−m∑k=1∂∂p(logFqk(w∗p))Fqk(w∗p)∑mk=1Fqk(w∗p)|p=q−m∑k=1∂∂p(1∑mk=1Fqk(w∗p))logFqk(w∗p)Fqk(w∗p)|p=q=−m∑k=1(∂∂pw∗p)T∇Fqk(w∗p)1logFqk(w∗p)∑mk=1Fqk(w∗p)|p=q−m∑k=1(∂∂pw∗p)T∇Fqk(w∗p)Fqk(w∗p)Fqk(w∗p)∑mk=1Fqk(w∗p)|p=q+m∑k=1(∑mk=1∂∂pFqk(w∗p)(∑mk=1Fqk(w∗p))2)logFqk(w∗p)Fqk(w∗p)|p=q=−m∑k=1(∂∂pw∗p)T∇Fqk(w∗p)∑mk=1Fqk(w∗p)(logFqk(w∗p)+1)|p=q+m∑k=1(∑mk=1(∂∂pw∗p)T∇Fqk(w∗p)(∑mk=1Fqk(w∗p))2)logFqk(w∗p)Fqk(w∗p)|p=q⏟=0(∵optimal)=−m∑k=1(∂∂pw∗p|p=q)T∇Fqk(w∗q)∑mk=1Fqk(w∗q)(logFqk(w∗q)+1),B:=∂∂plogm∑k=1Fqk(w∗p)|p=q=∑mk=1(∂∂pw∗p)T∇Fqk(w∗p)∑mk=1Fqk(w∗p)=0(∵optimal)
이므로,
∂∂p˜H(Fq(w∗p))|p=q=A+B=−m∑k=1(∂∂pw∗p|p=q)T∇Fqk(w∗q)∑mk=1Fqk(w∗q)(logFqk(w∗q)+1)
이고 (1), 따라서 ∂∂pw∗p|p=q의 값만 확인하면 된다. 우선, 정의 상 ∑mk=1∇wFpk(w∗p)=0임을 알고 있고, 해당 식의 양변을 p에 대해서 미분해주면 다음과 같은 식을 얻을 수 있다:
0=∂∂p(m∑k=1∇wFpk(w∗p))=m∑k=1∂∂p(∇wFpk(w∗p))=m∑k=1(∇2wFpk(w∗p)∂∂pw∗p+(logFpk(w∗p)+1)∇wFpk(w∗p))(∵∂∂pxp=xplogx)=m∑k=1(∇2wFpk(w∗p)∂∂pw∗p)+m∑k=1(logFpk(w∗p)+1)∇wFpk(w∗p)
따라서, Implicit Function Theorem에 의하여
∂∂pw∗p=−(m∑k=1∇2wFpk(w∗p))−1m∑k=1(logFpk(w∗p)+1)∇wFpk(w∗p)
이며, 여기에 p=q를 대입하여(∂∂pw∗p|p=q)를 구한 후, 이를 (1)에 대입하면 증명이 마무리된다. ◻
Lemma 9가 말하는 것은, p가 고정되었을 때, 임의의 충분히 작은 ϵ>0에 대해서 {Fp1(w∗p+ϵ),⋯,Fp1(w∗p+ϵ)}가 {Fp1(w∗p),⋯,Fpm(w∗p)}보다 Entropy의 관점에서 더욱 uniform하다는 것입니다. 아래의 Lemma 10은 이를 조금 더 generalize한 것으로, 임의의 p,q에 대해서, {Fq1(w∗p+ϵ),⋯,Fqm(w∗p+ϵ)}가 {Fq1(w∗p),⋯,Fq1(w∗p)}보다 Entropy의 관점에서 더욱 uniform하다는 것을 말합니다. 비록 m=2인 case로 한정지어서 이야기하고 있지만, 충분히 임의의 m∈Z>0으로 확장할 수 있습니다.
Lemma 10
F(w)가 w에 대해서 twice differnetiable하고, ∇2F(w)≻0이라고 가정하자. 이때, 임의의 q>0에 대해서, m=2일 경우에 다음이 성립한다:
∂∂p˜H(Fq(w∗p))≥0
Proof
우선, Lemma 9에 의해서 다음 부등식이 성립한다는 것을 알고 있다:
∂∂p˜H(Fq(w∗p))|p=q≥0
여기에서, θq(w)를 다음과 같이 정의하자:
θq(w):=Fq1(w)Fq1(w)+Fq2(w)
이때, 일반성을 잃지 않고, θq(w∗p)∈(0,12]라고 하자. (만약 12를 초과할 경우, F1과 F2를 서로 바꾸어 정의하면 된다.) 정의 상
˜H(Fq(w∗p))|p=q:=−m∑k=1Fqk(w∗p)∑mk=1Fqk(w∗p)log(Fqk(w∗p)∑mk=1Fqk(w∗p))|p=q=−2∑k=1Fqk(w∗p)∑2k=1Fqk(w∗p)log(Fqk(w∗p)∑2k=1Fqk(w∗p))|p=q(∵m=2)=−2∑k=1Fqk(w∗p)Fq1(w∗p)+Fq2(w∗p)log(Fqk(w∗p)Fq1(w∗p)+Fq2(w∗p))|p=q=−Fq1(w∗p)Fq1(w∗p)+Fq2(w∗p)log(Fq1(w∗p)Fq1(w∗p)+Fq2(w∗p))|p=q−Fq2(w∗p)Fq1(w∗p)+Fq2(w∗p)log(Fq2(w∗p)Fq1(w∗p)+Fq2(w∗p))|p=q=−θq(w∗p)logθq(w∗p)|p=q⏟≤0−(1−θq(w∗p))log(1−θq(w∗p))|p=q⏟≤0≥0
이므로, ∂∂pθq(w∗p)|p=q≥0이고, ∂∂p(F1(w∗p)F2(w∗p))q|p=q≥0이다. 또한, 임의의 q>0에 대해서, xq가 x에 관하여 monotonic하다는 것이 보장되므로, ∂∂p(F1(w∗p)F2(w∗p))q≥0이라고 하여도 무방하다. 따라서, ∂∂p˜H(Fq(w∗p))≥0 역시 성립한다. ◻
다음 포스트에서는 서로 다른 uniformity 간의 관계를 살펴본 후, q-FFL의 generalization bounds를 확인하도록 하겠습니다.
'Federated Learning > Papers' 카테고리의 다른 글
[ICLR 2020] q-FFL, q-FedAvg - (4) (0) | 2022.12.07 |
---|---|
[ICLR 2020] q-FFL, q-FedAvg - (3) (0) | 2022.11.30 |
[ICLR 2020] q-FFL, q-FedAvg - (1) (0) | 2022.11.22 |
[ICML 2019] Agnostic FL - (7) (1) | 2022.11.18 |
[ICML 2019] Agnostic FL - (6) (0) | 2022.11.17 |