일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Fairness
- PPML
- q-FedAvg
- q-FFL
- 연합학습
- Agnostic FL
- Open Set Recognition
- free rider
- Federated Transfer Learning
- OoDD
- 기계학습
- convergence
- 딥러닝
- ordered dropout
- FedProx
- deep learning
- OSR
- ML
- Federated Learning
- DP
- 개인정보
- OOD
- Analysis
- value shaping
- FL
- data maximization
- Differential Privacy
- FedAvg
- 머신러닝
- Machine learning
- Today
- Total
Federated Learning
[ICLR 2020] q-FFL, q-FedAvg - (1) 본문
논문 제목: Fair Resource Allocation in Federated Learning
출처: https://arxiv.org/abs/1905.10497
Agnostic FL이 나름대로 Fairness를 FL 분야로 끌어오기는 했으나, 아직은 부족한 부분이 많았습니다. (이전 글 보기) 문제가 되는 부분은 크게 두 가지였는데, 하나는 학습에 참여하는 client가 많아지면 학습이 어려워진다는 것, 다른 하나는 Agnostic FL이 "가장 성능이 낮은" 한 가지 client의 성능을 높일 수는 있어도, 그 외의 client에게는 유의미한 보정을 해줄 수 없다는 것이었습니다. 이번에는 이 두 가지를 해결하려고 시도한 paper를 살펴보도록 하겠습니다.
1. α-fairness
α-fairness라는 개념은 network 분야의 resource allocation에서 사용되던 개념입니다. 임의의 사용자에게 x에 해당하는 resource(예를 들어 주파수 대역 등)가 allocated되었을 때, 해당 사용자의 individual utility를 다음과 같이 정의합니다:
Uα(x)={ln(x)if α=111−αx1−αif 0<α<1 or α>1
여기에서, 우리의 목표는 모든 사용자가 가지는 utility의 총합, 즉, ∑xUα(x)를 최대한 키울 수 있는 α≥0를 찾는 것입니다. 이때, 만약 α=0이라면, Uα(x)=x이므로 별 다른 조치가 취해지지 않게 되고, 따라서 이 경우를 zero fairness라고 이야기하겠습니다. 이외에도 몇몇 α들에 대하여 fairness에 이름이 붙어있는데, α=1인 경우를 proportional fairness, α=2인 경우를 harmonic mean fairness, 그리고 α=∞인 경우를 max-min fairness라고 부릅니다.
2. q-Fair Federated Learning (q-FFL)
저자들이 제안하는 학습 방식인 q-FFL은 α-fairness의 개념에 기반한 것인데, 그저 각 client의 utility를 각 client의 loss로 대체한 것뿐입니다. 다만, utility는 클수록 좋은 것이지만 loss는 작을수록 좋은 것이기 때문에, 합을 maximize하는 것이 아니라 minimize한다는 점, max-min fairness 대신 min-max fairness를 정의한다는 점 정도의 차이가 존재합니다. α-fairness를 FL의 언어로 다시 써본, q-FFL의 objective function은 다음과 같습니다: (여기에서, m은 학습에 참여하는 총 client의 수, nk는 client k가 가진 data의 개수, pk는 client k에 대한 가중치입니다. 이때, pk≥0이고, ∑mk=1pk=1입니다. 그리고 q≥0은 hyperparameter이며, Fq+1k(⋅):=(Fk(⋅))q+1입니다.)
fq(w):=m∑k=1pkq+1Fq+1k(w), where Fk(w):=1nknk∑jk=1ℓjk(w)
위 식에서, 만약 q=0이라면, 아래와 같이 FedSGD / FedAVG의 모습을 나타냅니다. 이는 α-fairness에서도 그러하였듯이 zero fairness에 해당하는 상황입니다.
f0(w)=m∑k=1pkFk(w)
그리고 만약 q>0라면, fairness를 보장하기 위하여 어떠한 조치가 취해지고 있는 상황인 것이고, q가 커질수록 더 높은 수준의 fairness가 강제되고 있음을 의미합니다. 더 나아가, 만일 q=∞라면, 가장 큰 loss를 보이는 특정 한 client에 대해서 optimization이 수행될 것이기 때문에, (α-fairness에서의 max-min fairness 대신) min-max fairness에 해당하는 상황이 펼쳐질 것이며, 이는 정확히 이전 review에서 살펴본 Agnostic FL에 해당합니다. 즉, q-FFL은 Agnostic FL의 generalization입니다. hyperparameter q를 사용하여 fairness와 accuracy 사이의 trade-off를 조절하게 만든 것이죠. (이는 α 값을 조절하여 fairness와 utility 사이의 trade-off를 조절하는 α-fairness의 개념과 일맥상통합니다.)
3. q-FFL의 uniformity
다음은 두 model 간의 uniformity를 비교하기 위한 몇 가지 definition입니다.
Definition 1 [Fairness of the Performance Distribution]
두 개의 model w, ˜w와 m개의 device가 존재할 때, 만약 m개의 device에 대한 performance가 ˜w보다 w에서 더욱 uniform한 distribution을 보인다면, w가 ˜w보다 더 "fair"한 solution이라고 부르기로 약속하자.
Definition 4 [Uniformity 1: Variance of the Performance Distribution]
만약 Var(F1(w),⋯,Fm(w))<Var(F1(w′),⋯,Fm(w′))이라면, w′보다 w에서 m개의 device들이 가지는 performance distribution {F1(w),⋯,Fm(w)}이 더욱 uniform하다고 정의한다.
Definition 5 [Uniformity 2: Cosine Similarity between the Performance Distribution and 1]
만약 {F1(w),⋯,Fm(w)}과 1 사이의 cosine similarity가 {F1(w′),⋯,Fm(w′)}과 1 사이의 cosine similarity보다 크거나 같다면 즉,
1m∑mk=1Fk(w)√1m∑mk=1F2k(w)≥1m∑mk=1Fk(w′)√1m∑mk=1F2k(w′)
이라면, w′보다 w에서 m개의 device들이 가지는 performance distribution {F1(w),⋯,Fm(w)}이 더욱 uniform하다고 정의한다.
Definition 6 [Uniformity 3: Entropy the Performance Distribution]
˜H(F(w))를 performance distribution {F1(w),⋯,Fm(w)}를 normarlize한 것에 대한 entropy로 정의하자. 즉,
˜H(F(w)):=−m∑k=1Fk(w)∑mk=1Fk(w)log(Fk(w)∑mk=1Fk(w))
일 때, 만약 ˜H(F(w))≥˜H(F(w′))이라면, w′보다 w에서 m개의 device들이 가지는 performance distribution이 더욱 uniform하다고 정의한다.
Definition 1에서 "performance"에 해당하는 metric으로는 다양한 것들이 있겠으나, 해당 paper는 test accuracy를 기준으로 삼고 있습니다. 따라서, 별도의 언급이 있지 않는 한, performance ≡ test accuracy로 받아들이시면 됩니다. 또한, Definition 1에 의하여, Definition 4 ~ 6의 "w′보다 w에서 m개의 device들이 가지는 performance distribution이 더욱 uniform하다"를 "w′보다 w가 더 fair한 solution이다"로 바꾸어 표현하여도 좋습니다. 다음 포스트에서는 위 definition들을 가지고 몇 가지 lemma를 확인해보도록 하겠습니다.
'Federated Learning > Papers' 카테고리의 다른 글
[ICLR 2020] q-FFL, q-FedAvg - (3) (0) | 2022.11.30 |
---|---|
[ICLR 2020] q-FFL, q-FedAvg - (2) (0) | 2022.11.27 |
[ICML 2019] Agnostic FL - (7) (1) | 2022.11.18 |
[ICML 2019] Agnostic FL - (6) (0) | 2022.11.17 |
[ICML 2019] Agnostic FL - (5) (0) | 2022.11.14 |