일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- value shaping
- FedAvg
- FL
- 연합학습
- data maximization
- Federated Transfer Learning
- Differential Privacy
- deep learning
- free rider
- OSR
- ML
- Agnostic FL
- FedProx
- Machine learning
- Fairness
- OOD
- q-FedAvg
- 기계학습
- 딥러닝
- Open Set Recognition
- ordered dropout
- DP
- 머신러닝
- 개인정보
- Analysis
- OoDD
- q-FFL
- convergence
- Federated Learning
- PPML
- Today
- Total
Federated Learning
[ICLR 2020] q-FFL, q-FedAvg - (3) 본문
논문 제목: Fair Resource Allocation in Federated Learning
출처: https://arxiv.org/abs/1905.10497
지난 포스트에서는 각기 다른 uniformity의 정의를 가지고 두 model 간의 fairness를 비교하는 몇 가지 예시를 확인하였습니다. (이전 글 보기) 이번 포스트에서는 uniformity 간의 관계를 확인해본 후, q-FFL의 generalization bounds를 분석하도록 하겠습니다. (fq(w)는 이전 포스트와 동일하게 unweighted version을 사용할 것입니다.)
5. Uniformity 간의 관계
Lemma 11 [Entropy 관점의 uniformity와 Cosine Distance 관점의 uniformity의 equivalence]
Definition 5의 uniformity와 Definition 6의 uniformity는 서로 동치이다. 더 나아가서, 다음과 같이 (a)와 (b)를 정의하였을 때, (a)⟺(b)이다.
(a): 임의의 p,q∈R에 대해서, ∂∂p˜H(Fq(w∗p))≥0이다.
(b): 임의의 0≤t≤r, 0≤v≤u에 대해서, ft(w∗u)fr(w∗u)≥ft(w∗v)fr(w∗v)이다.
Proof
임의의 0≤t≤r, 0≤v≤u에 대해서, 다음이 성립한다:
ft(w∗u)fr(w∗u)≥ft(w∗v)fr(w∗v)⟺logft(w∗u)fr(w∗u)≥logft(w∗v)fr(w∗v)⟺logft(w∗u)fr(w∗u)−logft(w∗v)fr(w∗v)≥0⟺∫uv∂∂τlogft(w∗τ)fr(w∗τ)dτ≥0⟺∂∂plogft(w∗p)fr(w∗p)≥0 for any p≥0⟺∂∂plogft(w∗p)−∂∂plogfr(w∗p)≥0 for any p≥0⟺∂∂plogfr(w∗p)−∂∂plogft(w∗p)≤0 for any p≥0⟺∫rt∂2∂p∂qlogfq(w∗p)dq≤0 for any p,q≥0⟺∂2∂p∂qlogfq(w∗p)≤0 for any p,q≥0⟺∂∂p(∂∂qlogfq(w∗p))≤0 for any p,q≥0⟺−∂∂p˜H(Fq(w∗p))≤0 for any p,q≥0⟺∂∂p˜H(Fq(w∗p))≥0 for any p,q≥0
여기에서, q=1인 경우가 Definition 6의 uniformity이고, t=0,r=1인 경우가 Definition 5의 uniformity이므로, 이 둘은 동치라고 할 수 있다. ◻
6. Generalization Bounds
이제 q-FFL의 learning bound를 알아보도록 하겠습니다. 그리고 이 bound가 Agnostic FL의 bound를 포함한다는 것도 확인해보겠습니다. 우선, 우리의 objective function을 다음과 같이 정의합니다: (여기에서, λ∈Λ, Dk는 client k가 가진 dataset의 distribution, h∈H는 hypothesis function)
Lλ(h):=m∑k=1λkE(x,y)∼Dk[ℓ(h(x),y)]
그리고 이 Lλ(h)의 estimate ˆLλ(h)를 다음과 같이 정의합니다: (여기에서, nk는 client k가 가진 data의 개수이며, (xk,j,yk,j)∼Dk입니다.)
ˆLλ(h):=m∑k=1λknknk∑j=1ℓ(h(xk,j),yk,j)
이러한 상황에서 minwfq(w)를 수행할 것인데, 이는 1p+1q+1=1를 만족시키는 p에 대해서 (위의 표현을 빌려)
˜Lq(h):=maxν,||ν||p≤1m∑k=1νknknk∑j=1ℓ(h(xk,j,yk,j))
를 minimize하는 것과 동치입니다.
아래의 Lemma에 대한 자세한 증명 과정은 Agnostic FL의 Theorem 2를 참고 바랍니다. (바로가기) (†)
Lemma 12
loss ℓ이 M>0으로 bounded되어 있고, m개의 client가 각각 (n1,⋯,nm)개의 local data를 가지고 있다고 가정하자. 이때, 임의의 δ>0,λ∈Λ,h∈H에 대해서, 적어도 (1−δ)의 확률로 다음 부등식이 성립한다:
Lλ(h)≤Aq(λ)˜Lq(h)+E[maxh∈H(Lλ(h)−ˆLλ(h))]+M√m∑k=1λ2k2nklog1δ
(단, Aq(λ):=||λ||p이고, 1p+1q+1=1이다.)
Proof
(†)와 동일한 전개에 의하여, 다음 부등식이 성립한다: (1)
Lλ(h)≤ˆLλ(h)+E[maxh∈H(Lλ(h)−ˆLλ(h))]+M√m∑k=1λ2k2nklog1δ
따라서, ˆLλ(h) term에 대해서만 살펴보아도 충분하다. 이때,
ˆLλ(h):=m∑k=1λknknk∑j=1ℓ(h(xk,j),yk,j)=m∑k=1λkFk(∵Definition of Fk)≤(m∑k=1λmk)1p(m∑k=1Fq+1k)1q+1(∵Hölder's inequiality with 1p+1q+1=1)=||λ||p||Fk||q+1=Aq(λ)˜Lq(h)
이므로, 이를 다시 (1)에 대입하면 증명이 마무리된다. ◻
Lemma 12는 특정 λ∈Λ에 대한 bound만을 보장해주며, 임의의 λ∈Λ로 이를 확장하기 위해서는 아래의 Lemma 13이 필요합니다. 다만, 너무나도 자명하므로 증명은 생략합니다.
Lemma 13
loss ℓ이 M>0으로 bounded되어 있고, m개의 client가 각각 (n1,⋯,nm)개의 local data를 가지고 있다고 가정하자. 이때, 임의의 δ>0,λ∈Λ,h∈H에 대해서, 적어도 (1−δ)의 확률로 다음 부등식이 성립한다:
Lλ(h)≤maxλ∈Λ(Aq(λ))˜Lq(h)+maxλ∈Λ(E[maxh∈H(Lλ(h)−ˆLλ(h))]+M√m∑k=1λ2k2nklog1δ)
(단, Aq(λ):=||λ||p이고, 1p+1q+1=1이다.)
Lemma 12, 13에서 만약 q→∞라면, 1p+1q+1=1이므로 p=1이고, 따라서 Aq(λ):=||λ||p=∑mk=1|λk|=1입니다. 그러므로 우리는 q-FFL의 generalization bounds가 Agnostic FL의 generalization bounds를 cover한다고 이야기할 수 있습니다. 다음 포스트에서는 q-FFL의 solver인 q-FedAvg에 관하여 알아보겠습니다.
'Federated Learning > Papers' 카테고리의 다른 글
[ICLR 2020] q-FFL, q-FedAvg - (5) (0) | 2022.12.12 |
---|---|
[ICLR 2020] q-FFL, q-FedAvg - (4) (0) | 2022.12.07 |
[ICLR 2020] q-FFL, q-FedAvg - (2) (0) | 2022.11.27 |
[ICLR 2020] q-FFL, q-FedAvg - (1) (0) | 2022.11.22 |
[ICML 2019] Agnostic FL - (7) (1) | 2022.11.18 |