Federated Learning

[ICLR 2020] q-FFL, q-FedAvg - (2) 본문

Federated Learning/Papers

[ICLR 2020] q-FFL, q-FedAvg - (2)

pseudope 2022. 11. 27. 23:00
728x90

논문 제목: Fair Resource Allocation in Federated Learning

출처: https://arxiv.org/abs/1905.10497

 

 지난 포스트에서 q-FFL을 정의한 후, Agnostic FL을 q-FFL의 특수한 case로 볼 수 있다는 것을 확인하였습니다. 그리고 두 model 간의 fairness를 비교하기 위하여, 몇 가지 형태의 uniformity를 정의하였습니다. (이전 글 보기) 이번 포스트에서는 fairness를 비교하는 몇 가지 예시들을 확인해보도록 하겠습니다.

 

4. Uniformity 비교

 

 시작하기에 앞서, 증명 과정에서의 편의를 위하여 fq(w)를 다시 정의하도록 하겠습니다.

fq(w):=mk=1pkq+1Fq+1k(w)fq(w):=(1mmk=1Fq+1k(w))1q+1

즉, pk term 대신 1m term을 사용한, unweighted version의 objective function이라고 보시면 됩니다. (1q+1을 지수로 옮긴 것은 (h(x),y)log 값을 가지고, 이들의 합인 Fk(w)log로 표현되기 때문입니다.) 앞으로는 이와 같이 정의한 fq(w)w에 대하여 minimize하는 task를 수행할 것이며, 이 fq(w)에 대한 global optimum solution을 wq로 표기하겠습니다.

 

Lemma 7

 

 Performance Distribution의 variance에 대한 관점에서 볼 때, q=1q=0보다 더욱 fair한 solution을 이끌어낸다. 다시 말해, Var(F1(w1),,Fm(w1))Var(F1(w0),,Fm(w0))이다.

 

Proof

w0=argminwf0(w), where f0(w)=(1mmk=1Fk(w)),w1=argminwf1(w), where f1(w)=(1mmk=1F2k(w))12

이므로,

mk=1F2k(w1)mk=1F2k(w0),mk=1Fk(w1)mk=1Fk(w0)

이다. () 따라서,

Var(F1(w1),,Fm(w1))=mk=1F2k(w1)m(1mmk=1Fk(w1))2(Var(X)=E[X2](E[X])2)mk=1F2k(w0)m(1mmk=1Fk(w1))2(())mk=1F2k(w0)m(1mmk=1Fk(w0))2(())

이다.

 

Lemma 8

 

 Performance Distribution과 1 간의 Cosine Similarity에 대한 관점에서 볼 때, q=1q=0보다 더욱 fair한 solution을 이끌어낸다. 다시 말해,

1mmk=1Fk(w1)1mmk=1F2k(w1)1mmk=1Fk(w0)1mmk=1F2k(w0)

이다.

 

Proof

 Lemma 7()에 의하여 자명하다.

 

 물론, q=0, q=1일 때에만 이러한 이야기를 할 수 있는 것은 아닙니다. 지금부터는 조금 더 general한 case를 살펴보겠습니다.

 

Lemma 9

 

  F(w)w에 대해서 twice differnetiable하고, 2F(w)0이라고 가정하자. 이때, 다음이 성립한다:

p˜H(Fq(wp))|p=q0

 

Proof

p˜H(Fq(wp))|p=q=pmk=1Fqk(wp)mk=1Fqk(wp)log(Fqk(wp)mk=1Fqk(wp))|p=q(By definition of ˜H())=pmk=1Fqk(wp)mk=1Fqk(wp)logFqk(wp)|p=q+pmk=1Fqk(wp)mk=1Fqk(wp)logmk=1Fqk(wp)|p=q=pmk=1Fqk(wp)mk=1Fqk(wp)logFqk(wp)|p=q+plogmk=1Fqk(wp)mk=1Fqk(wp)mk=1Fqk(wp)=1|p=q=pmk=1Fqk(wp)mk=1Fqk(wp)logFqk(wp)|p=q=:A+plogmk=1Fqk(wp)|p=q=:B

여기에서,

A:=pmk=1Fqk(wp)mk=1Fqk(wp)logFqk(wp)|p=q=mk=1p(Fqk(wp)mk=1Fqk(wp)logFqk(wp))|p=q=mk=1p(Fqk(wp))logFqk(wp)mk=1Fqk(wp)|p=qmk=1p(logFqk(wp))Fqk(wp)mk=1Fqk(wp)|p=qmk=1p(1mk=1Fqk(wp))logFqk(wp)Fqk(wp)|p=q=mk=1(pwp)TFqk(wp)1logFqk(wp)mk=1Fqk(wp)|p=qmk=1(pwp)TFqk(wp)Fqk(wp)Fqk(wp)mk=1Fqk(wp)|p=q+mk=1(mk=1pFqk(wp)(mk=1Fqk(wp))2)logFqk(wp)Fqk(wp)|p=q=mk=1(pwp)TFqk(wp)mk=1Fqk(wp)(logFqk(wp)+1)|p=q+mk=1(mk=1(pwp)TFqk(wp)(mk=1Fqk(wp))2)logFqk(wp)Fqk(wp)|p=q=0(optimal)=mk=1(pwp|p=q)TFqk(wq)mk=1Fqk(wq)(logFqk(wq)+1),B:=plogmk=1Fqk(wp)|p=q=mk=1(pwp)TFqk(wp)mk=1Fqk(wp)=0(optimal)

이므로,

p˜H(Fq(wp))|p=q=A+B=mk=1(pwp|p=q)TFqk(wq)mk=1Fqk(wq)(logFqk(wq)+1)

이고 (1), 따라서 pwp|p=q의 값만 확인하면 된다. 우선, 정의 상 mk=1wFpk(wp)=0임을 알고 있고, 해당 식의 양변을 p에 대해서 미분해주면 다음과 같은 식을 얻을 수 있다:

0=p(mk=1wFpk(wp))=mk=1p(wFpk(wp))=mk=1(2wFpk(wp)pwp+(logFpk(wp)+1)wFpk(wp))(pxp=xplogx)=mk=1(2wFpk(wp)pwp)+mk=1(logFpk(wp)+1)wFpk(wp)

따라서, Implicit Function Theorem에 의하여

pwp=(mk=12wFpk(wp))1mk=1(logFpk(wp)+1)wFpk(wp)

이며, 여기에 p=q를 대입하여(pwp|p=q)를 구한 후, 이를 (1)에 대입하면 증명이 마무리된다.

 

 Lemma 9가 말하는 것은, p가 고정되었을 때, 임의의 충분히 작은 ϵ>0에 대해서 {Fp1(wp+ϵ),,Fp1(wp+ϵ)}{Fp1(wp),,Fpm(wp)}보다 Entropy의 관점에서 더욱 uniform하다는 것입니다. 아래의 Lemma 10은 이를 조금 더 generalize한 것으로, 임의의 p,q에 대해서, {Fq1(wp+ϵ),,Fqm(wp+ϵ)}{Fq1(wp),,Fq1(wp)}보다 Entropy의 관점에서 더욱 uniform하다는 것을 말합니다. 비록 m=2인 case로 한정지어서 이야기하고 있지만, 충분히 임의의 mZ>0으로 확장할 수 있습니다.

 

Lemma 10

 

  F(w)w에 대해서 twice differnetiable하고, 2F(w)0이라고 가정하자. 이때, 임의의 q>0에 대해서, m=2일 경우에 다음이 성립한다:

p˜H(Fq(wp))0

 

Proof

 우선, Lemma 9에 의해서 다음 부등식이 성립한다는 것을 알고 있다:

p˜H(Fq(wp))|p=q0

여기에서, θq(w)를 다음과 같이 정의하자:
θq(w):=Fq1(w)Fq1(w)+Fq2(w)

이때, 일반성을 잃지 않고, θq(wp)(0,12]라고 하자. (만약 12를 초과할 경우, F1F2를 서로 바꾸어 정의하면 된다.) 정의 상

˜H(Fq(wp))|p=q:=mk=1Fqk(wp)mk=1Fqk(wp)log(Fqk(wp)mk=1Fqk(wp))|p=q=2k=1Fqk(wp)2k=1Fqk(wp)log(Fqk(wp)2k=1Fqk(wp))|p=q(m=2)=2k=1Fqk(wp)Fq1(wp)+Fq2(wp)log(Fqk(wp)Fq1(wp)+Fq2(wp))|p=q=Fq1(wp)Fq1(wp)+Fq2(wp)log(Fq1(wp)Fq1(wp)+Fq2(wp))|p=qFq2(wp)Fq1(wp)+Fq2(wp)log(Fq2(wp)Fq1(wp)+Fq2(wp))|p=q=θq(wp)logθq(wp)|p=q0(1θq(wp))log(1θq(wp))|p=q00

이므로, pθq(wp)|p=q0이고, p(F1(wp)F2(wp))q|p=q0이다. 또한, 임의의 q>0에 대해서, xqx에 관하여 monotonic하다는 것이 보장되므로, p(F1(wp)F2(wp))q0이라고 하여도 무방하다. 따라서, p˜H(Fq(wp))0 역시 성립한다.

 

 다음 포스트에서는 서로 다른 uniformity 간의 관계를 살펴본 후, q-FFL의 generalization bounds를 확인하도록 하겠습니다.

'Federated Learning > Papers' 카테고리의 다른 글

[ICLR 2020] q-FFL, q-FedAvg - (4)  (0) 2022.12.07
[ICLR 2020] q-FFL, q-FedAvg - (3)  (0) 2022.11.30
[ICLR 2020] q-FFL, q-FedAvg - (1)  (0) 2022.11.22
[ICML 2019] Agnostic FL - (7)  (1) 2022.11.18
[ICML 2019] Agnostic FL - (6)  (0) 2022.11.17
Comments