Federated Learning

[CCS 2016] Deep Learning with DP - (3) 본문

Privacy Preserving/Papers

[CCS 2016] Deep Learning with DP - (3)

pseudope 2022. 9. 26. 13:30
728x90

논문 제목: Deep Learning with Differential Privacy

출처: https://arxiv.org/abs/1607.00133

 

 지난 포스트에서 DPSGD의 작동 방식을 확인하고, privacy cost를 계산하는 기법 중 하나인 Moments Accountant를 알아보았습니다. (이전 글 보기) 이번 포스트에서는 이 Moments Accountant를 조금 더 엄밀하게 살펴보도록 하겠습니다.

 

4. Moments Accountant - 이어서

 

 우선, 이웃한 두 database d,dDn, mechanism M, 부가적인 정보 Aux, M의 output oR에 대해서, M의 privacy loss c를 다음과 같이 정의합니다. (이는 DP의 정의로부터 자연스럽습니다.)

c(o;M,Aux,d,d):=logPr[M(Aux,d)=o]Pr[M(Aux,d)=o]

여기에서, 각 step을 Mi로 생각할 때, Aux는 이전 step의 output들, 즉, o1,,oi1이 될 것입니다. (물론, M1에서는 Aux를 고려하지 않아도 좋습니다.) 그리고 이러한 c는 random noise에 dependent한 random variable입니다. 우리는 이러한 확률변수 c에 대한 moment의 log값인 αM를 정의할 수 있습니다.

αM(λ;aux,d,d):=logEoM(aux,d)[eλc(o;M,aux,d,d)]

그리고 가능한 모든 dd에 대하여 αM(λ;aux,d,d)을 bound할 수 있는 αM(λ):=maxaux,d,dαM(λ;aux,d,d)를 정의합니다. 이때, 다음 Theorem 2각 step마다 c의 log moment를 bound하는 것만으로 1 epoch의 model 학습 과정 전체의 (ϵ,δ)를 보장할 수 있다고 이야기합니다. (이때, 굳이 moment의 log 값을 사용하는 이유는, moment 값을 바로 사용할 경우 bound가 매우 loose해지기 때문이라고 합니다.)

 

Theorem 2

 앞서 정의한 αM(λ)에 대하여, 다음이 성립한다.

 

1. [Composability]

 Mi:i=1j=1Rj×DRi일 때, mechanisam MM1,M2,,Mk로 구성되어 있다고 가정하자. 그러면 임의의 λ에 대하여,  αM(λ)ki=1αMi(λ)이다.

 

2. [Tail Bound]

 임의의 ϵ>0에 대하여, 만약 δ=minλe(αM(λ)λϵ)으로 δ를 지정한다면, M(ϵ,δ)-DP를 만족한다.

 

Proof

1. [Composability]

M1:i:=(M1,M2,,Mi), o1:i:=(o1,o2,,oi)로 정의하자. 그러면

c(o1:k;M1:k1,o1:k,d,d)=logPr[M(o1:k1,d)=o1:k]Pr[M(o1:k1,d)=o1:k]=logki=1Pr[M(d)=oiM1:(i1)(d)=o1:(i1)]Pr[M(d)=oiM1:(i1)(d)=o1:(i1)]=ki=1logPr[M(d)=oiM1:(i1)(d)=o1:(i1)]Pr[M(d)=oiM1:(i1)(d)=o1:(i1)]=ki=1c(oi;Mi,o1:(i1),d,d)

이므로, 다음을 얻을 수 있다.

Eo1:kM1:k(d)[exp(λc(o1:k;M1:k,d,d))oi=o for all i<k]=Eo1:kM1:k(d)[exp(λki=1c(oi;Mi,o1:(i1),d,d))]=Eo1:kM1:k(d)[ki=1exp(λc(oi;Mi,o1:(i1),d,d))]=ki=1Eo1:kM1:k(d)[exp(λc(oi;Mi,o1:(i1),d,d))]=ki=1exp(αMi(λ;o1:(i1),d,d))(αM(λ;aux,d,d)=logEoM(aux,d)[eλc(o;M,aux,d,d)])=exp(ki=1(αMi(λ;o1:(i1),d,d)))

따라서, ki=1αMi(λ)αM(λ)의 upper bound임을 알 수 있다.

 

2. [Tail Bound]

 Markov's inequality에 의하여 다음이 성립한다. (1)

ProM(d)[c(o)ϵ]=ProM(d)[eλc(o)eλϵ](λ>0)EoM(d)[eλc(o)]eλϵ( Markov's Inequality)eαM(λ)eλϵ=eαM(λ)λϵ

따라서, B:={oc(o)ϵ}로 정의할 때, 임의의 S에 대해서

Pr[M(d)S]=Pr[M(d)SBC]+Pr[M(d)SB]eϵPr[M(d)SBC]+Pr[M(d)SB](ϵ-DP)eϵPr[M(d)S]+Pr[M(d)B](SBCS,SBB)eϵPr[M(d)S]+eαM(λ)λϵ((1))

이고, 그러므로 δ:=minλe(αM(λ)λϵ)δ를 지정할 경우 M(ϵ,δ)-DP를 만족한다.

 

 Theorem 2.1 덕분에, 우리는 model 전체의 privacy cost를 고려하지 않아도 됩니다. 그 대신에, αMi(λ)를 매 Mi(즉, 모든 step)마다 bound한 후, 이들을 모두 더하는 방법을 택할 것입니다. 그러면 Theorem 2.2에 의하여 M(ϵ,δ)-DP가 보장됩니다. 그렇다면, 이제 남은 부분은 αMi(λ)를 bound할 수 있는 방법을 찾는 것인데, 이에 관한 이야기는 다음 포스트에서 계속 하도록 하겠습니다. 이 이야기가 마무리되면, 잠시 뒤로 미루어놓았던 Theorem 1의 증명을 할 수 있고, 그 이후로 machine learning model들에 마음껏 DP를 사용할 수 있게 될 것입니다.

Comments