Federated Learning

[AAAI 2022] SplitFed - (3) 본문

Federated Learning/Papers

[AAAI 2022] SplitFed - (3)

pseudope 2022. 9. 5. 16:00
728x90

논문 제목: SplitFed: When Federated Learning Meets Split Learning

출처: https://arxiv.org/abs/2004.12088

 

 지난 포스트에서 우리는 SFLV1과 SFLV2에 관해서 이야기하였는데, 여기에 사용된 Privacy Preserving method들에 관해서는 별도의 언급을 하지 않았습니다. (이전 글 보기) 이와 관련된 내용을 한 번에 다루기에는 그 양이 너무 많아서 별도의 paper review를 작성할 예정이며, 이번 포스트에서는 해당 논문의 experiments를 바로 살펴보도록 하겠습니다. (현재, calibrated noise와 관한 이야기는 여기에서 확인할 수 있습니다.)

 

5. Experiments

 

 들어가기에 앞서, 주의하여야 할 사항이 두 가지 있습니다. 우선, 해당 논문의 experiment는 모두 uniformly distributed dataset을 사용하였습니다. 이는 현실적인 setting과 다소 거리가 있는 가정이며, unbalanced case(power law 등)를 상정하고 동일한 방식으로 실험할 경우 다소 결과가 달라질 수 있음을 인지한 채로 실험 결과를 보셔야 할 것 같습니다. 다음으로, 이전 포스트에서 언급하였듯이, 공정성을 보장하기 위해서, 기존 알고리즘과의 비교가 이루어지는 실험에서는 SFL에 privacy preserving method가 적용되지 않았습니다. 따라서 실제로는 수행 시간이나 추론 능력 등에서 차이가 존재할 수 있습니다.

 

(1) Dataset

 총 네 가지의 dataset을 가지고 실험하였는데, 모두 이미지 data라는 특징이 있습니다. 이는 PixelDP가 CV 쪽 task에서 사용되는 기법이기 때문에 이러한 선택을 할 수 밖에 없었던 것으로 추측됩니다. 다시 말해, SplitFed를 NLP 등 다른 task에 적용하려면, PixelDP 기법을 포기하고 다른 privacy preserving method를 적용하여야 합니다. (그런데, 어차피 기존 알고리즘과의 비교를 할 때에는 PixelDP를 사용하지 않는다고 하였으니, 다른 유형의 dataset도 실험 가능한 것이 아니었나 하는 생각이 개인적으로 듭니다.)

 HAM10000은 조금 생소한 dataset인데, 피부병 진단 관련 dataset이라고 합니다. 특이한 점이 있다면, 다른 dataset들에 비해서 이미지의 크기가 상당히 크다는 것입니다. 나머지는 우리에게 친숙한 dataset이므로 별도의 언급 없이 넘어가도록 하겠습니다.

 

(2) Model

 총 네 가지의 architecture를 이용하였으며, 자세한 설명은 오른쪽 표와 같습니다. learning rate의 경우, LeNet은 0.004, 나머지는 0.0001을 사용하였다고 합니다.

 

(3) 성능 평가

 왼쪽의 표는 5명의 Client가 학습에 참여하여 총 200회의 global epoch을 수행한 결과를 Dataset / Architecture 별로 정리한 것입니다. 저자들이 제안하는 SFLV1, SFLV2의 결과를 확인해보면, 전반적으로 SL과 비슷한 성능을 보여주지만, 셋 모두 Normal(centralized case)나 FL(FedAvg)보다는 전반적으로 떨어지는 성능을 보여준다는 것을 알 수 있습니다. 특히, 표에는 담지 못하였지만, CIFAR10을 VGG16을 통해서 학습한 case 그래프(오른쪽)를 살펴보면, SL과 더불어 저자들이 제안하는 두 알고리즘 모두 정상적으로 수렴하지 못하고 있다는 것을 확인할 수 있습니다. 이는 아직 SL 계열의 알고리즘이 조금 더 연구되어야 함을 의미하며, 저자들은 이를 다음 연구자들을 위한 숙제로 남겨놓았습니다.

 

 또한, 저자들은 성능 상의 이유로 SFLV2를 제안하였는데, 결과를 보면 task에 따라서 SFLV1과 SFLV2의 성능이 엎치락뒤치락하고 있다는 것을 확인할 수 있습니다. 둘의 성능 차가 비슷한 실험도 있었지만, 5%p 가까이 차이 나는 실험도 있었던 만큼, task에 따라서 적절한 알고리즘을 선택해야 할 듯합니다.

 

 한편, SFLV2가 FL을 뛰어넘고, Normal과 비슷한 수준의 성능을 보인 실험도 있었습니다. 위 표에서 제일 첫 번째 row에 있는 실험인데, 이에 대한 그래프는 오른쪽과 같습니다. FL이 시작점에서 조금 헤매는 것 외에는 특이사항이 없어 보입니다.

 

 

(4) Client 수에 따른 성능 변화

 

 

 앞서 살펴본 실험은 Client 수를 5로 설정한 것이지만, 실제 상황에서는 보다 많은 수의 Client가 학습에 참여할 것입니다. 위 그래프는 AlexNet으로 HAM10000을 학습한 결과인데, SL과 SFLV2에서 Client가 많을 때 학습의 진행 속도가 더뎌지거나 심지어 발산하는 모습을 확인할 수 있습니다. 이는 cross-device setting과 같은 대규모의 학습 환경에서 해당 알고리즘이 사용되기 어렵다는 것을 의미하며, 이 역시 해당 논문의 한계점이라고 볼 수 있습니다.

 

(5) Privacy Preserving Methods 적용에 따른 성능 변화

 오른쪽 그래프는 SFLV1 알고리즘에 $\delta = 1e −5$, $\epsilon = 0.5$,$\sigma = 1.3$의 calibrated DP와 주어진 $\epsilon'$에 해당하는 만큼의 PixelDP를 적용하여 MNIST를 AlexNet에 학습시킨 결과입니다. 비록 Normal에 근접한 성능을 보이지는 못하지만, 그래도 준수하게 학습되고 있다는 것을 알 수 있으며, $\epsilon'$이 증가함에 따라 (즉, privacy budget이 커짐에 따라) accuracy가 증가하는 모습도 함께 확인할 수 있습니다.

 

6. 의의와 한계

 

 기존에 존재하였던 서로 다른 두 분산학습 메커니즘을 적절하게 엮어서 새로운 학습 체계를 제시하였다는 점이 해당 논문의 의의가 될 것 같으나, 아쉬운 점이 많습니다. 아직 해당 기법에 대한 이론적인 뒷받침이 부족하고, 실험 과정에서 unifromly distributed라는 비현실적인 가정이 들어가기도 하였습니다. 또한, SL과 비교해서는 비슷한 성능을 보여주지만 FedAvg보다는 낮은 성능을 보여준다는 점을 고려하였을 때, 굳이 이렇게 복잡하게 setting을 할 필요가 있는지에 대한 의문도 생깁니다. 그리고 실험 결과를 보면 50개 이상의 Client가 학습에 참여하는 경우 제대로 수렴하지 않는 경우가 발생하는데, 이 부분 때문에 cross-device setting에는 해당 기법을 적용하기 어려울 듯합니다. 물론, SplitFed라는 기법이 처음 제시된 만큼, 시간이 지남에 따라 발전할 가능성 역시 충분히 존재하겠으나, 지금으로써는 사용되기 어려운 기법인 것 같다고 생각됩니다.

'Federated Learning > Papers' 카테고리의 다른 글

[NeurIPS 2021] FjORD - (2)  (1) 2022.09.09
[NeurIPS 2021] FjORD - (1)  (0) 2022.09.07
[AAAI 2022] SplitFed - (2)  (0) 2022.09.03
[AAAI 2022] SplitFed - (1)  (0) 2022.08.31
[ICLR 2020] Convergence of FedAvg - (7)  (0) 2022.08.30
Comments