Sažetak | Recent research has shown considerable interest in collaborative training of deep neural networks utilizing edge devices. Two predominant architectural paradigms for this training process include centrally orchestrated Federated Learning and fully decentralized peer-to-peer learning. Edge devices, termed agents, harbor local deep neural network models and distinct local datasets, composed of data collected specifically by each agent. While peer-to-peer learning techniques have been extensively investigated assuming independent and identically distributed (IID) data across agents, the learning efficacy significantly diminishes under non-IID assumptions, resulting in reduced model accuracy and slower convergence rates. The thesis aims to identify viable strategies for alleviating the impact of non-IID data on the overall learning process and to devise novel methodologies applicable in peer-to-peer deep learning contexts. These methodologies are subsequently evaluated using realistic non-IID datasets to assess their efficacy and applicability. The thesis will analyze autonomous personalized peer connection creation and present two methods of improving the peer-to-peer learning process in non-IID environments. The methods relate to improving peer-to-peer learning by enabling multi-task collaboration between agents learning two distinct tasks, and improving agent’s local model performance by a personalization technique. The results indicate a statistically significant increase of 11.6% in the mean relative accuracy for the proposed multi-task technique, and 16.9%-29.8% relative accuracy increase (depending on the topology) for the personalization technique. Compared to existing approaches, presented methods can be used to enhance the performance and scalability of peer-to-peer learning systems, and improve personalization resulting in greater model accuracy in diverse real-world scenarios. |
Sažetak (hrvatski) | Suradničko obučavanje dubokih neuronskih mreža na rubnim (mobilnim i ugradbenim) uređajima izazvalo je znatan interes u nedavnoj literaturi, pri čemu su istaknute dvije vodeće paradigme: centralno savezno (eng. Federated Learning) i potpuno decentralizirano učenje na istorazinskim rubnim uređajima. Rubni uređaji, nazvani agentima, posjeduju lokalne modele dubokih neuronskih mreža i različite lokalne skupove podataka. Iako su tehnike učenja istorazinskih agenata detaljno istražene pod pretpostavkom identično distribuiranih i neovisnih podataka, njihova učinkovitost opada pod pretpostavkom da su podaci neovisno i nejednako distribuirani (NND), što rezultira smanjenom točnošću modela i sporijim konvergencijskim stopama. Stoga je cilj ovog istraživanja razviti postupke i metode za ublažavanje utjecaja NND podataka na ukupni proces učenja te osmisliti nove metodologije primjenjive u kontekstu istorazinskog učenja među agentima, s fokusom na uporabu realističnih skupova podataka. Decentralizirano učenje među istorazinskim agentima je paradigma učenja koja se oslanja na razmjenu lokalnih modela među agentima prateći neku mrežnu topologiju. Mrežna topologija obično je unaprijed definirana, a putem nje su utvrđene veze između agenata, koje se koriste za međusobnu komunikaciju. Tijekom komunikacije, agenti razmjenjuju samo svoje lokalne modele, dok se lokalni podaci agenata nikada ne razmjenjuju. Primljeni modeli susjednih agenata agregiraju se s lokalnim modelom na način da se izračuna prosjek svih primljenih modela (u slučaju više primljenih) zajedno s lokalnim modelom, stvarajući tako novi model. Alternativno, svaki primljeni model može se direktno agregirati s lokalnim modelom te na taj način dobiti novi lokalni model. Ciklički proces u kojem svaki agent najprije lokalno trenira svoj model na vlastitim lokalnim podacima, a zatim razmjenjuje taj model sa susjednim agentima, ponavlja se sve dok se ne postigne određeni kriterij zaustavljanja, obično vezan uz konvergenciju modela. Heterogenost lokalnih skupova podataka među agentima ima značajan utjecaj na konačne vrijednosti parametara modela nakon lokalnog treniranja. Različite distribucije, karakteristike i veličine podataka mogu rezultirati različitim lokalnim modelima, čak i ako su agenti početno inicijalizirani s istim parametrima modela. Kada dođe do razmjene lokalnih modela među različitim agentima, proces agregacije modela koji imaju značajne razlike u parametrima može rezultirati stvaranjem novog modela koji ima znatno slabije performanse. Ovaj fenomen direktno utječe na stabilnost procesa učenja, brzinu kojom modeli konvergiraju te na općenite sposobnosti generalizacije konačnih modela. Ova disertacija pisana je prema takozvanom Skandinavskom modelu u sklopu kojeg su objavljena tri znanstvena rada koja prikazuju originalni doprinos u području decentraliziranog istorazinskog učenja između agenata. Prvi rad prikazuje decentraliziranu varijantu istorazinskog učenja agenata s prilagodbom postojeće tehnike gossip averaging u kombinaciji s normalizacijskim slojevima koji čine sastavni dio arhitekture modela. Ispituje se učinkovitost normalizacijskih slojeva u ublažavanju negativnog utjecaja NND podataka među decentraliziranim agentima. Uz to, uvodi se i varijanta tehnike uranjenog zaustavljanja, koja u kombinaciji s normalizacijskim slojevima djeluje kao personalizacijska tehnika za fino podešavanje lokalnog modela agenata. Predložena metoda evaluirana je kroz brojne simulacije koristeći zadatak predikcije sljedeće riječi na korisničkim komentarima iz skupova podataka Reddit i StackOverflow. Rezultati simulacija pokazuju da predložena metoda u prosjeku postiže relativno povećanje točnosti između 16.9%-29.8% u usporedbi s najboljim baznim decentraliziranim pristupom učenja, u različitim mrežnim topologijama. Drugi rad istražuje primjenu tehnike višezadaćnog učenja za rješavanje dva zasebna zadataka u obradi prirodnog jezika. Predstavlja se nova metoda koji koristi transformer arhitekturu koja se sastoji samo od enkodera, kako bi se omogućila suradnja između agenata koji uče različite zadatke. Metoda je evaluirana simuliranjem različitih skupina agenata koji uče različite zadatke kako bi se ispitalo na koji način se može ostvariti međusobna korisnost djeljenja modela između svih agenata i na taj način ostvariti bolje rezultate lokalnih modela. Simulacije provedene u radu pokazuju da suradnja među agentima, čak i kada agenti uče različite zadatke, može poboljšati lokalnu točnost modela svih agenata, posebno kada su veze između agenata pažljivo razmotrene i ograničene. Višezadaćna suradnja dovela je do statistički značajnog povećanja od 11.6% u prosječnoj relativnoj točnosti u usporedbi s rezultatima baznih eksperimenata za pojedinačne zadatke. U trećem radu se istražuje autonomno uspostavljanje veza između agenata tijekom decentraliziranog učenja u kontekstu NND skupova podataka među agentima, u sintetičkim i stvarnim okruženjima. Fokus je na analizi učinkovitosti različitih metodologija u scenarijima koji obuhvaćaju zadatke klasifikacije slika i obrade prirodnog jezika. Kroz eksperimente provedene u sintetičkim i realnim NND okruženjima, metode PANMGrad i PANMLoss pokazale su se kao optimalna rješenja, pokazujući kako učinkovitost komunikacije tako i otpornost na tendencije centralizacije. Publikacije zajednički čine koherentno tijelo rada i doprinose shvaćanju procesa decentraliziranog učenja među istorazinskim agentima u kontekstu heterogenih skupova podataka. Jedan od radova analizira strategije za autonomno uspostavljanje komunikacijskih veza između agenata, dok se u druga dva rada predlažu nove metode temeljene na poboljšanju performansi učenja kroz višezadaćno učenje ili personalizaciju lokalnih modela. Iz navedenog proizlaze sljedeći znanstveni doprinosi: - Metoda uspostave veza i razmjene modela između heterogenih agenata i različitih ciljeva učenja, - Metoda treniranja zajedničkih slojeva modela za brzu konvergenciju u okruženju s više ciljeva učenja, - Metoda personalizacije modela istorazinskih agenta temeljena na normalizacijskim slojevima, - Evaluacija, usporedba i identifikacija optimalnih metoda za autonomno uspostavljanje veza između agenata nad sintetičkim i realističnim podacima. |