RTU HPC centrs paātrina genoma izpēti ar Gcore mākoņtehnoloģijām

Rīgas Tehniskās universitātes Augstas veiktspējas skaitļošanas centrs (High-Performance Computing Centre – RTU HPC) ir lielākais superskaitļošanas resursu nodrošinātājs Latvijā, kas virza zinātnes un tehnoloģiju attīstību visā Baltijas reģionā. RTU HPC ir sadarbojies ar vairākām pētniecības iestādēm, tostarp ar Latvijas Biomedicīnas pētījumu un studiju centru (BMC), kas ir molekulārās bioloģijas un biomedicīnas pētījumu līderis. BMC pētījumi koncentrējas uz tūkstošiem cilvēku genoma analīzi, kas tiek veikta dažādu Eiropas iniciatīvu ietvaros.

Šis raksts tapis sadarbībā ar Gcore.

Gcore Biznesa attīstības direktors Dainis Lukaševičs norāda: „Esam pateicīgi par iespēju sadarboties ar RTU HPC un sniegt risinājumus, kas paātrina MI projektu attīstību Latvijā. Šī sadarbība apliecina mūsu stratēģiju — piedāvāt pieejamus un drošus mākoņpakalpojumus Baltijā. Kā viens no vadošajiem mākoņinfrastruktūras un AI/ML risinājumu sniedzējiem Eiropā, Gcore redz lielu potenciālu reģiona attīstībā.

Ātrāka un MI virzīta genoma apstrāde, nezaudējot kontroli pār datiem

Genoma izpēte ir būtiska, lai izprastu cilvēka veselību un slimību izcelsmi. Tā kā šajā jomā tiek apstrādāts milzīgs datu apjoms, ir nepieciešama īpaši jaudīga skaitļošanas vide. RTU HPC virza pāreju no tradicionālās zinātniskās skaitļošanas uz mākslīgā intelekta (MI) virzītām inovācijām.

Sadarbībā ar BMC RTU komanda nolēma tikt galā ar kritisku izaicinājumu – ātri apstrādāt tūkstošiem cilvēku genomu, izmantojot MI un vienlaikus nezaudējot kontroli pār datiem aparatūras trūkuma vai ārvalstu pakalpojumu sniedzēju ierobežojumu dēļ. BMC Bioinformātiķis Edgars Liepa skaidro: “Būtībā mēs vēlējāmies paātrināt variantu identificēšanu — skaitļošanas procesu, kurā tiek noteiktas ģenētiskās variācijas.”.

Tradicionālā, uz centrālajiem procesoriem (CPU) balstītā skaitļošana bieži vien nespēj efektīvi tikt galā ar liela mēroga genoma sekvencēšanu un analīzi, kā rezultātā palielinās datu apstrādes laiks. Saistībā ar to RTU HPC saskārās ar vairākiem izaicinājumiem:

  1. Nepieciešamība pēc ātrākas genoma sekvencēšanas, kas virzītu biomedicīnas pētījumus.
  2. Vajadzība pēc lielākas skaitļošanas jaudas, lai efektīvi analizētu apjomīgas datu kopas.
  3. Grūtības īsā laika posmā iegūt augstas veiktspējas GPU aparatūru.
  4. Vajadzība pēc mērogojamiem skaitļošanas risinājumiem, kas neprasītu lielus sākotnējos ieguldījumus.

GPU kā pakalpojums (GPUaaS) genoma pētījumiem

Ņemot vērā šos izaicinājumus un nozares prasības, RTU HPC izvēlējās sadarboties ar uzņēmumu “Gcore”, kura piedāvātais GPU (graphics processing unit) kā pakalpojums ļāva tūlītēji izmantot augstas veiktspējas skaitļošanas priekšrocības. Tā vietā, lai vairākus mēnešus gaidītu uz vietas pieejamu GPU aparatūru, RTU pētnieki pēc pieprasījuma ieguva piekļuvi “NVIDIA” modernākajiem grafiskajiem procesoriem, tostarp H100, kas izstrādāts tieši prasīgiem un apjomīgiem MI uzdevumiem. Būtiski atzīmēt, ka H100 izvietots “Gcore” Eiropas mākoņinfrastruktūrā. RTU HPC vadītājs Andris Locāns, runājot par izvēli izmantot “Gcore”, min vairākus iemeslus: “Kaut arī šajā testā netika izmantoti reālu cilvēku genoma dati, bet gan publiski pieejami cilvēka references genoma dati, pirms testa uzsākšanas vēlējāmies pārliecināties, ka dati tiks apstrādāti droši un uzglabāti atbilstoši.
Otrkārt, Gcore platforma mums nodrošināja tūlītēju piekļuvi nepieciešamajai mākoņinfrastruktūrai testam – tostarp GPU, datu glabātuvei un ātram datu pārraides mehānismam
”.

Sadarbība ar “Gcore” RTU pētnieku komandai sniedza vairākas priekšrocības:

  • Tūlītēja piekļuve jaudīgiem grafiskajiem procesoriem. Nebija jāgaida ilgi iepirkumu procesi fiziskajai infrastruktūrai.
  • Mērogojamība un izmaksu efektivitāte. “Gcore” elastīgais modelis “maksā, kā lieto” ļāva RTU HPC veiksmīgi sadalīt resursus, pamatojoties uz pētniecības prasībām un vajadzībām.
  • Kontrole pār datiem. Genoma datus iespējams apstrādāt un glabāt drošā veidā.
  • Optimizēta veiktspēja.Vairāku grafisko procesoru konfigurāciju (V100, A100, L40S, H100) salīdzinošā novērtēšana genoma analīzei, izmantojot “NVIDIA Clara Parabricks” programmatūru.

BMC pētnieks E. Liepa piebilst: “Izmantojot “Gcore”, mums bija gandrīz tūlītēja piekļuve skaitļošanai. Lai šo risinājumu ieviestu iekšēji, tas prasītu pusgadu. Šī izvēle pilnībā mainīja mūsu darba tempu, ļaujot pie rezultātiem nokļūt krietni ātrāk“.

Veiktspējas salīdzināšana maksimālai efektivitātei

RTU HPC un BMC sadarbībā ar “Gcore” veica plašus veiktspējas testus, izmēģinot dažādas GPU konfigurācijas. Tas ļāva noteikt optimālākos risinājumus genoma analīzes darbplūsmu paātrināšanai.

CPU un GPU salīdzinājums. Genoma sekvencēšanas laiks, kas ar centrālo procesoru palīdzību iepriekš aizņēma vairāk nekā 650 minūtes, tika samazināts līdz mazāk nekā 30 minūtēm, izmantojot grafisko procesoru paātrināto datu apstrādi.

CPU un GPU skaitļošanas laiku salīdzinājums. Lai gan CPU apstrādes laiks pārsniedza 650 minūtes, to var ievērojami samazināt līdz 30 minūtēm visās pārbaudītajās konfigurācijās.

“NVIDIA” GPU testēšana. Eksperimenti ar dažādām grafisko procesoru konfigurācijām ļāva izvērtēt skaitļošanas efektivitāti, atklājot, ka lielāks GPU skaits ne vienmēr nozīmē ātrāku informācijas apstrādi.

Turpmākās sarunas ar “NVIDIA”. Sadarbība ar “Gcore” pavēra iespējas tālākai GPU izmantošanai genomu analīzē.

Ātrāki, mērogojami un izmaksu ziņā efektīvi genoma pētījumi

“Gcore” nodrošinātie “NVIDIA H100” grafiskie procesori sniedz skaitļošanas jaudu, kas transformē mākoņinfrastruktūras iespējas. Tie ir īpaši izstrādāti, lai atbilstu augstas veiktspējas skaitļošanas prasībām, tostarp skaitļošanas genomikai. Edgars Liepa norāda: “Mums bija svarīgi redzēt, cik ātri inferencē strādā H100. Mēs arī nepielāgojām modeli, bet izmantojām NVIDIA izstrādāto risinājumu, kas jau bija labi pielāgots mūsu mērķiem un uzdevumam.

RTU HPC, BMC un “Gcore” sadarbība sniedza vērā ņemamus ieguvumus genoma pētniecības programmai, piemēram:

  1. Būtisks apstrādes laika samazinājums. Variantu noteikšanas uzdevumi tika paveikti līdz pat 50 reižu ātrāk.
  2. Izmaksu ietaupījums, izmantojot grafiskos procesorus pēc pieprasījuma. Nav nepieciešami sākotnējie ieguldījumi aparatūrā, vienlaikus tiek optimizētas skaitļošanas izmaksas.
  3. Mērogojama infrastruktūra. Iespēja elastīgi piešķirt resursus atbilstoši reāllaika vajadzībām.
  4. Datu suverenitāte un drošība. Testam nepieciešamie dati tika apstrādāti un glabāti drošā veidā, Eiropas Savienībā.

Četru dažādu H100 GPU salīdzinājums pēc apstrādes laika. Secinājums – lielāks skaits GPU ne vienmēr nodrošina cerēto efektivitāti.

  1. Liepa piebilst: “Runa nav tikai par lielāku ātrumu. Svarīgi ir nodrošināt analīzes iespējas nacionālā mērogā. Mākslīgā intelekta modeļi jau pastāv, bet bez atbilstošas skaitļošanas jaudas tie ir un paliek tikai teorijas līmenī.”

RTU ceļā uz jaunu genomikas attīstības posmu Baltijā un pasaulē

Izmantojot “Gcore” mākoņskaitļošanas GPU resursus, RTU HPC ir izveidojis mērogojamu un izmaksu ziņā efektīvu genoma pētniecības modeli. Un tas ir tikai sākums. Tagad, kad ir uzskatāmi pierādīts, ka ar jaudīgiem risinājumiem var būtiski uzlabot genoma informācijas apstrādes ātrumu un elastību, RTU HPC plāno vēl plašāk izmantot mākslīgo intelektu pētniecībā un analīzē. Lūk, daži piemēri:

  • Plašāka mākoņskaitļošanas GPU resursu izmantošana genomikā.RTU HPC apsver šo risinājumu izmantot arī citos pētniecības virzienos.
  • Turpmāka sadarbība ar “Gcore”.Tiks turpināta grafisko procesoru konfigurāciju optimizācija. RTU HPC izskata iespēju izmantot “Gcore Everywhere Inference” risinājumus genomikas aprēķinu veikšanai.
  • Globāla ietekme: BMC darbs pie “1+ miljons genomu” projekta.Tā ir ES mēroga iniciatīva, kuras mērķis ir padarīt informāciju par genomu pieejamāku, lai precīzāk veiktu diagnozi un ārstēšanu. Šī iniciatīva vienlaikus veicina starptautiskos pētniecības centienus.

Inovatīva genomika ar mākslīgā intelekta jaudu un datu drošību

Ātrums, elastība un patstāvība – tāda ir mākslīgā intelekta nākotne veselības aprūpē,” norāda BMC Zinātniskais asistents Edgars Liepa. “”Gcore” mums nodrošināja infrastruktūru, lai to īstenotu ne tikai šodien, bet arī nākotnē.”

Tā kā MI turpina pārveidot dzīvības zinātņu nozari, spēja apvienot modernāko grafisko procesoru veiktspēju, vietējo datu atbilstību un elastīgu mērogojamību kļūst par būtisku konkurētspējas priekšrocību ne tikai uzņēmumiem, bet arī valstīm.

“Gcore” Edge & AI Cloud produktu direktors Vsevolods Vainers (Vsevolod Vayner) pauž lepnumu, ka uzņēmumam ir iespēja atbalstīt Latvijas vīziju par MI virzītu genomiku. Viņaprāt, šis projekts kalpo kā paraugs tam, ka valstis var būt līderes biotehnoloģiju inovācijās, nezaudējot savu digitālo neatkarību.

Jāpiezīmē, ka, ņemot vērā jaunos ASV muitas ierobežojumus, kas ietver arī tehnoloģijas, GPU serveru piegāde uz Latviju ir kļuvusi praktiski neiespējama. Latvija ir klasificēta kā TIER 2 valsts saskaņā ar ASV “AI Diffusion Rule” noteikumiem, kas nozīmē būtiskus ierobežojumus augstas veiktspējas aprīkojuma importam. Šādā situācijā “Gcore” piedāvātais GPU kā pakalpojums ļauj uzņēmumiem Latvijā un RTU HPC centram ātri un likumīgi piekļūt nepieciešamajām skaitļošanas jaudām. Tas nodrošina iespēju turpināt mākslīgā intelekta projektus bez kavēšanās un nezaudēt konkurētspēju starptautiskā mērogā.

Stratēģiska partnerība Baltijas inovāciju attīstībai

„Kā jau tika minēts sadarbība ar Capital Latvia, ko nesen uzsākām, ir vēl viens nozīmīgs solis mūsu stratēģijas īstenošanā. Apvienojot Gcore tehnoloģisko kapacitāti ar spēcīgiem vietējiem partneriem, varam piedāvāt Baltijas uzņēmumiem un zinātniskajām institūcijām tieši to, kas nepieciešams – inovatīvus, drošus un, galvenais, pieejamus skaitļošanas risinājumus Eiropas Savienībā, vienlaikus nodrošinot datu suverenitāti un atbilstību visām aktuālajām datu aizsardzības un kiberdrošības prasībām,” papildina Dainis Lukaševičs.