Ar RTU studentu un superdatora palīdzību jaunuzņēmums «Asya» rada mūsdienīgu latviešu valodas rīku
Ar Rīgas Tehniskās universitātes (RTU) atbalstu mākslīgā intelekta jaunuzņēmums «Asya» attīsta inovatīvu latviešu valodas rīku «Grāmatiņš», kas būtiski atvieglos kvalitatīvu tekstu veidošanu. Rīka prototipa izveidē iesaistīti studenti, bet tā trenēšanai izmantots RTU superdators.
«Asya» mērķis ir izveidot mākslīgā intelektā balstītu latviešu valodas rīku, kas automātiski atrastu un labotu gramatikas, rakstības, teikuma struktūras un stila kļūdas.
«Šobrīd pieejamie risinājumi latviešu valodai aprobežojas ar vārdu gramatikas labojumiem vai vienkāršiem pieturzīmju labojumiem, kas balstīti uz likumiem. Joprojām nav iespējams labot teikuma kļūdas saliktiem sakārtotiem teikumiem vai divdabja teicieniem. Taču ar mūsdienās pieejamajiem risinājumiem mākslīgajā intelektā šādas kļūdas ir iespējams labot,» stāsta RTU Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultātes pārstāvis Mārcis Teodors Upenieks.
«Grāmatiņš» lietotājam piedāvā ne tikai gramatikas, pareizrakstības un interpunkcijas pārbaudi, bet arī uzlabotas funkcijas, piemēram, stila ieteikumus, kontekstualizētus vārdu ieteikumus un žanra specifiskus rakstīšanas ieteikumus.
«Grāmatiņš» ir pieejams testēšanai bez maksas https://salieckomatus.lv
Rīka prototipu izstrādāja RTU Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultātes studenti. «Uzņēmums vēlējās izmantot to kompetenci, kas mākslīgā intelekta jomā jau ir izveidojusies RTU. Bija vairāki studenti, kuriem pašiem tas interesēja, tāpēc iesaistījām viņus šajā procesā,» pauž M. T. Upenieks.
Projekts implementēts «PyTorch» matemātiskajā satvarā, kas ir īpaši piemērots dziļās mašīnmācīšanās modeļu ieviešanai, un izveidotie modeļi apmācīti, izmantojot RTU HPC jeb Augstas veiktspējas skaitļošanas centra (High-Performance Computing Centre) superdatoru. Izstrādes gaitā apkopoti 64,7 miljoni vārdu no latviešu grāmatām, zinātniskajiem darbiem u.c. materiāliem, un no tiem ir uzbūvēts pamata modelis. Apmācīti vēl trīs modeļi – gramatikas, stila un interpunkcijas modelis. Tie balstīti inovatīvos Latvijā veiktos pētījumos.
«Grāmatiņš» ir izstrādāts, lai darbotos interneta pārlūkā, nodrošinot reāllaika ieteikumus, un ietver arī bezsaistes režīmu. Tā priekšrocība ir lokalizācija, mazo Eiropas valodu atbalsts, sākot ar latviešu valodu, bet pēc tam strādājot ar kaimiņvalstu un citām Eiropas valodām. Nav arī nepieciešami marķēti dati vai ekspertu klātbūtne sistēmas izstrādē, kas ir ievērojama inovācija, norāda izstrādātāji. Jaunizveidotie modeļi arī būs spējīgi darboties uz lietotāju darba stacijām, nevis tikai uz jaudīgiem serveriem, kuri aprīkoti ar GPU, ievērojami samazinot operatīvās izmaksas un uzlabojot cenu patērētājam.
Valodas rīka prototips izstrādāts Latvijas Investīciju un attīstības aģentūras Tehnoloģiju biznesa centra radītajā prototipēšanas programmā «PROTOTECH».
Photo by Nick Morrison on Unsplash