Straipsnyje pristatomas tyrimas, kuriame analizuojamas multimodalinių modelių taikymas automatiniam vaizdų antraščių generavimui lietuvių kalba. Kadangi išsamių lietuvių kalbai skirtų tyrimų šioje srityje iki šiol nėra atlikta, straipsnyje daugiausia dėmesio skiriama naujausiems multimodaliniems modeliams ir jų galimybėms generuoti suprantamus vaizdų aprašymus lietuvių kalba. Eksperimentai buvo atliekami naudojant „Gemma 3“ multimodalinį modelį, kuris buvo adaptuotas lietuvių kalbai QLORA metodu. Gauti rezultatai patvirtina metodo efektyvumą ir galimybę sėkmingai jį taikyti lietuvių kalbos turinio generavimui iš nuotraukų.

This work is licensed under a Creative Commons Attribution 4.0 International License.