Multimodalinių modelių taikymas vaizdų antraščių generavimui lietuvių kalba
Articles
Airidas Žaliauskas
Vilnius University
Viktor Medvedev
Vilnius University
Published 2025-05-12
https://doi.org/10.15388/MITT.2025.31
PDF

Keywords

vaizdų antraščių generavimas
kompiuterinė rega
natūralios kalbos apdorojimas
dirbtiniai neuroniniai tinklai
mašininis vertimas
transformeriai
QLORA

How to Cite

Žaliauskas, A. and Medvedev, V. (2025) “Multimodalinių modelių taikymas vaizdų antraščių generavimui lietuvių kalba”, Vilnius University Open Series, pp. 271–280. doi:10.15388/MITT.2025.31.

Abstract

Straipsnyje pristatomas tyrimas, kuriame analizuojamas multimodalinių modelių taikymas automatiniam vaizdų antraščių generavimui lietuvių kalba. Kadangi išsamių lietuvių kalbai skirtų tyrimų šioje srityje iki šiol nėra atlikta, straipsnyje daugiausia dėmesio skiriama naujausiems multimodaliniems modeliams ir jų galimybėms generuoti suprantamus vaizdų aprašymus lietuvių kalba. Eksperimentai buvo atliekami naudojant „Gemma 3“ multimodalinį modelį, kuris buvo adaptuotas lietuvių kalbai QLORA metodu. Gauti rezultatai patvirtina metodo efektyvumą ir galimybę sėkmingai jį taikyti lietuvių kalbos turinio generavimui iš nuotraukų.

PDF
Creative Commons License

This work is licensed under a Creative Commons Attribution 4.0 International License.

Downloads

Download data is not yet available.

Most read articles by the same author(s)