Kuka olet?
Olen Jörg Tiedemann, Helsingin yliopiston kieliteknologian tutkimusryhmän johtaja. Ryhmämme on osa digitaalisten ihmistieteiden osastoa, jossa opiskelijoilla on mahdollista valita opintosuunnakseen Kielten kandiohjelma sekä Kielellisen diversiteetin ja digitaalisten ihmistieteiden maisterohjelma. Oma taustani on tietojenkäsittelytieteessä, josta tein perustutkinnon Saksassa sekä laskennallisessa kielitieteessä, josta valmistuin tohtoriksi Uppsalassa, Ruotsissa. Minut nimitettiin Helsingin yliopiston kieliteknologian professoriksi vuonna 2015 ja siitä lähtien minulla on ollut ilo olla mukana monitieteisessä ryhmässämme.
Mikä on tutkimuksesi aihe?
Tärkeimmät tutkimusintressini liittyvät monikieliseen luonnollisen kielen käsittelyyn (Natural Language Processing, NLP) ja sen eri näkökulmiin. Suuri osa työstäni on ollut erityisesti konekääntämisen sovelluksiin suuntautunutta tutkimusta. Kieliresurssien kehittäminen on ollut iso osa elämääni ja jo väitöstutkimusta tehdessäni käytin paljon aikaa suurten, monikielisten rinnakkaisaineistojen koostamiseen ja ryhmittelyyn. Olen ylläpitänyt yli kahden vuosikymmenen ajan OPUSia, maailman laajinta avoimesti saatavilla olevaa konekääntämisen rinnakkaisaineistoa, jolla on laaja kielikattavuus. Tämä kokoelma on ollut merkittävä lähde käännösteknologian kehittämistyölle maailmanlaajuisesti, ja sen kielikattavuus on ainutlaatuinen ja korvaamaton inklusiivisen NLP:n tutkimukselle.
Viime vuosina olemme panostaneet OPUS-ekosysteemin laajentamiseen, jotta se kattaisi kaikki konekääntämisen kehityksen osa-alueet datasta työkaluihin ja niiden käyttöönottoon. Esikoulutettuja käännösmalleja on saatavilla OPUS-MT:n kautta, ja olemme julkaisseet ohjelmistopaketteja datan muunteluun, kouluttamiseen ja tislaukseen sekä käännösmallien käyttöönottoon ja niiden arviointiin. Web-käyttöliittymät, sovellukset, ammattimaiset käännöstyökalukokoelmat, kuten OPUS-CAT, ja ohjauspaneelit tukevat tutkimusta, kehitystyötä ja käyttöä. Luomamme resurssit ovat kategoriansa suosituimpia Hugging Face -alustalla.
Toinen tutkimussuuntamme liittyy monikielisen ja kieltenvälisen NLP:n perustutkimukseen. ERC-hanke FoTran keskittyi selvittämään edustusoppimista laajalla monikielisellä aineistolla ja selvitimme suurten neurokäännösmallien siirto-oppimisvalmiuksia, modulaarisuutta ja tulkittavuutta. Toisessa tutkimushankkeessa tarkastelimme myös epävarmuuden mallintamista ja tällä hetkellä keskitymme muun muassa NLP:n tehokkuuteen kieliteknologian yhä kasvavan hiilijalanjäljen pienentämiseksi (ks. GreenNLP-hanke).
Lisäksi tutkimusryhmämme tekee työtä myös suurten kielimallien kehittämisen parissa osana eurooppalaisia HPLT- ja OpenEuroLLM-hankkeita. Työpanoksemme näihin hankkeisiin liittyy pääosin monikielisyyteen ja arviointiin, jotka ovat erittäin tärkeitä ja haastavia tutkimusaiheita tällä alalla. Tavoitteenamme on tukea paremmin aliedustettuja kieliä, parantaa monikielistä arviointia sekä vähentää generatiivisen tekoälyn ”hallusinaatioiden” vaikutuksia.
Miten Kielipankki liittyy tutkimukseesi?
Suurin osa tutkimuksestamme on dataintensiivistä ja vahvasti riippuvaista datan keräämisestä, empiirisestä arvioinnista ja laskennallisesti raskaiden koneoppimismallien iteratiivisesta koulutuksesta. Kieliresurssit ovat välttämättömiä tässä prosessissa ja tutkimusryhmämme on Kielipankille sekä datan tarjoaja että käyttäjä. Vaikka suurin osa työstämme keskittyy koneoppimiseen ja mallien kehittämiseen, olemme kiinnostuneita myös siitä, että saamme resursseja jaettua ihmistieteiden tutkijoiden käyttöön. Monet koostamistamme aineistoista ovat sellaisenaan hyödyllisiä kieltentutkimuksessa tai esimerkiksi käännöstieteellisessä tutkimuksessa. Vastaavasti kieliresurssit ovat välttämättömiä neuroverkkopohjaisten kielimallien kouluttamiseen, hienosäätämiseen ja arvioimiseen. Tällaisista kielimalleista on muovautumassa tärkeitä työkaluja myös ihmistieteiden tutkimukselle, ja niiden vaikutus kasvaa tasaisesti myös kielitieteen, yhteiskuntatieteiden ja perinteisten humanististen tieteiden aloilla.
Valikoituja julkaisuja
Tiedemann, J., Aulamo, M., Bakshandaeva, D. et al. 2024. Democratizing neural machine translation with OPUS-MT. In Lang Resources & Evaluation 58, 713–755 (2024).
Mikko Aulamo, Nikolay Bogoychev, Shaoxiong Ji, Graeme Nail, Gema Ramírez-Sánchez, Jörg Tiedemann, Jelmer van der Linde, and Jaume Zaragoza. 2023. HPLT: High Performance Language Technologies. In Proceedings of the 24th Annual Conference of the European Association for Machine Translation, pages 517–518, Tampere, Finland. European Association for Machine Translation.
Jörg Tiedemann and Ona de Gibert. 2023. The OPUS-MT Dashboard – A Toolkit for a Systematic Evaluation of Open Machine Translation Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), pages 315–327, Toronto, Canada. Association for Computational Linguistics.
Tiedemann, J 2022, From open parallel corpora to public translation tools: The success story of OPUS. In E Volodina, D Dannélls, A Berdicevskis, M Forsberg & S Virk (eds.), LIVE and LEARN : Festschrift in honor of Lars Borin. Research Reports from the Department of Swedish, Multilingualism, Language Technology, Nro GU-ISS-2022-03, University of Göteborg, Göteborg, Sivut 133-138.
Aineistoja ja työkaluja
Hankkeita
- OpenEuroLLM (2025–28)
- HPLT – High Performance Language Technologies (2022–25)
- Green NLP – controlling the carbon footprint in sustainable language technology (2023–25)
- FoTran – Found in Translation (2018–2023)
FIN-CLARIN eli suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio auttaa ihmistieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. Aineistoja ja työkaluja tarjoaa Kielipankki.