Päivitys Kirjaviennin edistämisen uudet työkalut -hankkeen edistymisestä
Kirjaviennin edistämisen uudet työkalut -hanke on vuoden 2025 aikana edennyt seuraavasti: Kesän aikana hankkeeseen haettiin ja saatiin Oulun kirjailijaseuran jäsenistöltä eri kaunokirjallisia lajityyppejä edustavia tekstejä. Otimme mukaan hankkeeseen useita tekstilajeja, jotta laajojen kielimallien työskentelytavat tulisivat mahdollisimman hyvin esille. Tarkoituksena on tarkastella muutaman esimerkkitekstin käännöksen analyysin kautta, onko laajojen kielimallien käyttö kaunokirjallisuuden kääntämisessä järkevä ja tehokkuutta lisäävä asia, auttaako se kääntäjää työssään – vai tuottaako se enemmän työvaiheita ja kuormitusta.
Kääntäjinä projektissa toimivat ammattikääntäjä Minna Jeffrey (suomi - englanti) sekä loppuvaiheen kielenopiskelija Eri Lassila: hän suorittaa hankkeessa opiskeluihin kuuluvan harjoittelunsa ja kääntää tekstit suomesta ruotsiin. Valitsimme hänet, koska yhteistyö Oulun yliopiston kanssa luo muita, kiinnostavia näkökulmia hankkeeseen ja mahdolliseen jatkotutkimukseen.
Käännösesimerkkien tekstilajeiksi valikoituivat kaunokirjallisuuden lajit, joissa on etukäteen ajateltuna paljon omaperäisiä tai lajille tyypillisiä piirteitä ja jotka siis vaativat kääntäjiltään paljon kulttuurista tuntemusta ja kielellisiä päätöksiä. Teksteiksi valikoituivat 20 liuskan näytteet seuraavista tekstilajeista: Moderni, vapaamittainen runous; lastenrunous, lorut; visuaalinen ja proosarunous; proosaa ja asiatekstiä yhdistävä proosateksti; omaperäinen ja murteellinen proosa sekä draamaa lähestyvä proosateksti.
Projektin edetessä täsmentyi, että teimme käännökset ChatGPT 5.0 avulla tähän tarkoitukseen tehdyssä ns. käännöskuplassa. Näin kokeilut saattoi toteuttaa ilman, että alkuperäinen kielimalli ”kouluttaa itseään” kääntäjien tekemästä tekstistä tai alkuperäistekstistä. Eli ChatGPT ei voi käyttää tai tallentaa hankkeessa saatua tietoa kielimallin yleiseen käyttöön tai sen kehittämiseen. Tekstejä käytetään vain tutkimukseen ja niiden tekijänoikeus säilyy kirjoittajalla.
Teimme ensin kustakin mukaan valitusta kuudesta tekstistä noin sivun mittaisen käännöksen niin, että ne käännetiin ”tavalliseen tapaan” eli ilman laajan kielimallin väliintuloa. Sitten syötimme alkuperäisen tekstin ja tehdyt käännökset laajalle kielimallille käännöskuplassa ja pyysimme sitä kääntämään loput tekstikatkelmasta mallin mukaisesti. Sen jälkeen on päästy analysoimaan kielimallin tekemän käännöksen ominaisuuksia ja piirteitä yhdessä kääntäjien kanssa.
Projekti on tällä hetkellä edennyt aikataulussaan siihen pisteeseen, että ensimmäiset tulokset odottavat julkaisemistaan. Kutsumme kaikki asiasta kiinnostuneet Laajan kielimallin käyttö kaunokirjallisuuden kääntämisessä – tapaustutkimus -seminaariin torstaina 4.12. 2025 Oulun Kirjallisuuden talolle (Hallituskatu 9) kello 11-13. Seminaari striimataan ja sitä on mahdollista seurata suorana lähetyksenä. Seminaarissa esiintyvät hankkeen projektipäällikkö Katri Rauanjoki ja hänen kanssaan kääntämisestä keskustelee hankkeessa kääntäjänä ja harjoittelijana toiminut Eri Lassila. Linkin striimiin saa projektipäälliköltä osoitteesta pyynnöstä ja se lähetetään edellisenä päivänä. Paikalle saapuvia pyydetään ilmoittautumaan projektipäällikölle tarjoilujen määrän varmistamiseksi.
Seminaarin aikataulu:
Laajan kielimallin käyttö kaunokirjallisuuden kääntämisessä – tapaustutkimus
4.12.2025 Oulun Kirjallisuuden talo, Hallituskatu 9
11.00 Tervetulosanat Oulun kirjailijaseuran puheenjohtaja Antti Leikas
11.10 Projektipäällikkö Katri Rauanjoki esittelee hankkeen tuloksia.
12.00 Kahvitauko ja pientä suolaista
12.15. Katri Rauanjoki ja Eri Lassila keskustelevat hankkeesta. Mahdollisuus yleisökysymyksiin.
Tervetuloa!
...
Tiivistelmä seminaariesitelmästä 4.12.2025
Chat-GPT 5.0 LAAJAN KIELIMALLIN ONNISTUMINEN KÄÄNTÄJÄNÄ SUOMESTA ENGLANTIIN JA RUOTSIIN
- Johdanto ja projektin kulku
Projektissa tutkittiin ChatGPT 5.0 -laajan kielimallin käyttöä kaunokirjallisuuden käännösnäytteiden tuottamisessa suomesta englantiin ja ruotsiin. Tavoitteena oli nopeuttaa prosessia ja alentaa kustannuksia. Käännökset tehtiin API:n kautta, ja kääntäjät (Minna Jefferey ja Eri Lassila) arvioivat valmiit työnäytteet.
Tekstivalikoima oli monipuolinen, sisältäen muun muassa runoutta ja murreproosaa. Kääntäjät etsivät kielivirheiden lisäksi kulttuurista lukutaidottomuutta, tyylipoikkeamia ja hyvin toteutettuja käännöskohtia sekä arvioivat käännösten yleistä onnistumista.
- Laajan kielimallin edut
Kielimallin nopeus oli merkittävä etu; se tuotti käännettyä tekstiä sekunneissa, ja parissa työpäivässä syntyi ohjelman avulla noin sata sivua käännöksiä. Tekstilajilla ei ollut suurta vaikutusta nopeuteen, vaan käännöksen nopeuteen vaikutti enemmän tekstin sanamäärä.
Suorasanaisen asiatekstin käännökset olivat laadukkaita, mikä on odotettavissa ohjelman koulutusdatan perusteella. Kääntäjät havaitsivat myös muutamia luovia ratkaisuja, kuten idiomeja, mutta ongelmia ilmeni, kun ohjelma teki epäasiallisia tai kontekstiin sopimattomia valintoja (esimerkiksi sanan "käypäläinen" kääntäminen "insectiksi"). Lisäksi ohjelma toi ruotsin käännöksiin muutamia sanoja muista skandinaavisista kielistä.
ChatGPT 5.0:n kehitys on pyrkinyt vähentämään hallusinaatiota, jolloin ohjelma pyrkii valitsemaan yleisimmän ja asiallisimman sanan sekä perustelemaan valintojaan. Tämä ominaisuus kuitenkin kaventaa kielen variaatiota, mikä on usein epäedullista kaunokirjallisuuden kääntämisen kannalta, sillä osuvin vaihtoehto ei välttämättä ole yleisin.
- Laajan kielimallin haitat kääntämisessä
Laaja kielimalli tuottaa ulkoisesti sujuvaa käännöstä, mutta sen heikkoudet ilmenevät suoranaisina virheinä, tyylirikkeinä ja kulttuurisen lukutaidon puutteina. Virheet ovat samankaltaisia englannin- ja ruotsinkielisissä käännöksissä.
- 1.Suoranaiset virheet
Suoranaiset virheet jakautuvat useisiin kategorioihin. Ensiksikin kielimalli ei ole johdonmukainen valinnoissaan, mikä heikentää tekstin yhtenäisyyttä. Erisnimien tunnistamisessa on ongelmia; esimerkiksi sanaa "Veli" ei aina tunnisteta nimeksi. Otsikko "nasta" kääntyy muotoon "nasty". Lastenrunojen hahmojen nimet jäävät kääntämättä sopivammiksi, luovemmiksi muodoiksi (esim. Samppa frog), ja viralliset nimet (esim. Hailuoto vs. Karlö) eivät päivity. Nimeen liittyvä taivutusmuoto saattaa siirtyä sellaisenaan käännökseen.
Kieliopillisissa virheissä malli sekoittaa joskus sanojen sukuja ruotsissa ja tekee prepositioissa virheitä, joko valitsemalla väärin tai lisäämällä niitä tarpeettomasti, mikä voi arkistaa runollista ilmaisua. Englanninkielisissä käännöksissä ilmenee ongelmia futuurin ilmaisussa, kun suomen kielessä tulevaisuudesta puhuminen ilmaistaan muuten. Kielimalli usein kopioi alkuperäisen kielen rakenteita sanakohtaisen kääntämisen sijaan.
Suomen kielen teksti maskuliinistuu joissain kohdin, kun malli valitsee maskuliinisia pronomineja (myös silloin, kun ihmiseen viitataan sanalla "vaimo").
Tuntemattomat sanat korvataan saman kuuloisilla tai väärin tulkituilla sanoilla (esim. *kippuu* kääntyy sanaksi *spill*, joka voisi olla sanan *tippuu* käännös). Sanan "kuusi" eri merkitykset katoavat numeroksi, ja murteelliset/kielikuvalliset ilmaukset vääristyvät (esim. *Elävä* kääntyy ruotsiksi sanalla*nisäkäs*). Erikoissanaston (esim. sotilasarvot) kääntäminen sekoittaa eri aselajeja.
Virheitä ovat myös sanojen kokonaan pois jättäminen (erityisesti murreilmausten tai liitepartikkelien, kuten *-kin*, kohdalla) tai yhden kerran myös tarpeettoman fraasin lisääminen. Kielimalli jätti myös yhden tekstin alaviitteet kääntämättä, vaikka ne erikseen käännettynä sujuivatkin.
- 2.Tyylivirheet
Tyylin puutteet kielimallien käännöksissä jakautuvat rakenteellisiin ja sanastollisiin virheisiin. Laajat kielimallit matkivat usein alkukielen rakennetta, kääntäen sana sanalta, mikä johtaa kömpelöihin ilmauksiin, kuten suomen "Voin vannoa" kääntämiseen englannin "I can swear".
Sanavalinnat, erityisesti runoudessa, paljastavat tyylitajun puutteen; malli ei kykene kääntämään onomatopoeettisia sanoja tai säilyttämään rytmiä ja rivityksiä. Kirjailijan hienovaraiset nyanssit, kuten sanaleikit, usein katoavat, kun malli tulkitsee ne virheiksi. Eri kielimuotojen sekoittuminen, kuten anglismit tai puhekielisyys yleiskielisessä runoudessa, ovat myös tyylirikkoja.
- 3.Kulttuurinen lukutaidottomuus
Kulttuurinen lukutaidottomuus on toinen merkittävä ongelma. Kulttuurisidonnaiset käsitteet, kuten suomalainen kesämökkikulttuuri ("mökkinaapuri", "mökkitie"), vaativat avaamista: ne tulee selittää lukijalle alkuperäistä tekstiä kunnioittaen, mutta käännöskielen keinoin. Pohjoisen maaseudun erityissanasto, kuten metsästystermit, ovat mallille vaikeita kääntää. Kulttuurisen kontekstin ohittaminen näkyy myös siinä, kun metsänhoidollinen merkitys häviää hakkuita käännettäessä, tai kun saunaan liittyvät toiminnot (löyly) jätetään selittämättä. Lisäksi malli ei tunnista kulttuurisia viittauksia, kuten tiettyjä tervehdysmuotoja tai sanontojen merkityksiä (esim. "vuodenpäivät", käännettiin *years*). Murteiden kääntäminen on erityisen haastavaa.
Kaiken kaikkiaan kulttuurisen lukutaidon puute johtaa siihen, että käännöksestä katoaa kirjoittajan luoma taika ja paikallisuuden tuntu.
- Johtopäätökset
Kaunokirjallisuuden kääntäminen eroaa asiatekstien kääntämisestä, sillä kaunokirjallisuus on taideteos, jossa jokaisella yksityiskohdalla on merkitys. Laajojen kielimallien (LLM) käyttöä rajoittaa se, että käännöksessä on oltava tarkka, mutta samalla on osattava joustaa kielen ominaispiirteiden mukaan, kunnioittaen kirjailijan alkuperäistä työtä, muotoa ja tarkoitusta, joita ei saa muuttaa.
Kielimallien ohjeistus, eli promptaus, tarjoaa mahdollisuuden pyytää käännöstä tietyn tyylin mukaan, esimerkiksi tunnetun henkilön tyylillä tai tietynlaisen hahmon puhekielellä. Tämä luo kuitenkin tulkinnanvaraisuutta, mikä asettaa kääntäjän tulkinnan yhä keskeisempään asemaan ja suurentaa vääristymisen riskiä. Itse asiassa kirjailijan pitäisi itse tehdä promptaus tällaisissa tilanteissa.
Jos LLM:n käyttö vaatii voimakasta promptausta, kirjailijan jatkuva konsultointi hidastuttaa ja heikentää prosessin kustannustehokkuutta. Keskustelu kääntäjän, kieliasiantuntijan, kanssa on varmasti kirjailijallekin mielekkäämpää.
Periaatteessa on mahdollista kouluttaa LLM kaunokirjallisuuden kääntämiseen, vaikkakin se vaatii ohjelmistokehityksen edistysaskelia ja mallitekstejä genren tyylipiirteiden opettamiseen. Tämä koulutus ei ole ilmaista, varsinkin jos tekstejä ei varasteta, ja LLM:n käyttö kuluttaa merkittävästi luonnonvaroja ja resursseja. On kyseenalaista, onko taloudellisesti kannattavaa luoda "käännöskonetta", joka ymmärtää kielen ja kulttuurin vivahteet, erityisesti verrattuna ammattikääntäjien palkkioihin.
Nopeaan käännökseen ihastuneet asiakkaat erehtyvät luullessaan, että kääntäjän työ nopeutuu. Palautteen mukaan käännökset täytyy aina tarkastaa, mikä tekee työstä raskaampaa ja yksitoikkoisempaa. Kääntäjä Minna Jefferyn mukaan on työläämpää ymmärtää LLM:n virheitä kuin aloittaa kääntäminen alkutekstistä. Työergonomian heikkeneminen voi vähentää motivaatiota ja vaikeuttaa hyvien kääntäjien löytämistä, jos resurssia vähennetään olettaen ohjelmiston tehneen suurimman työn.
LLM:n käyttö voi kaventaa kääntäjän roolin faktantarkistajaksi ja tyylin parantelijaksi. Se on ironista, koska tekoäly soveltuu hyvin tiedonhakuun ja kielentarkistukseen. Ehkä kääntäjälle pitäisi sallia kielellä leikittely ja luovuus tekoälyn toimiessa apuna.
- Hankkeen jatko
Hankkeen seuraavat vaiheet käsittävät auditiivisen käännösnäytteen luomisen ja kirjailijoista tehtävät lyhyet videoesittelyt. Keväällä 2026 testataan vielä ChatGPT 5.0:n ja DeepL:n käyttöä nostamalla ohjelmien "lämpötilaa" ja vertailemalla DeepL:n luovempia, mutta hallusinaatioille alttiimpia valintoja ChatGPT:n vastaaviin. DeepL:n eettiset puutteet koulutusdatan läpinäkyvyydessä estävät sen käytön lopullisissa tuloksissa. "Lämpötilan" nosto ChatGPT:ssä pyrkii muuttamaan sanavalintoja ja testaamaan, tuoko se muutosta käännösten luovuuteen. Tämäkään ei vaikuta projektin lopputulokseen.
Kaiken kaikkiaan suurimmat haasteet pysyvät: kielimallien käännökset eivät ole laadullisesti riittäviä, eivätkä ne huomioi riittävästi käännöskielen rakennetta tai kulttuurista kontekstia. Myöskään tiheä promptaaminen ei ole ekologisesti tai taloudellisesti kestävää. Projektin tavoitteena on tuottaa ensiluokkaisia myyntiin soveltuvia käännöspaketteja, jolloin kielimallien tuotokset eivät ole sellaisenaan käyttökelpoisia ilman merkittävää työtä, sillä ne voivat antaa vaikutelman huonosta alkuperäisteoksesta.
Näiden havaintojen pohjalta projektissa on päädytty käyttämään kääntäjien tekemiä käännöksiä. Seuraavaksi kolme 20 sivun tekstiä käännetään ääninäytettä varten, ja kääntäjät saavat itse päättää kielimallien pohjakäännösten hyödyntämisestä: vertailukohtina, pohjana tai kokonaan ohittaen. Auditiivista näytettä varten kääntäjät saavat käyttöönsä ElevenLabs-ohjelmiston tekstin ja äänen muuntamiseen. AI:n rooli on tukea kääntäjien työtä sparraajana ja apuvälineenä, ja sen käyttö vaihtelee kääntäjäkohtaisesti.
(Tiivistelmä on tehty tekoälyä hyödyntäen ja sen on muokannut ihminen.)
...
Pääset hankkeen pääsivulle painamalla tästä.







