Päärakennuksen edessä
Helsingin yliopisto Humanistinen tiedekunta Palaute Arkisto
Humanistihässäkkä
      ISSN 1459-0468  
 
  ISSN 1458-9281  
 

19.5.2014

Fonetiikka valmistautuu "big dataan"

Kuva: Mietta Lennes

Fonetiikka tutkii puhetta. Eräs puheentutkimuksen erityispiirre on aineiston keräämisen ja jaottelun työläys. Tällä hetkellä fonetiikka valmistautuu ison datan läpimurtoon.


Foneettinen tutkimus painottuu puheeseen prosessina, sen tuottamiseen ja havaitsemiseen ja siihen, miten puhe välittyy.

– Fonetiikka voi olla tutkijoille väline, mutta se on myös itsenäinen tutkimusala. On tärkeää tutkia, miten ihminen omaksuu puhetta, mitä puhuminen on konkreettisena toimintana ja miten se vaikuttaa kielten muotoutumiseen ja moninaisuuteen, selittää tutkija Mietta Lennes nykykielten laitokselta.

Fonetiikalla on paljon yhtymäkohtia muihin tieteenaloihin. Esimerkiksi fonetiikka ja logopedia hyötyvät toisistaan. Puheteknologian alueella foneettista tietoa tarvitaan laadukkaan puhesynteesin eli keinotekoisen puheen tai automaattisen puheentunnistuksen kehittämiseen. Koska melkein kaikkia maailman kieliä puhutaan, fonetiikalla riittää työsarkaa myös kielitieteissä, esimerkiksi kielten ääntämisen ja murteiden tutkimuksessa.

Lenneksen oma väitöskirja on parhaillaan esitarkastusvaiheessa. Hän on tutkinut sitä, miten suomen sanojen ja esimerkiksi vokaalien ääntäminen vaihtelee vapaassa keskustelupuheessa.

Lennes pyysi kahtakymmentä ystäväparia juttelemaan vapaasti keskenään noin 45 minuutin ajan. Hän äänitti puheen, minkä jälkeen alkoi varsinainen työ. Lennes ja kourallinen fonetiikan opiskelijoita litteroivat, rajasivat ja luokittelivat materiaalia taukojen rajaamiin puhunnoksiin, sanoihin, tavuihin ja äänteisiin.

– Kone ei ymmärrä puhetta, joten äänitetystä raakamateriaalista ei vielä ole hyötyä. Jos materiaalia halutaan tarkemmin tutkia, se pitää annotoida ainakin osaksi käsin, jotta tutkittavat yksiköt tai ilmiöt ja niiden väliset suhteet voidaan paikallistaa, Lennes kertoo.

Puhekorpuksen eli aineiston valmistaminen oli Lenneksen kohdalla vuosien työ. Puheentutkijoilla aineiston keräämiseen ja jäsentelyyn saattaa kulua valtaosa tutkimushankkeen kokonaisajasta. Koska työtä on paljon, on tärkeää, että aineisto säilytetään ja jaetaan myös muille tutkijoille. Tätä tavoitetta edistää Suomessa FIN-CLARIN-hanke, jossa Lennes työskentelee projektisuunnittelijana. Myös Lenneksen käyttämä aineisto on tulossa saataville tutkimustarkoituksiin Kielipankin kautta.

Mietta Lennes ja työvälineet. Kuva: Mika Federley
Mietta Lennes ja työvälineet.


Köydenvetoa määrän ja laadun välillä

Pelkän käsityön varassa tutkijat eivät enää nykyisin ole. On myös kehitetty automaattisia menetelmiä, jotka esimerkiksi tunnistavat puhesignaalista äänteitä ja sanoja tai kohdistavat litteroitua tekstiä äänitiedostojen vastaaviin kohtiin. Automaattiset työkalut eivät kuitenkaan pysty samaan kuin tutkija. Näin päästäänkin ”big datan” eli valtavien aineistomäärien problematiikkaan:

– Automaation käyttöön liittyy köydenvetoa: yhtäältä halutaan paljon dataa, jotta voidaan kehittää automaattisia menetelmiä. Toisaalta data voi olla sotkuista, jos ihminen ei ole sitä käsitellyt ja iso datamäärä pitää kuitenkin lopulta korjata käsin. Vaihtoehdot ovatkin, että joko otetaan pieni aineisto ja käydään se tarkkaan läpi käsin tai käydään laaja aineisto läpi automaattisesti ja hyväksytään, että siinä on virheitä.

– Jos dataa on todella paljon, koneen tuottamat virheet eivät ole enää aineiston käytön kannalta kohtalokkaita, Lennes kertoo.

Lenneksen tutkimus näyttää, miten monella tavalla äännämme vokaalit vapaassa puheessa. Kun Lennes soittaa tallenteelta satunnaisen joukon koehenkilöiden puheessa esiintyvien sanojen vokaaliäänteitä, on helppo huomata, miten paljon vokaalin ääntäminen käytännössä vaihtelee. Esimerkiksi puhekielen ni-sanan i-vokaali kuulostaa koehenkilöiden puheessa välillä e-vokaalilta tai jonkinlaiselta välimuodolta kahden tai useamman vokaalin välillä.

Väitöskirjassaan Lennes pyrkii ymmärtämään äänteiden variaatiota luonnollisessa puheessa ja vuorovaikutuksessa. Miten kuuntelija ymmärtää puhujaa? Miksi emme juuri koskaan sano sanaa kahta kertaa samalla tavalla? Kuinka on mahdollista, että kuulija silti tunnistaa nämä erilaiset tuotokset samaksi sanaksi?

– Ihmiset ovat aika taitavia ennustamaan, mitä toinen ihminen sanoo ja toisaalta puhuja tietää, mitä kuulija odottaa. Mitä yleisempi sana, sitä vähemmän sanan vokaaleja tarvitsee puheessa erotella, ja mitä harvinaisempi sana, sitä selvemmin se yleensä äännetään, tiivistää Lennes.


BB-talo tieteen nimessä

Big data tarkoittaa isoja määriä aineistoa, jonka keräämisen nykyteknologia mahdollistaa.

Kiinnostava esimerkki ison datan käytöstä fonetiikassa löytyy Yhdysvalloista. MIT-yliopiston tutkijaryhmä Deb Royn johdolla asensi Royn kodin täyteen mikrofoneja ja videokameroita ja tallensi perheen arkea kolmen vuoden aikana 90 000 tuntia eli noin 8–10 tuntia päivässä. Tarkoitus oli tutkia kerätyn tietomäärän avulla, miten Royn lapsi oppi puhumaan. Ted talk -videolla voi kuulla puolen vuoden ajalta kaikki harjoituskerrat, joiden aikana Royn lapsi oppii sanomaan englannin sanan vesi ”water”.

Fonetiikan professori Martti Vainio uskoo, että Suomessa voitaisiin tehdä samantyyppisiä ison aineiston tutkimuksia suomalaisten lasten puheen oppimisesta.

– Tietenkin asiaan liittyy eettisiä ongelmia, kuten yksityisyyden suoja, jotka pitäisi ratkaista.

Vainion mielestä isoja aineistoja voitaisiin käyttää hyväksi myös esimerkiksi vieraan kielen oppimisen tutkimisessa kouluissa.

– Iso data tulee olemaan foneettisten teorioiden koekenttä. Jos tutkimuksen kehityksessä ei ole mukana, jää sen jalkoihin. Siksi on parempi olla suuren aallon edellä, Vainio toteaa.


Fonetiikkaa alakoululaisille

Professori Vainion mukaan fonetiikkaa pitäisi opettaa jo alakoululaisille.

– Fonetiikkaa pitäisi käsitellä äidinkielentunnilla. Fysiikan tunnilla oppilaille opetetaan atomi, samalla tavalla oppilaiden tulisi käsitteellisesti erottaa edes kirjain äänteestä.

Anna-Kaisa Mustaparta Opetushallituksesta ei tyrmää Vainion ajatusta vaan kutsuu tutkijat mukaan opetussuunnitelman uudistustyöhön.

Opetushallituksessa uudistetaan parhaillaan perusopetusta, mutta fonetiikkaa ei opetussuunnitelmassa juuri käsitellä mainintaa lukuun ottamatta. Mustaparta kertoo, että fonetiikan osalta minimioppimistavoite on se, että oppilas osaa peruskoulun käytyään katsoa sanakirjasta foneettisten aakkosten avulla, miten jokin sana äännetään.
Mustaparran mukaan kielenopiskelun tapoihin halutaan lisää vapautta.

– Kannustamme erilaisiin opetustapoihin. Ei ole esimerkiksi mitään pakollisia teemoja, joita tulisi käsitellä.

Helsingin yliopistolla järjestettiin 6.5.2014 seminaari puheen visualisoinnista ja sen suhteesta kielten opetukseen.

- Heta Muurinen -

 

 


Uusimmat:

> Äännä kuin ranskalainen

> Käännökset pelastavat ihmishenkiä

> Lukiolaiset kisasivat kielitieteen olympialaisissa

> Kadonneen sivilisaation löytäjä

> Kuolevia kieliä pelastamassa

> Roolipelin niekat ja aarnit kääntyivät englanniksi

> Kielitiede lääketieteen apuna

> Yritysvastuun historiaan mahtuu kauneusihanteita ja ympäristöhuolia

> Kuka tarvitsee käännöskirjallisuutta?

> Fonetiikka valmistautuu "big dataan"

> Pelastamisen ja ryöväyksen rajamailla

> Hieroglyfien salat aukeavat hitaasti

> Työelämätapahtuma "Latinalainen Amerikka ja Suomi – kansainvälisiä työmahdollisuuksia"

> Reviirin laajentajat

> Englanti kansainvälistyvässä yliopistomaailmassa

> Rokkari ja räppäri Runouden valtiossa

> Matka Siperian halki yhdistää suomalaisen ja ranskalaisen kirjailijan

> Taiteen tietopankkia rakentamassa

> Rakkaudesta surrealismiin ja postikortteihin

> Varieng vannoo avoimen julkaisemisen nimeen

> Afrikkalaiset käsitteet kertovat arkielämän historiasta

> Itä-Aasian tutkimuksen monet mahdollisuudet

> Venäjän kieli saamassa uuden ilmeen

> Yliopistosta työelämään: alumnit valmensivat toisiaan Coach Cafe
-illassa

> Kääntäjän tulee olla hyvä kirjailija

> Arvoituksellinen Levänluhdan kalmisto

> Baskimaan kielitaistelu ei kaipaa terroria

> Pojat loistavat englannissa tietokonepelien ansiosta

> Voiko aboriginaalitaidetta määritellä?

> Matti Klinge – tekijä ja vaikutus

> Tavaran tarkoitus on muistaa

>>> Arkisto