next up previous contents index
Aliluvut


1.2 Akustisten analyysien hyödyntäminen nimikoinnissa

Puhetta voidaan nimikoida sekä akustisin että auditiivisin perustein. Digitaalisen puheen analysointiin luodut tietokoneohjelmat tuottavat puheesta erilaisia akustisia analyyseja, joita voi hyödyntää myös nimikoinnissa. Näitä ovat mm. spektrogrammi, perustaajuuskäyrä, intensiteettikäyrä, aaltomuoto ja spektrianalyysi.


1.2.1 Spektrogrammi

Äänteiden nimikoinnissa erityisesti leveäkaistainen spektrogrammi (laskentaikkunan koko n. 4,3 ms) on usein hyödyllinen, sillä siinä erottuvat selvästi äänen spektrirakenteen nopeat ajalliset muutokset, jotka liittyvät puhujan artikulaatioliikkeisiin. Kapeakaistaisesta spektrogrammista (laskentaikkunan koko n. 29-35 ms) näkyvät puolestaan parhaiten puheen soinnillisten osien perustaajuuden ja osasävelten liikkeet, joten sitä voidaan hyödyntää prosodisten piirteiden, erityisesti intonaation kuvauksessa.


1.2.2 Intensiteettikäyrä

Intensiteetti (joka on epäsuorassa yhteydessä havaittuun äänekkyyteen) on riippuvainen äänteen laadusta: esim. vokaalit ovat luonnostaan äänekkäämpiä kuin konsonantit, sillä ääntöväylä on vokaalien aikana avoimempi. Intensiteettikäyrä voi siksi auttaa joidenkin äännerajojen havaitsemisessa. Laajemmin tarkasteltuna intensiteettikäyrä voi myös antaa informaatiota puhujan aiheuttamasta puheäänen voimakkuuden lisäyksestä ja liittyy siten myös prosodisiin ilmiöihin. Intensiteettikäyrä on kuitenkin herkkä puhujan ja mikrofonin väliselle etäisyydelle: jos puhuja liikahtaa vähänkin suhteessa mikrofoniin, esim. kääntää päätään kun mikrofoni on pöydällä, tämä vaikuttaa äänisignaalista laskettuun intensiteettiin. "Headsettiin" kiinnitetty mikrofoni pysyy paremmin paikallaan puhujan suun vieressä, joten intensiteettikäyrässä näkyvät heilahdukset johtuvat tässä tapauksessa todennäköisemmin puheentuoton muutoksista. Huomaa, että intensiteettikäyrästä saadut desibeliarvot eivät tarkoita sinänsä mitään, jollei alkuperäistä äänitettä ole kalibroitu (ts. suhteutettu tiettyyn referenssiääneen jo äänityshetkellä)!


1.2.3 Perustaajuuskäyrä

Puheen perustaajuus eli F0 viittaa soinnillisissa äänteissä siihen taajuuteen, jolla äänihuulet ''värähtelevät'' tai paukahtelevat toisiaan vasten. Yksittäistä jaksoa, jonka aikana äänihuulet erkaantuvat toisistaan ja palaavat takaisin yhteen, kutsutaan periodiksi1.4. Periodeja esiintyy siis vain soinnillisissa äänteissä, ja samasta syystä laskennallisessa perustaajuuskäyrässä näkyy katkos soinnittomien äänteiden kohdalla, vaikka puheen melodia havaitaankin jatkuvana.

Perustaajuus ilmoitetaan yleensä hertseinä: esimerkiksi miespuhujille tyypillinen sadan hertsin perustaajuus siis tarkoittaa sataa äänihuulten värähdystä sekunnissa. Perustaajuuskäyrän muoto voi oikein tulkittuna hyvin nopeasti ja tarkasti vahvistaa tai kumota kuulonvaraisen ja subjektiivisen havainnon puheen sävelkulussa tapahtuvasta noususta tai laskusta. Joskus se voi auttaa myös äänteiden nimikoinnissa: pienikin perustaajuuden muutos voi olla syynä kuulonvaraisesti löytyneeseen rajakohtaan.

Laskennallinen perustaajuus ei kuitenkaan ole sama asia kuin havaittu intonaatio tai sävelkulku. Perustaajuuskäyrään ei kannata luottaa sokeasti, sillä siinä voi laskennallisista syistä esiintyä äkillisiä hyppäyksiä ja toisaalta perustaajuuskäyrään vaikuttavat myös äännekohtaiset seikat. Prosodiikasta kiinnostuneen kannattaa katsella lähempää myös äänen aaltomuotoa (4) ja spektrogrammeja (3), sillä ne voivat paljastaa perustaajuusanalyysin virhelähteitä (esim. narinaan liittyvät epäsäännölliset äänihuuliperiodit).


1.2.4 Aaltomuoto

Aaltomuoto eli oskillogrammi kuvaa ääniaaltoa eli alkuperäiseen ääneen liittyviä ilmanpaineen ajallisia vaihteluita, jotka on rekisteröity tietystä paikasta mikrofonin avulla. Tietokoneen näytöllä olevan aaltomuotokäyrän yksikkö on kuitenkin tavallisesti voltti (V), sillä mikrofoni on muuntanut ilmanpaineen vaihtelut sähköiseen muotoon, joka on sitten näytteistetty digitaaliseksi äänisignaaliksi.

Aaltomuotokäyrän vaaka-akseli kuvaa siis aikaa, joka etenee vasemmalta oikealle. Pystyakseli kuvaa ääniaaltojen laajuutta eli amplitudia. Mitä suurempi ääniaallon amplitudi on tarkasteltavalla ajanjaksolla, sitä suurempi on vastaavasti ollut ilmanpaineen muutos ja sitä voimakkaampi ääni on ko. ajanjaksolla ollut. Äänen amplitudi ei kuitenkaan vastaa suoraan ts. lineaarisesti havaittua äänenvoimakkuutta eli äänekkyyttä. Äänekkyyshavaintoon vaikuttavat ihmisen kuulojärjestelmän ominaisuudet (psykoakustiikka) ja muutkin seikat.

Aaltomuotokäyrää voidaan käyttää esimerkiksi äänteiden tarkkaan segmentointiin spektrogrammin ohella, sillä siitä näkyvät äänessä tapahtuneet pienimmätkin muutokset. Aaltomuoto voi paljastaa myös äänenlaadussa tapahtuneita muutoksia, jotka voivat selittää esimerkiksi perustaajuuskäyrän odottamattomia katkoksia tai hypähtelyjä....periodiksi1.4
Kapeakaistaisessa spektrogrammissa (ks. 3) soinnillisten äänteiden osasävelet (harmonics) erottuvat aaltoilevina raitoina, joista alimmainen kuvaa perustaajuutta. Leveäkaistaisessa spektrogrammissa (3) puolestaan erottuvat yksittäiset äänihuuliperiodit pystysuorina raitoina. Periodit voi erottaa myös äänen aaltomuodosta toistuvina aaltokuvioina, kun aaltomuotoa tarkastellaan suurennettuna.

next up previous contents index
: 1.3 Aineiston luomat rajoitukset : 1. Mitä on annotaatio? : 1.1 Miksi puhetta nimikoidaan   Sisältö   Hakemisto
Mietta Lennes 2005-05-11