next up previous contents index
Aliluvut


1.1 Miksi puhetta nimikoidaan eli annotoidaan?

Nimikointityökalua käyttämällä puhenäytteestä on helppo nopeasti ja tarkasti etsiä, rajata ja kuunnella eri pituisia osia. Tämä helpottaa, nopeuttaa ja tarkentaa merkittävästi litterointia ja transkriptiota. Esimerkiksi intonaatiotranskription tekeminen helpottuu, kun kuulohavaintoa voidaan heti verrata äänisignaalista laskettuun perustaajuuskäyrään.

Nimikoidusta äänitiedostosta voidaan mitata tarkasti puheen eri yksiköiden kestoja. Mittauksia voidaan suorittaa jopa täysin automaattisesti (edellyttäen että puhe on nimikoitu mittausten kannalta järkeviin yksiköihin). Erilaiset akustiset analyysit voidaan automaattisesti kohdistaa vain tarvittaviin osiin näytettä. Nimikoinnin perusteella tehdyt mittaukset voidaan milloin tahansa toistaa täysin identtisinä. Tutkimustuloksiin on siten helppo myöhemmin palata.

Digitaalinen ääninäyte säilyy tarvittaessa täysin muuttumattomana pitkiäkin aikoja ja siitä voidaan tehdä identtisiä kopioita. Alkuperäistä digitoitua ääninäytettä (esim. keskusteluäänite) ei tarvitse välttämättä pilkkoa pienempiin osiin jokaista tutkimusta tai demoa varten, vaan se voidaan säilyttää kokonaisena esimerkiksi CD- tai DVD-levyillä, eikä tällöin menetetä informaatiota esimerkiksi taukojen kestoista.

Digitaalista, systemaattisesti nimikoitua puheaineistoa on helppo jakaa muidenkin tutkijoiden kanssa. Muut tutkijat voivat nopeasti tutustua nimikoituun puhenäytteeseen ja käyttää sitä soveltuvin osin. Nimikointeihin voidaan tehdä muutoksia ja lisäyksiä oman tarpeen mukaan. Tämän oppaan periaatteiden mukaisesti nimikoitu äänitiedosto voidaan liittää osaksi kaikkien tutkijoiden käyttämää puhetietokantaa, eikä tutkijoiden tarvitse aina itse kerätä ja nimikoida uusia aineistoja.

Annotaation tekeminen on usein pitkäveteistä puurtamista. Jokaisen puheentutkijan olisi kuitenkin hyödyllistä yrittää annotoida itse ainakin koemielessä pieni osa käyttämästään aineistosta, sillä näin oppii ymmärtämään annotaatioprosessia ja sen vaikutuksia tutkimukseen. Usein annotoidessa löytää myös mielenkiintoisia uusia tutkimuskohteita.


1.1.1 Johdonmukainen annotaatio

Puheen kuvauksessa tulee pyrkiä noudattamaan yhtenäisiä periaatteita, jotta aineiston annotaatio pysyisi kauttaaltaan mahdollisimman tasalaatuisena ja jotta se olisi kenen tahansa tutkijan käytettävissä ja ymmärrettävissä. Annotoijalle pitää olla aina täysin selvää, mitä ilmiötä, yksikköä tai käsitettä ollaan annotoimassa, ja tietyntyyppiset yksiköt pitää rajata ja merkitä johdonmukaisesti aina samalla tavalla.

Käytännössä ihmiset ovat usein eri mieltä annotoitavien yksiköiden rajauksesta ja nimikkeistä. Yhdessä sovitut annotointiperiaatteet on helppo unohtaa, ja tyypillisesti annotoija muuttaa yhdenkin annotaatioprojektin aikana näkemystään ''hyvästä annotaatiosta'' useita kertoja. Tämä on aivan luonnollinen ilmiö, sillä monet teoreettiselta kannalta hyödylliset puheen yksiköt eivät olekaan selkeästi erotettavissa ja rajattavissa todellisesta puhesignaalista. Puheessa ei esimerkiksi normaalisti ole taukoja sanojen välillä, ja puheentuoton aikana ihmisen ääntöelimistö on käytännöllisesti katsoen jatkuvassa liikkeessä, joten äänteiden rajatkin ovat ''sumeita''. Annotointi perustuu siis aina annotoijan tulkintaan puheaineistosta.

Tämän oppaan tarkoituksena on antaa yleisiä ohjeita erilaisten yksiköiden annotointia varten. Tavoitteena on, että jokainen tutkija käyttää annotoidessaan tässä oppaassa määriteltyjä yksiköitä niin pitkälle kuin se on mahdollista. Mikäli tutkija haluaa tarkentaa määritelmiä tai käyttää kokonaan uusia yksiköitä, ne tulisi määritellä ja julkaista virallisesti Puh-editorin avulla (ks. 7).


next up previous contents index
: 1.2 Akustisten analyysien hyödyntäminen : 1. Mitä on annotaatio? : 1. Mitä on annotaatio?   Sisältö   Hakemisto
Mietta Lennes 2005-05-11