next up previous contents index
Aliluvut


2.2 Uuden annotaatioyksikön määritteleminen

Perusannotaatioyksiköistä voidaan tarvittaessa periyttää aliyksiköitä, joilla on samat ominaisuudet kuin emoyksiköllään, mutta sen lisäksi joitakin uusia ominaisuuksia. Tällöin on huomattava, että uusi aliyksikkö perii välttämättä kaikki ne ominaisuudet ja piirteet, jotka sen emoyksiköllä on, eikä aliyksikkö siis saa olla ristiriidassa emoyksikön määritelmän kanssa.2.2 Jotta uusien aliyksiköiden luominen olisi mahdollisimman joustavaa, on useimpien tämän oppaan yksiköiden kuvauksen tarkka muoto jätetty annotoijan päätettäväksi.

Kuvitellaan, että esimerkiksi annotaatioyksikölle MyBasicUnit on määritelty ominaisuus label (nimike tai tekstikuvaus), jolle on määritelty tietty joukko mahdollisia arvoja, esimerkiksi ''tyyppi1, tyyppi2, tyyppi3''. Jos tälle yksikölle määritellään uusi aliyksikkö, niin myös aliyksiköllä on välttämättä ominaisuus label joka voi saada (ainakin) samat kolme arvoa. Aliyksikölle voidaan kyllä lisätä uusia ominaisuuksia mutta ei poistaa perittyjä.

Sellaisia kokonaan uusia yksiköitä, jotka eivät voi olla minkään aikaisemmin määritellyn varsinaisen annotaatioyksikön aliyksiköitä, voidaan periyttää esimerkiksi apuyksiköstä Chunk (14), jolla ei ole etukäteen annettuja ominaisuuksia ja jonka ''perilliset'' voivat siksi kuvata mitä tahansa tallenteen tapahtumaa tai piirrettä.


2.2.1 Milloin tarvitaan uusi annotaatiokerros?

Periaatteena on, että kaikille sellaisille annotoitaville ilmiöille, jotka voivat esiintyä tallenteessa päällekkäisinä, tulisi luoda erilliset annotaatiokerrokset.

Samassa annotaatiokerroksessa voidaan siis kuvata vain yhdentyyppisiä taikka useammantyyppisiä mutta toisensa poissulkevia yksiköitä. Esimerkiksi tietyn puhujan sisään- ja uloshengitykset (ks. 7) kannattaa merkitä omaan kerrokseensa, koska puhuja pystyy periaatteessa tuottamaan puhetta (ja tekemään kaikenlaista muutakin) sekä sisään- että uloshengittäessään. Toisaalta sekä sisään- että uloshengitykset voidaan taloudellisimmin kuvata samassa kerroksessa, koska puhuja ei voi tehdä molempia yhtä aikaa.


2.2.2 Sama vai eri yksikkö?

Jos yksiköiden rajat eri annotaatiokerroksissa poikkeuksetta yhtenevät, kyseessä on saman yksikön kaksi eri piirrettä. Tällöin toisen annotaatiokerroksen rajaukset ovat redundantteja, ja turhan lisätyön sekä virheiden välttämiseksi kannattaisi annotaatiokäsitteistöön määritellä vain yksi yksikkö, jolla on kaksi piirrettä.


2.2.3 Annotaatioyksikön piirteiden määritteleminen

Puh-editorissa annotaatioyksiköille voi lisätä haluttuja ominaisuuksia tai piirteitä, joille voi tarvittaessa määritellä rajatun joukon sallittuja arvoja. Puh-editorilla voi esimerkiksi lisätä jollekin yksikölle piirteen ''painoaste'' ja luetella tälle vaikkapa arvot ''0,1,2,3'', joilla haluaa kuvata havaitun painollisuuden määrää. Jos joku jatkossa käyttää samaa määritelmää, hän voi Puh-editorissa antaa ko. yksiköille ainoastaan painoasteita nollasta kolmeen. Tämä helpottaa ja yhtenäistää kuvauksen valintaa. Piirteille voitaisiin yhtä hyvin antaa muuntyyppisiäkin arvoja, esim. ''painollinen, painoton''. Koska valittujen piirrearvojen joukko on periaatteessa mielivaltainen ja riippuu käyttäjän tarpeista, on useimpien piirteiden määrittely jätetty käyttäjien tehtäväksi.


2.2.3.1 Kaikkien yksiköiden yhteiset ominaisuudet

Kaikilla annotaatioyksiköillä on myös joukko valmiiksi esimääriteltyjä piirteitä. Annotoija voi tarvittaessa määritellä kullekin yksikölle erikseen äänilähteen (soundSource), mikäli esimerkiksi puhuja vaihtuu keskellä annotaatiokerrosta. Myös kunkin yksikön kielen (language) voi määritellä erikseen, mikäli halutaan osoittaa, etä puhuja käyttää kesken kaiken vieraskielisiä sanoja. Äänilähteellä ja kielellä on oletusarvot, jotka on määritelty kyseisen tallenteen metatiedoissa. Oletusten mukaisia piirrearvoja ei siis tarvitse erikseen annotoida. Kuhunkin yksikköön voi lisätä vapaamuotoisen kommentin (comment), jossa voi vaikkapa kuvailla yksikön rajaamisessa esiintyneitä vaikeuksia tai erikseen määrittelemättömiä lisäominaisuuksia. Yksikön tilaa tai työvaihetta (status) voi kuvata jollakin seuraavista piirteistä:

0 ei määritelty

1 virheellinen

2 tekeillä (kesken)

3 OK (valmis, hyväksytty)

4 kelluva (ei aikaan sidottu)
Yksikön saa merkitä valmiiksi (status = 3) ainoastaan siinä tapauksessa, että on itse tarkastanut ja hyväksynyt yksikön kaikkine nimikkeineen ja todennut, että se noudattaa annotaatioyksikön määritelmässä ja tässä oppaassa annettuja suosituksia.

Kelluva yksikkö (floating unit; status = 4) tarkoittaa sellaista annotaatioyksikköä, jonka halutaan olevan mukana annotaatiossa, mutta jolle ei voida määrittää alkamis- ja päättymisaikaa. Kelluvina yksiköinä voidaan kuvata esimerkiksi erilaisia abstrakteja lingvistisiä yksiköitä, joille ei nähdä olevan suoraa vastinetta puhesignaalissa. Samassa annotaatiokerroksessa olevilla kelluvilla yksiköillä on tietty keskinäinen järjestys, muttei siis esimerkiksi ajallista kestoa.

Jokaisella yksiköllä on myös ominaisuudet alkupiste ja loppupiste (vaikka nämä olisivatkin täsmälleen samassa aikapisteessä tai vaikka yksikkö olisi kelluvassa tilassa). Alku ja loppu tallentuvat yksikön piirteinä automaattisesti, kun yksikön rajoja siirretään jollakin annotaatioeditoriohjelmalla. Lisäksi Puh-editori tallentaa jokaiselle yksikölle automaattisesti luontiajan ja viimeisimmän muokkausajankohdan.

Mikäli käytät nimikointiin Praat-ohjelmaa, lue ohje piirteiden annotoinnista Praatilla (5)....2.2
Tämä ehto on seurausta yksiköiden määritelmien tallennukseen käytettävästä standardoidusta RDF-dokumenttiformaatista, joka mahdollistaa määritelmien perusteella tapahtuvan koneellisen päättelyn. Esimerkiksi Puh-editori voi RDF-muotoisten määritelmien perusteella valvoa, että annotoija todella noudattaa määritelmässä mainittuja rajoituksia.

next up previous contents index
: 2.3 Suositeltava annotointijärjestys : 2. Kuinka annotaatioyksiköitä käytetään? : 2.1 Annotaatioyksiköiden käyttö   Sisältö   Hakemisto
Mietta Lennes 2005-05-11