Puhetietokantoihin liittyvää termistöä

Mietta Lennes


Sisällys

Mitä käsitteen määrittelyn pitäisi sisältää

Joillekin käsitteille on ehdotettu myös merkintätapaa annotaatiossa. [xxx] tarkoittaa, että kyseinen yksikkö tai ominaisuus annotoidaan rajaamalla signaalista vastaava segmentti ja antamalla sille nimikkeeksi xxx.

Huom. Ei ole tarkoitus, että kaikki ao. käsitteet välttämättä annotoidaan puhetietokantaan. Pieni osa käsitteistä valitaan nk. ydinkäsitteiksi, kun ne katsotaan yhteisesti tarpeellisiksi ja voidaan määritellä yhtenevällä tavalla. Tällä hetkellä ehdotetut ydinkäsitteet on merkitty tähdellä (*).

Yleisiä käsitteitä

*ankkuri (anchor)
= annotaatiograafissa[4]: noodi (node). Maamerkki. Tietty piste tai paikka lingvistisessä signaalissa, johon voidaan kohdistaa annotaatio tai jota voidaan käyttää segmentin alkuna tai loppuna.
*annotaatio (annotation)
Jonkin tallenteen (puhe, video, teksti tms.) määrättyyn ulottuvuuteen (ts. tallenteen osaan tai pisteeseen) liitetty kuvaus tai representaatio (symbolinen tai ei). Annotaatio siis liittyy joko segmenttiin tai ankkuriin, jotka taas viittaavat tiettyyn tallenteeseen. Yksittäisen annotaation sisältämää kuvausta kutsutaan myös nimikkeeksi.
Esimerkkejä: Äänisignaalista tehty transkriptio on annotaatio, kun se on liitetty äänisignaalin aikaulottuvuuteen. Erilaiset tekstin joukkoon lisätyt tagit (tag) ovat annotaatioita.
Samalla tallenteella voi olla useita rinnakkaisia annotaatioita. Mutta: jollakin perusteella pitänee kuitenkin määritellä, mikä rinnakkaisista annotaatioista on oletusannotaatio? Ehkä tietokannan käyttäjä määrittelee preferenssinä suosikkiannotoijansa?
Ehdotus: kun annotoija tarkastelee tai muuttaa jonkun toisen tekemää annotaatiota, hän voi samalla merkitä tiettyjä annotaatiotasoja tai niiden osia sellaisinaan hyväksytyiksi. Näin saadaan käyttöön mahdollisimman paljon useamman henkilön tarkastamia annotaatioita. Hakuvaiheessa hakukone voi sisällyttää hakuun tietystä tallenteesta vain ne osat, jotka ovat käyttäjän ``suosikkiannotoijien'' tekemiä tai hyväksymiä.
*annotaatioalue, annotaatiodomeeni (annotation domain)
Joukko annotoitavia ilmiöitä, jotka ainakin löyhästi liittyvät samaan aihealueeseen. Annotaatioalueet eivät ole ehdottomia tietokannan rakenteen kannalta, ja käsitteet tietyllä annotaatioalueella voivat olla tiiviissäkin yhteydessä jonkin toisen alueen käsitteisiin.
annotaatiograafi, AG (annotation graph)
Esitysmuoto, jossa annotaatioita kuvataan noodien ja niiden välisten nimettyjen kaarien (arc) avulla (ks. [4]). Saanut innoituksensa verkkoteoriasta.
IMDI (ISLE Metadata Initiative)
Yritys standardoida multimodaalista aineistoa tai multimediaa sisältäviä kieliaineistoja. Periaatteena metadatan ja sisällön fyysinen erottaminen.
istunto, sessio (session)
``Lingvistisen analyysin perusyksikkö: koherentti lingvistisen toiminnan tai suorituksen tyyppi'' [9]. Istunto on tekninen nimitys niille metatiedoille, erityyppisille tallenteille ja annotaatioille, jotka kuvaavat samaa kielellistä tapahtumaa tai tilannetta. Istunto muodostaa kimpun tiiviisti yhteenkuuluvaa aineistoa: esim. tietystä puhujasta tehty videotallenne, kuvia hänen kodistaan, kenttähuomautuksia tapahtumapaikasta ja videotallenteeseen liittyvät multimodaaliset annotaatiot. Istunnon käsite on määritelty IMDI-standardissa.
kaari (arc)
Kaari on annotaatiograafissa (annotation graph, AG) kahden noodin tai ankkurin väli. Vrt. segmentti.
Verkkoteoriassa kaari on ns. suunnatun verkon särmä.
lingvistinen signaali (linguistic signal)
Aikasidonnainen, kielellisestä toiminnasta tehty tallenne (Steven Birdin määritelmä).
Esimerkkejä: kielellistä toimintaa kuvaava ääni-, video- tai fysiologinen tallenne, jokin näistä johdettu signaali (esimerkiksi perustaajuus), tai teksti.
Lingvistinen signaali indeksoidaan joko näytteinä (sample) tai tekstin kohdalla merkkeinä (character).
litteraatio (transliteration)
Puheen transkriptiotapa, joka noudattaa pääpiirteissään oikeinkirjoitusta, mutta voi lisäksi sisältää erityisiä merkintätapoja muille kielelliseen toimintaan liittyville ilmiöille. Jos litteraatio liitetään tallenteen aikaulottuvuuteen, se on myös annotaatio.
(Huom. englanninkielinen käännös 'transliteration' on hieman epätarkka, koska se yleensä viittaa pelkästään kirjoitusjärjestelmien välillä tapahtuvaan konversioon. Termiä käytetään kuitenkin myös litteraatiosta.)
*metatieto, metadata (metadata)
Kokonaiseen puhetietokantaan tai johonkin sen sisältämään tallenteeseen liitetty yleiskuvaus, viitetiedot ja muu oheisinformaatio.
EAGLES/ISLE:n yleiskatsaus kielitieteelliseen metadataan: [2]
puhearkisto (speech archive)
Kokoelma puhetallenteita (ilman transkriptioita). Alakäsite: puhekorpus.
puhekorpus (speech corpus)
Mikä tahansa kokoelma puhetallenteita ja niiden transkriptioita. Puhetietokanta on eräänlainen puhekorpuksen erikoistapaus. Toisaalta puhetietokannan voidaan nähdä sisältävän erilaisia osakorpuksia, jotka on kerätty eri tarkoituksiin.
*puhetietokanta (speech database)
Järjestetty kokoelma annotoituja puhetallenteita, joista voidaan tehdä hakuja (sisältää jonkinlaisen hallintajärjestelmän). Yläkäsite: puhekorpus.
multimodaalinen (multimodal)
Useita eri aistimodaliteetteja yhdistävä. Esim. näkö + kuulo, haju + maku + näkö, ...
ISLEn standardointiyritykset multimodaaliselle annotaatiolle: [1]
*nimike (label)
Ankkurille tai segmentille (tai näiden joukolle) annettu kuvaus tai analyyttinen merkintä, eli annotaatio.
*nimikointi (labeling)
Puheen symbolisten kuvausten (transkriptioiden) liittäminen segmentoituun puhetallenteeseen.
noodi (node)
ks. ankkuri
ortografinen transkriptio (orthographic transcription)
Transkriptio, joka ainakin pääpiirteissään noudattaa ko. kielen oikeinkirjoitusta (ortografiaa).
*segmentointi (segmentation)
Erilaisten yksiköiden (ajallisten) alku- ja loppupisteiden etsiminen ja merkitseminen puhe- tms. signaalista. Tuloksena segmenttejä.
*segmentti (segment)
Puhe-, video- tms. signaalin osa, jolla on määrätty alku- ja loppupiste, eli segmentti liittyy kahteen eri kohdissa signaalia olevaan ankkuriin. (Huom. yksittäinen, jollakin periaatteella signaalista määritetty piste ei ole segmentti vaan ankkuri.)
*transkriptio (transcription)
Puhetallenteen tai sen osan symbolinen kuvaaminen. Edellyttää aina tulkintaa. Tiukasti määriteltynä transkriptio on annotaation alakäsite vain siinä tapauksessa, että transkriptio on jollakin tavalla liitetty siihen tallenteeseen, jota se kuvaa.
UML (Unified Modeling Language)
Kuvauskielistandardi, jonka avulla ohjelmoijat, ohjelmistosuunnittelijat ja maallikot voivat yhdessä rakentaa järjestelmän rakennetta kuvaavan mallin. UML-kielellä kuvattu oliokaavio voidaan suoraan kääntää esimerkiksi XMI-määrittelyksi tai vaikkapa Java-koodiksi.
UML-version 1.4 määrittely löytyy verkosta:
http://www.omg.org/technology/documents/formal/uml.htm
UML-kaavioita on helppo piirtää ilmaisella Java-pohjaisella ohjelmalla nimeltä Poseidon:
http://www.gentleware.com/products/download.php3
XML (Extensible Markup Language)
W3C:n standardoima rakenteisten dokumenttien ja datan kuvauskieli. SGML:n yksinkertaisempi versio. XML-määrittely löytyy verkosta:
http://www.xml.com/axml/testaxml.htm
Lisää perusteluja XML:n käytölle kielitieteellisissä aineistoissa: [7]
XSL (Extensible Stylesheet Language)
W3C:n standardoima deklaratiivinen kieli XML-dokumenttien muuntamiseksi. Lisää tietoa XSL:stä:
http://www.w3.org/Style/XSL/

Puhetietokannan metadata

*puhuja (speaker)
Puhetietokannan sisältämissä tallenteissa esiintyvän puhujan pysyvät tiedot puhetietokannan metadatassa, tai puhujan muuttuvat tiedot kunkin relevantin puhetallenteen metadatassa. Kummassakin tapauksessa tiettyyn puhujaan viitataan ainutkertaisella ID-koodilla. Myös jossakin tallenteessa esiintyvällä tunnistamattomalla puhujalla on oma ID-koodi, vaikkei hänestä tiedettäisi mitään muuta.
Puhujan pysyvät attribuutit: ID-koodi, sukupuoli, syntymäaika, syntymäpaikka, vanhempien murteet
Puhujan muuttuvat l. tallennekohtaiset attribuutit: kielitaito, asuinpaikat, koulutus, ammatti, uskonto, puolison murre, lasten määrä; rooli ko. puhetilanteessa; suhde kuhunkin toiseen puhujaan; palkkio tms. korvaus; lupa tallenteen käyttöön

Tallenteen metadata

tehtäväsuuntautunut keskustelu (task oriented conversation)
Puhetilanne. Attribuutit: suunnittelematon puhe, koetilanne.
*annotoija (annotator)
Annotaatioiden laatija. Sisältyy tallenteeseen liittyvään metadataan. Samalla tallenteella voi olla useita annotoijia ja vastaavasti useita rinnakkaisia annotaatioita. Annotoijaa koskevaa metadataa: milloin viimeksi muuttanut annotaatiotaan, onko ``sertifioitu'' annotoija,...
arkikeskustelu
 
asiointitilanne (transaction situation)
Yläkäsitteet: institutionaalinen puhe. Attribuutit: suunnittelematon puhe.
*dialogi (dialogue)
Keskustelu, johon osallistuu (aktiivisesti) kaksi puhujaa. Attribuutit: suunnittelematon puhe.
ei-institutionaalinen lukupuhunta
Esim. tarinan (tai epämuodollisessa tilanteessa sanomalehden) lukeminen ääneen. Tallenteen metadataa. Attribuutit: suunniteltu puhe.
esitelmäpuhe
Asiatekstin tai etukäteen kirjoitetun julkisen puheen ääneen lukeminen. Tallenteen metadataa, puhetilanteen attribuutti. Yläkäsite: institutionaalinen puhe. Attribuutit: lukupuhunta.
*institutionaalinen puhetilanne (institutional speech situation)
Puhetilanne, jossa ainakin yksi puhuja edustaa jonkinlaista muodollista organisaatiota (tai on tilanteessa ammattilainen).[5]
*keskustelu
Puhetilanne, johon osallistuu vähintään kaksi puhujaa. Yläkäsite: puhetilanne. Alakäsitteitä: arkikeskustelu, institutionaalinen keskustelu. Attribuutit: suunnittelematon puhe.
keskustelu annetusta aiheesta
Attribuutit: suunnittelematon puhe, koetilanne.
kerronta, narratiivi (narrative)
 
kuvatehtävä
Alakäsitteet: kuvan nimeäminen, kuvan selittäminen.
kuvan nimeäminen (picture naming)
Yläkäsite: kuvatehtävä.
kuvan selittäminen (picture describing)
Puhuja selittää vapaamuotoisesti hänelle annettua kuvaa, sarjakuvaa tai karttaa. Yläkäsite: kuvatehtävä.
*lukupuhunta (reading aloud)
Alakäsitteet: institutionaalinen ja ei-institutionaalinen lukupuhunta. Attribuutit: suunniteltu puhe.
*monologi, yksinpuhelu
Puhetilanne, jossa on vain yksi puhuja. Passiivisia kuulijoita voi kuitenkin olla läsnä. Yläkäsite: puhetilanne.
murre (dialect)
 
narratiivi (narrative)
ks. kerronta.
näytteleminen (acting)
Etukäteen kirjoitettujen vuorosanojen puhuminen ulkomuistista, niihin eläytyen. Yläkäsite: suunniteltu puhe.
ohjeistus, instruktio (instructions)
Tutkimustilanteessa puhujille annetut ohjeet yms. aineisto. Vapaasanainen kuvaus (johon voi liittyä tallenteita).
*puhetilanne
Tilanne, jossa vähintään yksi ihminen tuottaa puhetta. Sisältyy tallenteen metadataan.
Attribuutteja: puhujien kokonaismäärä tallenteessa; institutionaalinen vai arkikeskustelu; avoin/yksityinen; onko yleisöä tai tarkkailijoita läsnä; tilanteeseen liittyvät esineet; jne.
Mukana voi olla vapaasanainen kuvaus, esim. ``syntymäpäiväjuhlat'', ``ostoksilla'', ``kaupan takahuoneessa''.
Alakäsitteitä: monologi, keskustelu. Assosiaatiot: tapahtumapaikka.
puhetyyli (speaking style)
Vapaasanainen kuvaus tallenteen sisältämästä puhetyylistä. Täydentää muodollista puhetyyliluokitusta (suunniteltu vs. suunnittelematon, jne.). Sisältyy tallenteen metadataan. Voidaan ohittaa alemman tason annotaatiolla, jos puhetyyli muuttuu kesken tallenteen.
*puhujat (speakers)
Tallenteen aikana esiintyvien puhujien ID-koodit. Tallenteeseen liittyvää metatietoa.
*puhujien-lukumäärä (number of speakers)
Puhujien kokonaismäärä tallenteen aikana. Tallenteeseen (tai koko istuntoon) liittyvää metatietoa. Puhujien kokonaislukumäärä voidaan ohittaa alemman tason annotaatiossa esim. kun puhujia liittyy mukaan tai poistuu keskustelusta.
*puhujien visuospatiaalinen suhde (visuospatial relationship between speakers)
Puhujan suhde tilassa kuhunkin toiseen puhujaan. Attribuutit: näkyvyys, kanava (esim. puhelin), fyysinen välimatka. (voidaan ohittaa alemman tason annotaatiossa, jos muuttuu)
Ks. myös puhuja: puhujan muuttuvat ominaisuudet.

sosiolekti (sociolect)
Puhujan tallennekohtaisten ts. muuttuvien ominaisuuksien (ikä, ammatti, koulutus,...) muodostama kokonaisuus (?)
spontaani puhe (spontaneous speech)
Puhe, joka olisi tuotettu myös ilman tutkimustarkoitusta.
Attribuutti: suunnittelematon puhe.
*suunniteltu puhe (planned speech)
Puhetyyli, jossa puhujan puhe on suunniteltu etukäteen, esim. hän lukee ääneen, puhuu ulkomuistista tai näyttelee.
Alakäsitteet: suunniteltu institutionaalinen puhe, suunniteltu ei-institutionaalinen puhe, suunniteltu puhe koetilanteessa.
*suunnittelematon puhe (unplanned speech)
Puhetyyli, jossa puhujan puhetta ei ole suunniteltu etukäteen.
Alakäsitteet: suunnittelematon institutionaalinen puhe, suunnittelematon puhe kontrolloidussa koetilanteessa ja suunnittelematon ei-institutionaalinen puhe.
suunnittelematon institutionaalinen puhe
Yläkäsite: suunnittelematon puhe. Alakäsitteet: haastattelu, asiointitilanne.
suunnittelematon puhe koetilanteessa
Suunnittelematon puhe, joka tuotetaan kontrolloiduissa koeolosuhteissa tutkimustarkoitukseen. Yläkäsite: suunnittelematon puhe. Alakäsitteitä: kuvatehtävä, kerronta/narratiivi, annetun tehtävän suorittaminen keskustelemalla, keskustelu annetusta aiheesta, vapaa keskustelu.
*tallenne (record)
Tarkoittaa tässä vain digitaalisia tallenteita, jotka on mahdollista liittää puhetietokantaan. Yläkäsite: istunto. Alakäsitteitä: äänitallenne, videotallenne, tekstitallenne.
Metadataa: Attribuutteja: *tunniste, *nimi, *koko, *tyyppi, *formaatti, tapahtumapaikan kuvaus, tallennusvälineet, äänitysajankohta, muutosajankohdat, äänittäjä, aihe, kuvaus, julkaisija, toimittaja, lähde, kieli, suhde, kattavuus, *oikeudet. Assosiaatiot: puhetilanne (kuuluu myös tallenteen metadataan).
*tapahtumapaikka (setting)
Yleiskuvaus paikasta, josta istunnon sisältämä aineisto on kerätty. Assosiaatiot: puhetilanne.
tarkkailija (observer)
Henkilö, joka on läsnä puhetilanteessa siihen kuitenkaan osallistumatta. Puhujat eivät välttämättä ole tietoisia tarkkailijan läsnäolosta (vrt. yleisö). Puhetilanteen attribuutti (tallenteen metatietoa).
toiminta, aktiviteetti (activity)
Sisältyy tallenteen metadataan, voisi olla esimerkiksi puhetilanteen attribuutti. Ainakin osittain vapaasanainen toiminnan tyypin kuvaus.
Esimerkkejä: bussin kuljettaja/matkustaja, huutokauppa, kirkko, oikeusistunto, ruokailu, tiedustelu, neuvottelu, muodollinen tapaaminen, pelin pelaaminen, leikki, urheilu, hotelli, epämuodollinen keskustelu, haastattelu, luento, tori, juhlat, puhelinkeskustelu, roolileikki, uutisten lukeminen, narratiivi, kauppa, tehtäväsuuntautunut dialogi, terapia, matkatoimisto, ...
uutispuhe (newsreading)
Tallenteen metadataa. Yläkäsite: institutionaalinen lukupuhunta.
vapaa keskustelu
Ei-institutionaalinen keskustelu, jossa puheenaihe ei ole ulkopuolisten henkilöiden määrittelemä. Esimerkiksi ``kahvipöytäkeskustelu''. Yläkäsitteet: keskustelu, suunnittelematon puhe. Alakäsitteet: asiointikeskustelu, vapaa keskustelu laboratorio-oloissa.
vapaa keskustelu laboratorio-olosuhteissa
Tallenteen metadataa. Yläkäsitteet: vapaa keskustelu.
yksinpuhelu
ks. monologi.
*yleisö (audience)
Yksi tai useampia ihmisiä, jotka ovat läsnä puhetilanteessa, mutteivät osallistu siihen puhujina. Yleisö voi joko yksinomaan tarkkailla tai myös antaa merkkejä hyväksynnästä (nyökkäykset, suosionosoitukset). Puhujat ovat tietoisia yleisöstä. Yleisö voi olla myös esim. kokeen johtaja. Yleisön läsnä-/poissaolo on istuntoon tai tallenteeseen liittyvää metatietoa (puhetilanteen attribuutti).

Akustis-laskennallinen annotaatioalue

akustis-laskennallinen annotaatioalue (acoustic-computational annotation domain)
Tämän annotaatioalan käsitteet ovat automaattisesti tai puoliautomaattisesti johdettavissa muusta tietokannan informaatiosta.
Millaista akustista ja laskennallista tietoa tietokantaan pitäisi välttämättä tallentaa? Ylimääräiset mittaukset ja tiedot vievät tallennustilaa, mutta usein käytettävät ja raskaat analyysit voidaan suorittaa ja päivittää ``offline'', jolloin ne ovat heti käyttäjän ulottuvilla.
näyte (sample)
 
perustaajuus, F0 (fundamental frequency,
F0)
tauko (pause)
Puhetallenteen segmentti, jonka aikana puhuja ei artikuloi. (Huom. muut prosodiset rajat, esim. intonaatioyksiköt, merkitään erikseen ja ne kuuluvat prosodiseen alueeseen.)
puhelimen hälytysääni (telephone ring)
Merkintä: [.ring]
puhelimen linjahäly (telephone line noise)
Merkintä: [.ln]
*puhunnos (utterance)
Jakso, jonka aikana puhuja yhtäjaksoisesti puhuu (artikuloi). Puhunnoksen voi päättää tauko, hengitys (jonka aikana ei artikuloida), täytetty tauko, tms.
taustamelu (background noise)
Merkintä: [.bn]

Foneettinen annotaatioalue

foneettinen annotaatioalue (phonetic annotation domain)
Annotaatioalue, jossa kuvataan foneettista tulkintaa vaativat ilmiöt.
*hengitys (breathing)
Vaatii oman annotaatiokerroksen, koska sisään- ja uloshengitys voi esiintyä päällekkäin monen muun puheen ilmiön kanssa. Esim. sisäänhengitys puhunnoksen aikana implikoi ingressiivistä puhetta.
Läheskään kaikki hengitykset eivät erotu äänisignaalissa eivätkä siis ole annotoitavissa (ilman fysiologista lisäinformaatiota). Jos hengityksen alku ja loppu ovat erotettavissa, ne eivät kuitenkaan välttämättä ole tarkkarajaisia.
Attribuutit: sisään/ulos
intonaatioyksikkö (intonation unit)
Intonaatioyksikön merkitseminen on hyvin subjektiivista, eikä sille liene olemassakaan mitään yksiselitteistä määritelmää.
konsonantti (consonant)
Äänne, joka muodostetaan ääntöväylän sulkeuman tai supistuman avulla. Yleensä konsonantti esiintyy vokaalin kanssa samassa tavussa (kerake; "con"), mutta resonanttikonsonantit voivat yksinkin muodostaa tavun (engl. [l] sanassa "bottle"; saksan [n] "bitten"; tshekin [r] "krk").
Attribuutit: artikulaatiopaikka, artikulaatiotapa.
Merkintä: [konsonanttimerkki]
*kuiskaus (whisper)
Merkintä: äänenlaatutasolla [0]
prominenssi (prominence)
Puheen jakso, joka havaitaan lähikontekstiin (muihin saman intonaatioyksikön osiin) nähden ``voimakkaampana'', ``selvemmin erottuvana'' tai ``painollisena''. Merkintä: omalle annotaatiotasolleen. Montako prominenssiastetta? Entä prominenssityypit (esim. emfaattinen, kontrastiivinen)? Pitäisikö sana- ja lauseprominenssia kuvata erikseen?
prosodinen annotaatioalue (prosodic annotation domain)
Puheen sävelkulkua, painotusta ja kestoja käsittelevä annotaatioalue. Sisältyy osana foneettiseen alueeseen.
vokaali (vowel)
Äänne, joka tuotetaan ääntöväylän avaumalla (ääntiö). Jos vokaalit on tuotettu normaalilla fonaatiolla, niillä on harmonisista osasävelistä koostuva spektri ja ne ovat auditiivisesti sonorisia kuten yleensä resonanttiäänteet. Vokaalit voivat yksinäänkin muodostaa tavun. Vokaalit ovat sävelkulun kannattajia. [8]
Attribuutit: etisyys (kielen korkeimman kohdan etäisyys ylähampaista), väljyys (kielen korkeimman kohdan etäisyys suulaesta), huulten asento (pyöristymisaste; vrt. pyöreä/lavea), nasaalisuus, kvantiteetti.
*äänenlaatu (voice quality)
Puhujan tuottaman soinnin laatu, esim. modaaliääni, narina, henkäyssointi, falsetti ja kuiskaus. Vaatii oman annotaatiotasonsa, koska voi esiintyä päällekkäin muiden ilmiöiden kanssa. Äänenlaatuilmiöiden luokittelu on vaikeaa ja tutkimuksissa on todettu, että ihmiset kykenevät erottamaan lähinnä vain narinaäänen melko luotettavasti [6].
Merkintäehdotus: glottalisaatio [?], henkäyssointi [Hv], kuiskaus [0], ... (modaaliääntä ei tarvitse merkitä)
*äänne, fooni (sound, phone)
Pienin mahdollinen kvalitatiivinen (= laadullinen) puheen segmentti, joka kuulon avulla voidaan erottaa muista segmenteistä.
Esim. brit. engl. sanassa <church> 'kirkko', jonka kirjoitusasussa on kuusi kirjainta, voidaan erottaa viisi äännettä. Sana alkaa ja päättyy affrikaattaan [tS], jonka kaksi segmenttiä ([t] ja [S] = suhu-s) voidaan erottaa kuulon avulla. Fonologisesti sanassa on kuitenkin vain kolme foneemia, koska affrikaatta on itsenäinen foneemi. Tietyissä tapauksissa äänne ja #piirre# voivat olla vaikeasti erotettavissa: voimakas aspiraatio on kuultavissa (esim. englannissa vokaalin edessä [p]:ssä sanassa <pea> 'papu') ja voi olla kestoltaan tavallisen äänteen mittainen ja muodostaa oman, puheen virrasta erottuvan segmentin[8].
Merkintä: [foneettinensymboli(_tarke)(_tarke)].

Lingvistinen (kielellinen) annotaatioalue

lingvistinen annotaatioalue (linguistic annotation domain)
Lingvististä tulkintaa vaativat annotaatiot.
morfologinen annotaatioalue (morphological annotation domain)
Morfologisten annotaatioiden muodostama kokonaisuus.
foneemi (phoneme)
``Kielen järjestelmään kuuluva abstraktinen, ensisijaisesti kvalitatiivinen, äänteellisesti toteutettavissa oleva yksikkö, jolla on foneemianalyysin avulla selville saatavissa oleva identiteetti. Foneemi on segmentaalinen kokonaisuus, jota ei voida jakaa pienempiin segmentteihin, mutta jonka voidaan katsoa koostuvan erottavista eli distinktiivisistä piirteistä.'' [8]
Merkintä: Koska foneemien selville saaminen vaatii foneemianalyysia ja koska foneemijono voidaan suomen kohdalla johtaa melko tarkasti ortografian perusteella, ehdotan, ettei foneemeja sinänsä annotoida segmentteinä puhesignaalissa.
kanoninen muoto (canonical form)
= saneen ``sitaattimuoto''? = lemma?
sana (word)
yhdyssana tai sana.
sanaluokka, leksikaalinen luokka (part of speech, POS, lexical category)
Saneen attribuutti annotaatiossa.
Attribuutin mahdollisia arvoja: substantiivi (erisnimi), adjektiivi, verbi (apuverbi), pronomini, numeraali; entä mitä seuraavista? adverbi, konjunktio, prepositio, postpositio, interjektio, keskustelupartikkeli, dialogipartikkeli, palautesana, lausumapartikkeli, fokuspartikkeli, modaalipartikkeli
*sane, sananmuoto (word form, token)
Sana siinä muodossa kuin se puheessa esiintyy, kaikkine affikseineen.
Attribuutteja: sanaluokka, lemma, (onko ``myöhäinen laina'',) onko vierasta kieltä
Mahdollisia merkintätapoja eri tasoilla: ortografinen, ortokrafine, [saneen foneettinen transkriptio] .
tavu (syllable)
Tavu on puheentuoton eräs perusyksikkö. Tavun sisäisessä rakenteessa erotetaan tavun keskus (centre, nucleus), tavun avaava segmentti (onset) ja tavun päättävä segmentti (coda). Tavunrajaa ei kuitenkaan ole aina helppoa määrätä.[8] Fonologinen tavurakenne voi erota huomattavasti foneettisesti toteutuneesta äännejonosta.
Yläkäsite: sana (tavu ei ole mahdollinen ilman tunnistettavaa sanaa?).
Merkintä: [tavu] (omalle annotaatiotasolleen)

Syntaktinen annotaatioalue

syntaktinen annotaatioalue (syntactic annotation domain)
Lauseiden rakenteeseen liittyvät annotaatiot.
Ongelma: "suoran" litteraation lisäksi tarvittaisiin (ainakin toistaiseksi) normaalistettu, yleiskielinen versio, jotta automaattisia morfologisia tai syntaktisia parsereita voidaan käyttää.

lauseenjäsen
 
lauseke (phrase)?
 
*lause (clause)
Alakäsitteet: päälause, sivulause. Onnistuuko annotointi, jos kyseessä ei ole luettu teksti?
Attribuutteja: tempus, aktiivi/passiivi, 1./2./3. persoona, ...?
parenteesi (parenthesis)
Sivuhuomautus, ts. edeltävälle ja seuraavalle puheen jaksolle (prosodisesti) alisteinen jakso.
yhdyslause (complex sentence)
Koostuu useasta lauseesta.

Tekstuaalinen annotaatioalue

tekstuaalinen annotaatioalue (textual annotation domain)
Annotaatioalue, joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin piirteiden annotointi).
virke (sentence)
 
kappale, paragraafi (paragraph)
 

Semanttis-pragmaattinen annotaatioalue

semanttis-pragmaattinen annotaatioalue (semantic-pragmatic annotation domain)
Annotaatioalue, joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin piirteiden annotointi).
asenne (attitude)
Puhujan suhtautuminen topiikkiin.
fokus (focus)
ks. informaatiofokus
Huom. Luetusta tekstistä funktionaalinen määritys voidaan tehdä lähinnä syntaktisin perustein ja välimerkkien avulla. Suunnittelemattomassa puheessa funktiot ovat hyvin tulkinnanvaraisia. Yleensä eri funktiot esiintyvät myös päällekkäin.

funktionaalinen tyyppi (functional type)
Saneen attribuutti. Arvoja: negaatio; modaalinen (välttämättömyys, mahdollisuus); episteeminen (tieto, usko); 3-ulotteiset suhteet objektien välillä, kausaaliset suhteet asiantilojen välillä, deiktiset funktiot (henkilö, spatiaalinen, temporaalinen); palautefunktio, oman kommunikaation hallinta; muu?
informaatiofokus (information focus)
Samat ongelmat kuin informaatiorakenteessa yleisemmin.
informaatiorakenne (information structure)
Informaatiorakenteen kuvaukseen ei ole olemassa mitään selkeästi määriteltyä tapaa. (Alakäsitteitä: esim. teema = ``vanha tieto'', reema = ``uusi tieto''.) Domeeni: semanttis-pragmaattinen.
topiikki, puheenaihe (topic)
Samat ongelmat kuin informaatiorakenteessa. Merkintä: [vapaasanainen kuvaus]? Tarvittaessa erillisiä annotaatiotasoja ``subtopiikeille''?

Diskurssiannotaatioalue

diskurssiannotaatioalue (discourse annotation domain)
Annotaatioalue, joka käsittelee puheen vuorovaikutuksellisia piirteitä.
dialogiakti (dialogue act)
ks. kommunikatiivinen akti.
epäröinti (hesitation)
Määrittely? Merkintä?
epäsujuvuus (disfluency)
epäröinti, väärä aloitus, ...
puheakti (speech act)
ks. kommunikatiivinen akti
kommunikatiivinen akti (communicative act)
Yhteisesti hyväksyttyä ja kaikkiin tapauksiin sopivaa perusluokitusta ei ole, mutta periaatteessa tällainen informaatio on mahdollista annotoida tutkijan omien mieltymysten mukaan. (Miten määritetään puheen tai eleen segmentti, johon tietty akti liittyy?)
Olisi ehkä mahdollista jaotella puheenvuorot seuraavasti: partikkelivuoro, lauseke, lause, moniyksikköinen (multiunit turn).
Voisi myös merkitä helposti tunnistettavia rakenteellisia piirteitä: interrogatiivi (hakukysymys tai kO-kysymys), deklaratiivi, eksklamatiivi.
Sekalaisempia esimerkkejä: väite/toteamus, ymmärrys, kysymys, vastaus, vahvistus, avaus, lopetus, varmistus, kiittäminen, toisto, uudelleenmuotoilu, jatkokehotus, odotus, korjaus, toistopyyntö, hyväksyntä, vahvistuspyyntö, täydennys/selvennys, anteeksipyyntö, selitys, epäröinti, keskeytys, vitsi, vuoron pitäminen, vastalause, tarjous, muistutus, johtopäätös, pyyntö, itsen vahvistus, määrittely, esittäytyminen, muu (epäselvä).
kommunikatiivinen funktio (communicative function)
oman kommunikaation säätely; interaktiiviset funktiot; muut: väite, kysymys, pyyntö, huudahdus, ...[3] Merkintä?
päällekkäispuhunta (overlap)
Puhetallenteen jakso, jossa kaksi tai useampia puhujia puhuu samanaikaisesti. (Ei sisällä paralingvististä päällekkäisyyttä, esim. yskimistä tai nauramista toisen puheen aikana?)
Merkintä: Päällekkäispuhuntaa ei erikseen merkitä annotaatioon, koska se voidaan johtaa annotoitujen puhunnosten ajallisesta sijoittumisesta.
sekvenssi (sequence)
Kahden tai useamman puhunnoksen sarja voi muodostaa kokonaisuuden tai yksikön seuraavilla perusteilla: 1) puheenvuoron säätely, 2) kontekstuaalinen funktionaalinen riippuvuus, esim. kysymys/vastaus, 3) relevanssi tiettyyn topiikkiin nähden, 4) konventionaalisesti tai funktionaalisesti motivoitu alitoiminta (alajakso tai vaihe) [3]
vuoro, puheenvuoro (turn)
1) saman puhujan tietyssä keskustelussa tuottama puheen jakso, jonka aikana muut eivät puhu päälle (vallitseeko keskusteluntutkimuksessa nykyään? voiko sisältää taukoja ja kuinka pitkiä?) tai
2) saman puhujan tietyssä keskustelussa tuottama puheen jakso, jonka aikana muut samaan keskusteluun osallistuvat puhujat eivät keskeytä häntä (esim. tauot, minimipalautteet, epäonnistuneet keskeytysyritykset sallittaisiin)
Huom. Määrittely ei tässä vaiheessa ole välttämätöntä, koska vuoron käsite voidaan molemmissa tapauksissa johtaa muista annotaatioista.
(Attribuutteja: ks. kommunikatiivinen akti.)

Visuospatiaalinen annotaatioalue

visuospatiaalinen annotaatioalue (visual annotation domain)
Näköaistiin ja siihen pohjautuvaan kommunikaatioon liittyvien käsitteiden muodostama kokonaisuus ja annotaatioalue. Eleet, ilmeet.
deiktinen ele (deictic gesture)
Osoittamiseleitä, joilla merkitään joko läsnäolevaa objektia tai henkilöä tai abstraktia entiteettiä kuten ``se oli hyvin valmisteltu ja [se] oli hyvä juttu'', missä [se]-sanan aikana esiintyy osoittava ele, joka viittaa ``se oli hyvin valmisteltu''.
ele (gesture)
Puheeseen liittyvä vartalon tai raajojen liike. Standardit puuttuvat. ISLE: Pään eleet: rotaatio, kulma eteen/taakse, sivuttaiskulma. Käsien eleet: funktio (``osoittaminen'', ``ei'', ``takaisin''), modifioijat: viittaus projisoitavaan kuvaan, raaka morfologinen muoto (esim. ``ympyrä yhdellä kädellä''), alku- ja loppukoordinaatit.
emblemaattinen ele (emblematic gesture)
Ele, johon liittyy kulttuurisidonnainen viesti joka olisi myös ilmaistavissa sanoin; esimerkiksi peukalot pystyyn -ele.
ikoninen ele (iconic gesture)
Ele, joka on jossakin suhteessa samanaikaisen puheen sisältöön, esim. kirjoituseleen tekeminen, kun pyydetään allekirjoitusta. Attribuutteja: muoto = muoto tai toiminta, johon ele viittaa.
ilme (mimic)
Kasvojen ilme. Attribuuttina ilmeen kategoria: viha, ikävystyneisyys, ilo/onnistuminen, hämmästys, neutraali/määrittelemätön, kasvot osittain näkymättömissä.
iskuele (beat gesture)
Rytminen liike, joka esiintyy sanan tai ilmauksen yhteydessä, muttei ole missään visuaalisessa suhteessa kielelliseen sisältöön.
lokaatio (location)
Korkeus ja lateraalinen asema eleavaruudessa. Eleen ominaisuus.
metaforinen ele (metaphoric gesture)
Ikonisen eleen sukulainen, joka on metaforisessa suhteessa puheen sisältöön, esimerkiksi ``palikan'' piirtäminen kädellä ilmaan, kun palikka kuvaa vaikkapa taloa tai pankkitiliä.

Paralingvistinen annotaatioalue

paralingvistinen annotaatioalue (paralinguistic annotation domain)
Puheen paralingvistisiä ominaisuuksia käsittelevät annotaatiot.
*aivastus (sneeze)
Merkintä: [.sneeze]
ei-kielellinen äännähdys (non-speech noise)
Merkintä: [.ns]
*epäselvä puhe (unclear speech)
Jakso puhetta, jonka sisällöstä annotoija ei ole saanut selvää. Merkintä: [.unclear]
*haukotus (yawn)
Merkintä: [.yawn]
*huokaus (sigh)
Merkintä: [.sigh]
huuto (shouting)
Merkintä: [.shout]
hymyily (smiling)
Merkintä: [.smile] (sumeat rajat)
*maiskaus huulilla (lip smack)
Merkintä: [.ls]
*maiskaus kielellä (tongue click)
Merkintä: [.tc]
*nauru (laughter)
Merkintä: [.laugh]
*nielaisu (swallow)
Merkintä: [.swallow]
*rykäisy (clear throat)
Merkintä: [.ct]
*yskiminen (cough)
Merkintä: [.cough]

Haptinen annotaatioalue

haptinen annotaatioalue (haptic annotation domain, tactile annotation domain)
Kosketus- ja tuntoaistia käsittelevä annotaatioalue.

Mittausannotaatioalue

mittausannotaatioalue (measurement annotation domain)
Annotaatioalue, joka koskee sellaisia mitattuja fysiologisia signaaleja, joihin edellämainitut annotaatiot eivät sovellu.
Esim. artikulaatioon liittyvät mittaukset, aivosähkökäyrä (EEG), tms.

Kirjallisuutta

1
EAGLES/ISLE overview of metadata initiatives and corpus metadata in language engineering and linguistics, 2002.

2
ISLE survey of multimodal annotation schemes and best practice, 2002.

3
Jens Allwood, On dialogue cohesion, Gothenburg Papers in Theoretical Linguistics, no. 65, Department of Linguistics, University of Göteborg, 1992.

4
Steven Bird and Mark Liberman, A formal framework for linguistic annotation, Speech Communication 33 (2001), no. 1, 2, 23-60.

5
Paul Drew and John Heritage, Analyzing talk at work: an introduction, Talk at work, Cambridge University Press, 1992.

6
R. Gerratt and J. Kreiman, Toward a taxonomy of nonmodal phonation, Journal of Phonetics 29 (2001), 365-381.

7
Nancy Ide and Laurent Romary, Standards for language resources, LREC 2002, 2002.

8
Antti Iivonen, Mari Horppila, Miika Heikkonen, and Olli Rissanen (toim. Esa-Pekka Keskitalo), Fonetiikan perussanasto, http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/, 2000.

9
P. Wittenburg and Daan Broeder, Management of language resources using metadata, Proceedings of the workshop "International standards of terminology and language resources management", LREC 2002 (Key Sun Choi, ed.), European Language Resources Association, Paris, France, 2002, pp. 49-53.Mietta Lennes 2002-08-28