Puhetietokantoihin liittyvää termistöä
Mietta Lennes
- nimi (name)
- määritelmä (definition; suomeksi ja englanniksi)
- yläkäsitteet (superconcepts)
- alakäsitteet (subconcepts)
- suhteet muihin käsitteisiin ja näiden suhteiden tyypit (relations)
- piirteet, ominaisuudet (properties; features)
- annotaatioalueet, domeenit (domains)
Joillekin käsitteille on ehdotettu myös merkintätapaa annotaatiossa.
[xxx] tarkoittaa, että kyseinen yksikkö tai ominaisuus
annotoidaan rajaamalla signaalista vastaava segmentti ja antamalla
sille nimikkeeksi xxx.
Huom. Ei ole tarkoitus, että kaikki ao. käsitteet välttämättä annotoidaan
puhetietokantaan. Pieni osa käsitteistä valitaan nk. ydinkäsitteiksi,
kun ne katsotaan yhteisesti tarpeellisiksi ja voidaan määritellä yhtenevällä
tavalla. Tällä hetkellä ehdotetut ydinkäsitteet on merkitty tähdellä
(*).
- *ankkuri (anchor)
- = annotaatiograafissa[4]: noodi
(node). Maamerkki. Tietty piste tai paikka lingvistisessä signaalissa,
johon voidaan kohdistaa annotaatio tai jota voidaan käyttää segmentin
alkuna tai loppuna.
- *annotaatio (annotation)
- Jonkin tallenteen
(puhe, video, teksti tms.) määrättyyn ulottuvuuteen (ts. tallenteen
osaan tai pisteeseen) liitetty kuvaus tai representaatio (symbolinen
tai ei). Annotaatio siis liittyy joko segmenttiin tai ankkuriin, jotka
taas viittaavat tiettyyn tallenteeseen. Yksittäisen annotaation sisältämää
kuvausta kutsutaan myös nimikkeeksi.
Esimerkkejä: Äänisignaalista tehty transkriptio on annotaatio, kun
se on liitetty äänisignaalin aikaulottuvuuteen. Erilaiset tekstin
joukkoon lisätyt tagit (tag) ovat annotaatioita.
Samalla tallenteella voi olla useita rinnakkaisia annotaatioita. Mutta:
jollakin perusteella pitänee kuitenkin määritellä, mikä rinnakkaisista
annotaatioista on oletusannotaatio? Ehkä tietokannan käyttäjä määrittelee
preferenssinä suosikkiannotoijansa?
Ehdotus: kun annotoija tarkastelee tai muuttaa jonkun toisen tekemää
annotaatiota, hän voi samalla merkitä tiettyjä annotaatiotasoja tai
niiden osia sellaisinaan hyväksytyiksi. Näin saadaan käyttöön mahdollisimman
paljon useamman henkilön tarkastamia annotaatioita. Hakuvaiheessa
hakukone voi sisällyttää hakuun tietystä tallenteesta vain ne osat,
jotka ovat käyttäjän ``suosikkiannotoijien'' tekemiä tai hyväksymiä.
- *annotaatioalue, annotaatiodomeeni (annotation domain)
- Joukko
annotoitavia ilmiöitä, jotka ainakin löyhästi liittyvät samaan aihealueeseen.
Annotaatioalueet eivät ole ehdottomia tietokannan rakenteen kannalta,
ja käsitteet tietyllä annotaatioalueella voivat olla tiiviissäkin
yhteydessä jonkin toisen alueen käsitteisiin.
- annotaatiograafi, AG (annotation graph)
- Esitysmuoto, jossa annotaatioita
kuvataan noodien ja niiden välisten nimettyjen kaarien (arc) avulla
(ks. [4]). Saanut innoituksensa verkkoteoriasta.
- IMDI (ISLE Metadata Initiative)
- Yritys standardoida
multimodaalista aineistoa tai multimediaa sisältäviä kieliaineistoja.
Periaatteena metadatan ja sisällön fyysinen erottaminen.
- istunto, sessio (session)
- ``Lingvistisen analyysin perusyksikkö:
koherentti lingvistisen toiminnan tai suorituksen tyyppi'' [9].
Istunto on tekninen nimitys niille metatiedoille, erityyppisille tallenteille
ja annotaatioille, jotka kuvaavat samaa kielellistä tapahtumaa tai
tilannetta. Istunto muodostaa kimpun tiiviisti yhteenkuuluvaa aineistoa:
esim. tietystä puhujasta tehty videotallenne, kuvia hänen kodistaan,
kenttähuomautuksia tapahtumapaikasta ja videotallenteeseen liittyvät
multimodaaliset annotaatiot. Istunnon käsite on määritelty IMDI-standardissa.
- kaari (arc)
- Kaari on annotaatiograafissa (annotation graph, AG)
kahden noodin tai ankkurin väli. Vrt. segmentti.
Verkkoteoriassa kaari on ns. suunnatun verkon särmä.
- lingvistinen signaali (linguistic signal)
- Aikasidonnainen, kielellisestä
toiminnasta tehty tallenne (Steven Birdin määritelmä).
Esimerkkejä: kielellistä toimintaa kuvaava ääni-, video- tai fysiologinen
tallenne, jokin näistä johdettu signaali (esimerkiksi perustaajuus),
tai teksti.
Lingvistinen signaali indeksoidaan joko näytteinä (sample)
tai tekstin kohdalla merkkeinä (character).
- litteraatio (transliteration)
- Puheen transkriptiotapa, joka noudattaa
pääpiirteissään oikeinkirjoitusta, mutta voi lisäksi sisältää erityisiä
merkintätapoja muille kielelliseen toimintaan liittyville ilmiöille.
Jos litteraatio liitetään tallenteen aikaulottuvuuteen, se on myös
annotaatio.
(Huom. englanninkielinen käännös 'transliteration' on hieman epätarkka,
koska se yleensä viittaa pelkästään kirjoitusjärjestelmien välillä
tapahtuvaan konversioon. Termiä käytetään kuitenkin myös litteraatiosta.)
- *metatieto, metadata (metadata)
- Kokonaiseen puhetietokantaan
tai johonkin sen sisältämään tallenteeseen liitetty yleiskuvaus,
viitetiedot ja muu oheisinformaatio.
EAGLES/ISLE:n yleiskatsaus kielitieteelliseen metadataan: [2]
- puhearkisto (speech archive)
- Kokoelma puhetallenteita (ilman transkriptioita).
Alakäsite: puhekorpus.
- puhekorpus (speech corpus)
- Mikä tahansa
kokoelma puhetallenteita ja niiden transkriptioita. Puhetietokanta
on eräänlainen puhekorpuksen erikoistapaus. Toisaalta puhetietokannan
voidaan nähdä sisältävän erilaisia osakorpuksia, jotka on kerätty
eri tarkoituksiin.
- *puhetietokanta (speech database)
- Järjestetty
kokoelma annotoituja puhetallenteita, joista voidaan tehdä hakuja
(sisältää jonkinlaisen hallintajärjestelmän). Yläkäsite: puhekorpus.
- multimodaalinen (multimodal)
- Useita eri aistimodaliteetteja yhdistävä.
Esim. näkö + kuulo, haju + maku + näkö, ...
ISLEn standardointiyritykset multimodaaliselle annotaatiolle: [1]
- *nimike (label)
- Ankkurille tai segmentille (tai näiden joukolle)
annettu kuvaus tai analyyttinen merkintä, eli annotaatio.
- *nimikointi (labeling)
- Puheen symbolisten kuvausten
(transkriptioiden) liittäminen segmentoituun puhetallenteeseen.
- noodi (node)
- ks. ankkuri
- ortografinen transkriptio (orthographic transcription)
- Transkriptio,
joka ainakin pääpiirteissään noudattaa ko. kielen oikeinkirjoitusta
(ortografiaa).
- *segmentointi (segmentation)
- Erilaisten
yksiköiden (ajallisten) alku- ja loppupisteiden etsiminen ja merkitseminen
puhe- tms. signaalista. Tuloksena segmenttejä.
- *segmentti (segment)
- Puhe-, video- tms. signaalin osa, jolla
on määrätty alku- ja loppupiste, eli segmentti liittyy kahteen eri
kohdissa signaalia olevaan ankkuriin. (Huom. yksittäinen, jollakin
periaatteella signaalista määritetty piste ei ole segmentti vaan ankkuri.)
- *transkriptio (transcription)
- Puhetallenteen
tai sen osan symbolinen kuvaaminen. Edellyttää aina tulkintaa. Tiukasti
määriteltynä transkriptio on annotaation alakäsite vain siinä tapauksessa,
että transkriptio on jollakin tavalla liitetty siihen tallenteeseen,
jota se kuvaa.
- UML (Unified Modeling Language)
- Kuvauskielistandardi, jonka avulla
ohjelmoijat, ohjelmistosuunnittelijat ja maallikot voivat yhdessä
rakentaa järjestelmän rakennetta kuvaavan mallin. UML-kielellä kuvattu
oliokaavio voidaan suoraan kääntää esimerkiksi XMI-määrittelyksi tai
vaikkapa Java-koodiksi.
UML-version 1.4 määrittely löytyy verkosta:
http://www.omg.org/technology/documents/formal/uml.htm
UML-kaavioita on helppo piirtää ilmaisella Java-pohjaisella ohjelmalla
nimeltä Poseidon:
http://www.gentleware.com/products/download.php3
- XML (Extensible Markup Language)
- W3C:n standardoima rakenteisten
dokumenttien ja datan kuvauskieli. SGML:n yksinkertaisempi versio.
XML-määrittely löytyy verkosta:
http://www.xml.com/axml/testaxml.htm
Lisää perusteluja XML:n käytölle kielitieteellisissä aineistoissa:
[7]
- XSL (Extensible Stylesheet Language)
- W3C:n standardoima deklaratiivinen
kieli XML-dokumenttien muuntamiseksi. Lisää tietoa XSL:stä:
http://www.w3.org/Style/XSL/
- *puhuja (speaker)
- Puhetietokannan sisältämissä tallenteissa esiintyvän
puhujan pysyvät tiedot puhetietokannan metadatassa, tai puhujan muuttuvat
tiedot kunkin relevantin puhetallenteen metadatassa. Kummassakin tapauksessa
tiettyyn puhujaan viitataan ainutkertaisella ID-koodilla. Myös jossakin
tallenteessa esiintyvällä tunnistamattomalla puhujalla on oma ID-koodi,
vaikkei hänestä tiedettäisi mitään muuta.
Puhujan pysyvät attribuutit: ID-koodi, sukupuoli, syntymäaika, syntymäpaikka,
vanhempien murteet
Puhujan muuttuvat l. tallennekohtaiset attribuutit: kielitaito, asuinpaikat,
koulutus, ammatti, uskonto, puolison murre, lasten määrä; rooli ko.
puhetilanteessa; suhde kuhunkin toiseen puhujaan; palkkio tms. korvaus;
lupa tallenteen käyttöön
- tehtäväsuuntautunut keskustelu (task oriented conversation)
- Puhetilanne.
Attribuutit: suunnittelematon puhe, koetilanne.
- *annotoija (annotator)
- Annotaatioiden laatija.
Sisältyy tallenteeseen liittyvään metadataan. Samalla
tallenteella voi olla useita annotoijia ja vastaavasti useita rinnakkaisia
annotaatioita. Annotoijaa koskevaa metadataa: milloin viimeksi muuttanut
annotaatiotaan, onko ``sertifioitu'' annotoija,...
- arkikeskustelu
-
- asiointitilanne (transaction situation)
- Yläkäsitteet: institutionaalinen
puhe. Attribuutit: suunnittelematon puhe.
- *dialogi (dialogue)
- Keskustelu, johon osallistuu (aktiivisesti)
kaksi puhujaa. Attribuutit: suunnittelematon puhe.
- ei-institutionaalinen lukupuhunta
- Esim. tarinan (tai epämuodollisessa
tilanteessa sanomalehden) lukeminen ääneen. Tallenteen metadataa.
Attribuutit: suunniteltu puhe.
- esitelmäpuhe
- Asiatekstin tai etukäteen kirjoitetun julkisen puheen
ääneen lukeminen. Tallenteen metadataa, puhetilanteen attribuutti.
Yläkäsite: institutionaalinen puhe. Attribuutit: lukupuhunta.
- *institutionaalinen puhetilanne (institutional speech situation)
- Puhetilanne,
jossa ainakin yksi puhuja edustaa jonkinlaista muodollista organisaatiota
(tai on tilanteessa ammattilainen).[5]
- *keskustelu
- Puhetilanne, johon osallistuu vähintään kaksi puhujaa.
Yläkäsite: puhetilanne. Alakäsitteitä: arkikeskustelu, institutionaalinen
keskustelu. Attribuutit: suunnittelematon puhe.
- keskustelu annetusta aiheesta
- Attribuutit: suunnittelematon puhe,
koetilanne.
- kerronta, narratiivi (narrative)
-
- kuvatehtävä
- Alakäsitteet: kuvan nimeäminen, kuvan selittäminen.
- kuvan nimeäminen (picture naming)
- Yläkäsite: kuvatehtävä.
- kuvan selittäminen (picture describing)
- Puhuja selittää vapaamuotoisesti
hänelle annettua kuvaa, sarjakuvaa tai karttaa. Yläkäsite: kuvatehtävä.
- *lukupuhunta (reading aloud)
- Alakäsitteet: institutionaalinen
ja ei-institutionaalinen lukupuhunta. Attribuutit: suunniteltu puhe.
- *monologi, yksinpuhelu
- Puhetilanne, jossa on vain yksi puhuja.
Passiivisia kuulijoita voi kuitenkin olla läsnä. Yläkäsite: puhetilanne.
- murre (dialect)
-
- narratiivi (narrative)
- ks. kerronta.
- näytteleminen (acting)
- Etukäteen kirjoitettujen vuorosanojen puhuminen
ulkomuistista, niihin eläytyen. Yläkäsite: suunniteltu puhe.
- ohjeistus, instruktio (instructions)
- Tutkimustilanteessa
puhujille annetut ohjeet yms. aineisto. Vapaasanainen kuvaus (johon
voi liittyä tallenteita).
- *puhetilanne
- Tilanne, jossa vähintään yksi ihminen tuottaa puhetta.
Sisältyy tallenteen metadataan.
Attribuutteja: puhujien kokonaismäärä tallenteessa; institutionaalinen
vai arkikeskustelu; avoin/yksityinen; onko yleisöä tai tarkkailijoita
läsnä; tilanteeseen liittyvät esineet; jne.
Mukana voi olla vapaasanainen kuvaus, esim. ``syntymäpäiväjuhlat'',
``ostoksilla'', ``kaupan takahuoneessa''.
Alakäsitteitä: monologi, keskustelu. Assosiaatiot: tapahtumapaikka.
- puhetyyli (speaking style)
- Vapaasanainen kuvaus tallenteen sisältämästä
puhetyylistä. Täydentää muodollista puhetyyliluokitusta (suunniteltu
vs. suunnittelematon, jne.). Sisältyy tallenteen metadataan. Voidaan
ohittaa alemman tason annotaatiolla, jos puhetyyli muuttuu kesken
tallenteen.
- *puhujat (speakers)
- Tallenteen aikana esiintyvien puhujien ID-koodit.
Tallenteeseen liittyvää metatietoa.
- *puhujien-lukumäärä (number of speakers)
- Puhujien
kokonaismäärä tallenteen aikana. Tallenteeseen (tai koko istuntoon)
liittyvää metatietoa. Puhujien kokonaislukumäärä voidaan ohittaa alemman
tason annotaatiossa esim. kun puhujia liittyy mukaan tai poistuu keskustelusta.
- *puhujien visuospatiaalinen suhde (visuospatial relationship between speakers)
- Puhujan
suhde tilassa kuhunkin toiseen puhujaan. Attribuutit: näkyvyys, kanava
(esim. puhelin), fyysinen välimatka. (voidaan ohittaa alemman tason
annotaatiossa, jos muuttuu)
Ks. myös puhuja: puhujan muuttuvat ominaisuudet.
- sosiolekti (sociolect)
- Puhujan tallennekohtaisten ts. muuttuvien
ominaisuuksien (ikä, ammatti, koulutus,...) muodostama kokonaisuus
(?)
- spontaani puhe (spontaneous speech)
- Puhe,
joka olisi tuotettu myös ilman tutkimustarkoitusta.
Attribuutti: suunnittelematon puhe.
- *suunniteltu puhe (planned speech)
- Puhetyyli, jossa puhujan
puhe on suunniteltu etukäteen, esim. hän lukee ääneen, puhuu ulkomuistista
tai näyttelee.
Alakäsitteet: suunniteltu institutionaalinen puhe, suunniteltu ei-institutionaalinen
puhe, suunniteltu puhe koetilanteessa.
- *suunnittelematon puhe (unplanned speech)
- Puhetyyli, jossa
puhujan puhetta ei ole suunniteltu etukäteen.
Alakäsitteet: suunnittelematon institutionaalinen puhe, suunnittelematon
puhe kontrolloidussa koetilanteessa ja suunnittelematon ei-institutionaalinen
puhe.
- suunnittelematon institutionaalinen puhe
- Yläkäsite: suunnittelematon
puhe. Alakäsitteet: haastattelu, asiointitilanne.
- suunnittelematon puhe koetilanteessa
- Suunnittelematon puhe, joka
tuotetaan kontrolloiduissa koeolosuhteissa tutkimustarkoitukseen.
Yläkäsite: suunnittelematon puhe. Alakäsitteitä: kuvatehtävä, kerronta/narratiivi,
annetun tehtävän suorittaminen keskustelemalla, keskustelu annetusta
aiheesta, vapaa keskustelu.
- *tallenne (record)
- Tarkoittaa tässä vain digitaalisia
tallenteita, jotka on mahdollista liittää puhetietokantaan. Yläkäsite:
istunto. Alakäsitteitä: äänitallenne, videotallenne, tekstitallenne.
Metadataa: Attribuutteja: *tunniste, *nimi, *koko, *tyyppi,
*formaatti, tapahtumapaikan kuvaus, tallennusvälineet, äänitysajankohta,
muutosajankohdat, äänittäjä, aihe, kuvaus, julkaisija, toimittaja,
lähde, kieli, suhde, kattavuus, *oikeudet. Assosiaatiot: puhetilanne
(kuuluu myös tallenteen metadataan).
- *tapahtumapaikka (setting)
- Yleiskuvaus paikasta,
josta istunnon sisältämä aineisto on kerätty. Assosiaatiot: puhetilanne.
- tarkkailija (observer)
- Henkilö, joka on läsnä puhetilanteessa siihen
kuitenkaan osallistumatta. Puhujat eivät välttämättä ole tietoisia
tarkkailijan läsnäolosta (vrt. yleisö). Puhetilanteen attribuutti
(tallenteen metatietoa).
- toiminta, aktiviteetti (activity)
- Sisältyy tallenteen metadataan,
voisi olla esimerkiksi puhetilanteen attribuutti. Ainakin osittain
vapaasanainen toiminnan tyypin kuvaus.
Esimerkkejä: bussin kuljettaja/matkustaja, huutokauppa, kirkko, oikeusistunto,
ruokailu, tiedustelu, neuvottelu, muodollinen tapaaminen, pelin pelaaminen,
leikki, urheilu, hotelli, epämuodollinen keskustelu, haastattelu,
luento, tori, juhlat, puhelinkeskustelu, roolileikki, uutisten lukeminen,
narratiivi, kauppa, tehtäväsuuntautunut dialogi, terapia, matkatoimisto,
...
- uutispuhe (newsreading)
- Tallenteen metadataa. Yläkäsite: institutionaalinen
lukupuhunta.
- vapaa keskustelu
- Ei-institutionaalinen keskustelu, jossa puheenaihe
ei ole ulkopuolisten henkilöiden määrittelemä. Esimerkiksi ``kahvipöytäkeskustelu''.
Yläkäsitteet: keskustelu, suunnittelematon puhe. Alakäsitteet: asiointikeskustelu,
vapaa keskustelu laboratorio-oloissa.
- vapaa keskustelu laboratorio-olosuhteissa
- Tallenteen metadataa.
Yläkäsitteet: vapaa keskustelu.
- yksinpuhelu
- ks. monologi.
- *yleisö (audience)
- Yksi tai useampia ihmisiä, jotka ovat läsnä
puhetilanteessa, mutteivät osallistu siihen puhujina. Yleisö voi joko
yksinomaan tarkkailla tai myös antaa merkkejä hyväksynnästä (nyökkäykset,
suosionosoitukset). Puhujat ovat tietoisia yleisöstä. Yleisö voi olla
myös esim. kokeen johtaja. Yleisön läsnä-/poissaolo on istuntoon tai
tallenteeseen liittyvää metatietoa (puhetilanteen attribuutti).
- akustis-laskennallinen annotaatioalue (acoustic-computational annotation domain)
- Tämän
annotaatioalan käsitteet ovat automaattisesti tai puoliautomaattisesti
johdettavissa muusta tietokannan informaatiosta.
Millaista akustista ja laskennallista tietoa tietokantaan pitäisi
välttämättä tallentaa? Ylimääräiset mittaukset ja tiedot vievät tallennustilaa,
mutta usein käytettävät ja raskaat analyysit voidaan suorittaa ja
päivittää ``offline'', jolloin ne ovat heti käyttäjän ulottuvilla.
- näyte (sample)
-
- perustaajuus, F0 (fundamental frequency,
- F0)
- tauko (pause)
- Puhetallenteen segmentti, jonka aikana
puhuja ei artikuloi. (Huom. muut prosodiset rajat, esim. intonaatioyksiköt,
merkitään erikseen ja ne kuuluvat prosodiseen alueeseen.)
- puhelimen hälytysääni (telephone ring)
- Merkintä: [.ring]
- puhelimen linjahäly (telephone line noise)
- Merkintä: [.ln]
- *puhunnos (utterance)
- Jakso, jonka aikana puhuja yhtäjaksoisesti
puhuu (artikuloi). Puhunnoksen voi päättää tauko, hengitys (jonka
aikana ei artikuloida), täytetty tauko, tms.
- taustamelu (background noise)
- Merkintä: [.bn]
- foneettinen annotaatioalue (phonetic annotation domain)
- Annotaatioalue,
jossa kuvataan foneettista tulkintaa vaativat ilmiöt.
- *hengitys (breathing)
- Vaatii oman annotaatiokerroksen,
koska sisään- ja uloshengitys voi esiintyä päällekkäin monen muun
puheen ilmiön kanssa. Esim. sisäänhengitys puhunnoksen aikana implikoi
ingressiivistä puhetta.
Läheskään kaikki hengitykset eivät erotu äänisignaalissa eivätkä siis
ole annotoitavissa (ilman fysiologista lisäinformaatiota). Jos hengityksen
alku ja loppu ovat erotettavissa, ne eivät kuitenkaan välttämättä
ole tarkkarajaisia.
Attribuutit: sisään/ulos
- intonaatioyksikkö (intonation unit)
- Intonaatioyksikön merkitseminen
on hyvin subjektiivista, eikä sille liene olemassakaan mitään yksiselitteistä
määritelmää.
- konsonantti (consonant)
- Äänne, joka muodostetaan ääntöväylän sulkeuman
tai supistuman avulla. Yleensä konsonantti esiintyy vokaalin kanssa
samassa tavussa (kerake; "con"), mutta resonanttikonsonantit
voivat yksinkin muodostaa tavun (engl. [l] sanassa "bottle";
saksan [n] "bitten"; tshekin [r] "krk").
Attribuutit: artikulaatiopaikka, artikulaatiotapa.
Merkintä: [konsonanttimerkki]
- *kuiskaus (whisper)
- Merkintä: äänenlaatutasolla [0]
- prominenssi (prominence)
- Puheen jakso, joka havaitaan lähikontekstiin
(muihin saman intonaatioyksikön osiin) nähden ``voimakkaampana'',
``selvemmin erottuvana'' tai ``painollisena''. Merkintä: omalle
annotaatiotasolleen. Montako prominenssiastetta? Entä prominenssityypit
(esim. emfaattinen, kontrastiivinen)? Pitäisikö sana- ja lauseprominenssia
kuvata erikseen?
- prosodinen annotaatioalue (prosodic annotation domain)
- Puheen
sävelkulkua, painotusta ja kestoja käsittelevä annotaatioalue. Sisältyy
osana foneettiseen alueeseen.
- vokaali (vowel)
- Äänne, joka tuotetaan ääntöväylän avaumalla (ääntiö).
Jos vokaalit on tuotettu normaalilla fonaatiolla, niillä on harmonisista
osasävelistä koostuva spektri ja ne ovat auditiivisesti sonorisia
kuten yleensä resonanttiäänteet. Vokaalit voivat yksinäänkin muodostaa
tavun. Vokaalit ovat sävelkulun kannattajia. [8]
Attribuutit: etisyys (kielen korkeimman kohdan etäisyys ylähampaista),
väljyys (kielen korkeimman kohdan etäisyys suulaesta), huulten asento
(pyöristymisaste; vrt. pyöreä/lavea), nasaalisuus, kvantiteetti.
- *äänenlaatu (voice quality)
- Puhujan tuottaman soinnin laatu,
esim. modaaliääni, narina, henkäyssointi, falsetti ja kuiskaus. Vaatii
oman annotaatiotasonsa, koska voi esiintyä päällekkäin muiden ilmiöiden
kanssa. Äänenlaatuilmiöiden luokittelu on vaikeaa ja tutkimuksissa
on todettu, että ihmiset kykenevät erottamaan lähinnä vain narinaäänen
melko luotettavasti [6].
Merkintäehdotus: glottalisaatio [?], henkäyssointi [Hv], kuiskaus
[0], ... (modaaliääntä ei tarvitse merkitä)
- *äänne, fooni (sound, phone)
- Pienin mahdollinen kvalitatiivinen
(= laadullinen) puheen segmentti, joka kuulon avulla voidaan erottaa
muista segmenteistä.
Esim. brit. engl. sanassa <church> 'kirkko', jonka kirjoitusasussa
on kuusi kirjainta, voidaan erottaa viisi äännettä. Sana alkaa ja
päättyy affrikaattaan [tS], jonka kaksi segmenttiä ([t] ja
[S] = suhu-s) voidaan erottaa kuulon avulla. Fonologisesti sanassa
on kuitenkin vain kolme foneemia, koska affrikaatta on itsenäinen
foneemi. Tietyissä tapauksissa äänne ja #piirre# voivat olla vaikeasti
erotettavissa: voimakas aspiraatio on kuultavissa (esim. englannissa
vokaalin edessä [p]:ssä sanassa <pea> 'papu') ja voi olla kestoltaan
tavallisen äänteen mittainen ja muodostaa oman, puheen virrasta erottuvan
segmentin[8].
Merkintä: [foneettinensymboli(_tarke)(_tarke)].
- lingvistinen annotaatioalue (linguistic annotation domain)
- Lingvististä
tulkintaa vaativat annotaatiot.
- morfologinen annotaatioalue (morphological annotation domain)
- Morfologisten
annotaatioiden muodostama kokonaisuus.
- foneemi (phoneme)
- ``Kielen järjestelmään kuuluva abstraktinen,
ensisijaisesti kvalitatiivinen, äänteellisesti toteutettavissa oleva
yksikkö, jolla on foneemianalyysin avulla selville saatavissa oleva
identiteetti. Foneemi on segmentaalinen kokonaisuus, jota ei voida
jakaa pienempiin segmentteihin, mutta jonka voidaan katsoa koostuvan
erottavista eli distinktiivisistä piirteistä.'' [8]
Merkintä: Koska foneemien selville saaminen vaatii foneemianalyysia
ja koska foneemijono voidaan suomen kohdalla johtaa melko tarkasti
ortografian perusteella, ehdotan, ettei foneemeja sinänsä annotoida
segmentteinä puhesignaalissa.
- kanoninen muoto (canonical form)
- = saneen ``sitaattimuoto''?
= lemma?
- sana (word)
- yhdyssana tai sana.
- sanaluokka, leksikaalinen luokka (part of speech, POS, lexical category)
- Saneen
attribuutti annotaatiossa.
Attribuutin mahdollisia arvoja: substantiivi (erisnimi), adjektiivi,
verbi (apuverbi), pronomini, numeraali; entä mitä seuraavista? adverbi,
konjunktio, prepositio, postpositio, interjektio, keskustelupartikkeli,
dialogipartikkeli, palautesana, lausumapartikkeli, fokuspartikkeli,
modaalipartikkeli
- *sane, sananmuoto (word form, token)
- Sana siinä muodossa kuin
se puheessa esiintyy, kaikkine affikseineen.
Attribuutteja: sanaluokka, lemma, (onko ``myöhäinen laina'',)
onko vierasta kieltä
Mahdollisia merkintätapoja eri tasoilla: ortografinen, ortokrafine,
[saneen foneettinen transkriptio] .
- tavu (syllable)
- Tavu on puheentuoton eräs perusyksikkö. Tavun sisäisessä
rakenteessa erotetaan tavun keskus (centre, nucleus), tavun avaava
segmentti (onset) ja tavun päättävä segmentti (coda). Tavunrajaa ei
kuitenkaan ole aina helppoa määrätä.[8] Fonologinen tavurakenne
voi erota huomattavasti foneettisesti toteutuneesta äännejonosta.
Yläkäsite: sana (tavu ei ole mahdollinen ilman tunnistettavaa sanaa?).
Merkintä: [tavu] (omalle annotaatiotasolleen)
- syntaktinen annotaatioalue (syntactic annotation domain)
- Lauseiden
rakenteeseen liittyvät annotaatiot.
Ongelma: "suoran" litteraation lisäksi tarvittaisiin
(ainakin toistaiseksi) normaalistettu, yleiskielinen versio, jotta
automaattisia morfologisia tai syntaktisia parsereita voidaan käyttää.
- lauseenjäsen
-
- lauseke (phrase)?
-
- *lause (clause)
- Alakäsitteet: päälause, sivulause. Onnistuuko
annotointi, jos kyseessä ei ole luettu teksti?
Attribuutteja: tempus, aktiivi/passiivi, 1./2./3. persoona, ...?
- parenteesi (parenthesis)
- Sivuhuomautus, ts. edeltävälle ja seuraavalle
puheen jaksolle (prosodisesti) alisteinen jakso.
- yhdyslause (complex sentence)
- Koostuu useasta lauseesta.
- tekstuaalinen annotaatioalue (textual annotation domain)
- Annotaatioalue,
joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin
piirteiden annotointi).
- virke (sentence)
-
- kappale, paragraafi (paragraph)
-
- semanttis-pragmaattinen annotaatioalue (semantic-pragmatic annotation domain)
- Annotaatioalue,
joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin
piirteiden annotointi).
- asenne (attitude)
- Puhujan suhtautuminen topiikkiin.
- fokus (focus)
- ks. informaatiofokus
Huom. Luetusta tekstistä funktionaalinen määritys voidaan tehdä lähinnä
syntaktisin perustein ja välimerkkien avulla. Suunnittelemattomassa
puheessa funktiot ovat hyvin tulkinnanvaraisia. Yleensä eri funktiot
esiintyvät myös päällekkäin.
- funktionaalinen tyyppi (functional type)
- Saneen attribuutti.
Arvoja: negaatio; modaalinen (välttämättömyys, mahdollisuus); episteeminen
(tieto, usko); 3-ulotteiset suhteet objektien välillä, kausaaliset
suhteet asiantilojen välillä, deiktiset funktiot (henkilö, spatiaalinen,
temporaalinen); palautefunktio, oman kommunikaation hallinta; muu?
- informaatiofokus (information focus)
- Samat
ongelmat kuin informaatiorakenteessa yleisemmin.
- informaatiorakenne (information structure)
- Informaatiorakenteen
kuvaukseen ei ole olemassa mitään selkeästi määriteltyä tapaa. (Alakäsitteitä:
esim. teema = ``vanha tieto'', reema = ``uusi tieto''.) Domeeni:
semanttis-pragmaattinen.
- topiikki, puheenaihe (topic)
- Samat ongelmat kuin
informaatiorakenteessa. Merkintä: [vapaasanainen kuvaus]?
Tarvittaessa erillisiä annotaatiotasoja ``subtopiikeille''?
- diskurssiannotaatioalue (discourse annotation domain)
- Annotaatioalue,
joka käsittelee puheen vuorovaikutuksellisia piirteitä.
- dialogiakti (dialogue act)
- ks. kommunikatiivinen akti.
- epäröinti (hesitation)
- Määrittely? Merkintä?
- epäsujuvuus (disfluency)
- epäröinti, väärä aloitus, ...
- puheakti (speech act)
- ks. kommunikatiivinen akti
- kommunikatiivinen akti (communicative act)
- Yhteisesti hyväksyttyä
ja kaikkiin tapauksiin sopivaa perusluokitusta ei ole, mutta periaatteessa
tällainen informaatio on mahdollista annotoida tutkijan omien mieltymysten
mukaan. (Miten määritetään puheen tai eleen segmentti, johon tietty
akti liittyy?)
Olisi ehkä mahdollista jaotella puheenvuorot seuraavasti: partikkelivuoro,
lauseke, lause, moniyksikköinen (multiunit turn).
Voisi myös merkitä helposti tunnistettavia rakenteellisia piirteitä:
interrogatiivi (hakukysymys tai kO-kysymys), deklaratiivi, eksklamatiivi.
Sekalaisempia esimerkkejä: väite/toteamus, ymmärrys, kysymys, vastaus,
vahvistus, avaus, lopetus, varmistus, kiittäminen, toisto, uudelleenmuotoilu,
jatkokehotus, odotus, korjaus, toistopyyntö, hyväksyntä, vahvistuspyyntö,
täydennys/selvennys, anteeksipyyntö, selitys, epäröinti, keskeytys,
vitsi, vuoron pitäminen, vastalause, tarjous, muistutus, johtopäätös,
pyyntö, itsen vahvistus, määrittely, esittäytyminen, muu (epäselvä).
- kommunikatiivinen funktio (communicative function)
- oman
kommunikaation säätely; interaktiiviset funktiot; muut: väite, kysymys,
pyyntö, huudahdus, ...[3] Merkintä?
- päällekkäispuhunta (overlap)
- Puhetallenteen jakso, jossa kaksi
tai useampia puhujia puhuu samanaikaisesti. (Ei sisällä paralingvististä
päällekkäisyyttä, esim. yskimistä tai nauramista toisen puheen aikana?)
Merkintä: Päällekkäispuhuntaa ei erikseen merkitä annotaatioon, koska
se voidaan johtaa annotoitujen puhunnosten ajallisesta sijoittumisesta.
- sekvenssi (sequence)
- Kahden tai useamman puhunnoksen sarja voi
muodostaa kokonaisuuden tai yksikön seuraavilla perusteilla: 1) puheenvuoron
säätely, 2) kontekstuaalinen funktionaalinen riippuvuus, esim. kysymys/vastaus,
3) relevanssi tiettyyn topiikkiin nähden, 4) konventionaalisesti tai
funktionaalisesti motivoitu alitoiminta (alajakso tai vaihe) [3]
- vuoro, puheenvuoro (turn)
- 1) saman puhujan tietyssä keskustelussa
tuottama puheen jakso, jonka aikana muut eivät puhu päälle (vallitseeko
keskusteluntutkimuksessa nykyään? voiko sisältää taukoja ja kuinka
pitkiä?) tai
2) saman puhujan tietyssä keskustelussa tuottama puheen jakso, jonka
aikana muut samaan keskusteluun osallistuvat puhujat eivät keskeytä
häntä (esim. tauot, minimipalautteet, epäonnistuneet keskeytysyritykset
sallittaisiin)
Huom. Määrittely ei tässä vaiheessa ole välttämätöntä, koska vuoron
käsite voidaan molemmissa tapauksissa johtaa muista annotaatioista.
(Attribuutteja: ks. kommunikatiivinen akti.)
- visuospatiaalinen annotaatioalue (visual annotation domain)
- Näköaistiin
ja siihen pohjautuvaan kommunikaatioon liittyvien käsitteiden muodostama
kokonaisuus ja annotaatioalue. Eleet, ilmeet.
- deiktinen ele (deictic gesture)
- Osoittamiseleitä, joilla merkitään
joko läsnäolevaa objektia tai henkilöä tai abstraktia entiteettiä
kuten ``se oli hyvin valmisteltu ja [se] oli hyvä juttu'',
missä [se]-sanan aikana esiintyy osoittava ele, joka viittaa ``se
oli hyvin valmisteltu''.
- ele (gesture)
- Puheeseen liittyvä vartalon tai raajojen liike. Standardit
puuttuvat. ISLE: Pään eleet: rotaatio, kulma eteen/taakse, sivuttaiskulma.
Käsien eleet: funktio (``osoittaminen'', ``ei'', ``takaisin''),
modifioijat: viittaus projisoitavaan kuvaan, raaka morfologinen muoto
(esim. ``ympyrä yhdellä kädellä''), alku- ja loppukoordinaatit.
- emblemaattinen ele (emblematic gesture)
- Ele, johon liittyy kulttuurisidonnainen
viesti joka olisi myös ilmaistavissa sanoin; esimerkiksi peukalot
pystyyn -ele.
- ikoninen ele (iconic gesture)
- Ele, joka on jossakin suhteessa
samanaikaisen puheen sisältöön, esim. kirjoituseleen tekeminen, kun
pyydetään allekirjoitusta. Attribuutteja: muoto = muoto tai toiminta,
johon ele viittaa.
- ilme (mimic)
- Kasvojen ilme. Attribuuttina ilmeen kategoria: viha,
ikävystyneisyys, ilo/onnistuminen, hämmästys, neutraali/määrittelemätön,
kasvot osittain näkymättömissä.
- iskuele (beat gesture)
- Rytminen liike, joka esiintyy sanan tai
ilmauksen yhteydessä, muttei ole missään visuaalisessa suhteessa kielelliseen
sisältöön.
- lokaatio (location)
- Korkeus ja lateraalinen asema eleavaruudessa.
Eleen ominaisuus.
- metaforinen ele (metaphoric gesture)
- Ikonisen eleen sukulainen,
joka on metaforisessa suhteessa puheen sisältöön, esimerkiksi ``palikan''
piirtäminen kädellä ilmaan, kun palikka kuvaa vaikkapa taloa tai pankkitiliä.
- paralingvistinen annotaatioalue (paralinguistic annotation domain)
- Puheen
paralingvistisiä ominaisuuksia käsittelevät annotaatiot.
- *aivastus (sneeze)
- Merkintä: [.sneeze]
- ei-kielellinen äännähdys (non-speech noise)
- Merkintä: [.ns]
- *epäselvä puhe (unclear speech)
- Jakso puhetta, jonka sisällöstä
annotoija ei ole saanut selvää. Merkintä: [.unclear]
- *haukotus (yawn)
- Merkintä: [.yawn]
- *huokaus (sigh)
- Merkintä: [.sigh]
- huuto (shouting)
- Merkintä: [.shout]
- hymyily (smiling)
- Merkintä: [.smile] (sumeat rajat)
- *maiskaus huulilla (lip smack)
- Merkintä: [.ls]
- *maiskaus kielellä (tongue click)
- Merkintä: [.tc]
- *nauru (laughter)
- Merkintä: [.laugh]
- *nielaisu (swallow)
- Merkintä: [.swallow]
- *rykäisy (clear throat)
- Merkintä: [.ct]
- *yskiminen (cough)
- Merkintä: [.cough]
- haptinen annotaatioalue (haptic annotation domain, tactile annotation domain)
- Kosketus-
ja tuntoaistia käsittelevä annotaatioalue.
- mittausannotaatioalue (measurement annotation domain)
- Annotaatioalue,
joka koskee sellaisia mitattuja fysiologisia signaaleja, joihin edellämainitut
annotaatiot eivät sovellu.
Esim. artikulaatioon liittyvät mittaukset, aivosähkökäyrä (EEG), tms.
- 1
-
EAGLES/ISLE overview of metadata initiatives and corpus metadata in
language engineering and linguistics, 2002.
- 2
-
ISLE survey of multimodal annotation schemes and best practice, 2002.
- 3
-
Jens Allwood, On dialogue cohesion, Gothenburg Papers in Theoretical
Linguistics, no. 65, Department of Linguistics, University of Göteborg, 1992.
- 4
-
Steven Bird and Mark Liberman, A formal framework for linguistic
annotation, Speech Communication 33 (2001), no. 1, 2, 23-60.
- 5
-
Paul Drew and John Heritage, Analyzing talk at work: an introduction,
Talk at work, Cambridge University Press, 1992.
- 6
-
R. Gerratt and J. Kreiman, Toward a taxonomy of nonmodal phonation,
Journal of Phonetics 29 (2001), 365-381.
- 7
-
Nancy Ide and Laurent Romary, Standards for language resources, LREC
2002, 2002.
- 8
-
Antti Iivonen, Mari Horppila, Miika Heikkonen, and Olli Rissanen (toim.
Esa-Pekka Keskitalo), Fonetiikan perussanasto,
http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/, 2000.
- 9
-
P. Wittenburg and Daan Broeder, Management of language resources using
metadata, Proceedings of the workshop "International standards of
terminology and language resources management", LREC 2002 (Key Sun Choi,
ed.), European Language Resources Association, Paris, France, 2002,
pp. 49-53.
Mietta Lennes
2002-08-28