•Tokenisering: dele tekst i ord/tegn, haandtere spesialtilfeller
Vanlige feil å unngå
Regulaere uttrykk
•Glemme at disjunksjon (|) har lav presedens. /ab|cd/ matcher 'ab' eller 'cd', IKKE 'a(b|c)d'. Bruk parenteser for aa avgrense.
•Forveksle ? (0 eller 1) med * (0 eller flere). Bruk ? naar noe er valgfritt men maks ett.
•Glemme aa escape punktum. Uescapet . matcher ALLE tegn, ikke bare et faktisk punktum.
•Bygge for brede uttrykk som matcher for mye. Vaer sa spesifikk som mulig med tegnklasser.
Morfologi og ordklasser
•Forveksle boyning og avledning. Boyning endrer IKKE ordklasse (gutt->gutter), avledning KAN endre ordklasse (tjene->tjeneste).
•Glemme at mange ord er flertydige mellom ordklasser. 'for' kan vaere preposisjon, konjunksjon eller adverb avhengig av kontekst.
•Klassifisere 'det' som bare pronomen -- det kan ogsaa vaere determinativ/artikkel ('det store huset').
•Blande adverb og adjektiv. 'fort' er adverb (modifiserer verb), 'rask' er adjektiv (modifiserer substantiv).
Sprakmodeller og n-gram
•Glemme aa inkludere og naar du teller n-gram. De er tokens som skal telles med!
•Blande teller og nevner i bigram-formelen. Telleren er antall ganger bigrammet (w1,w2) forekommer, nevneren er antall ganger w1 forekommer.
•Glemme glatting naar oppgaven eksplisitt ber om det. Uten glatting kan sannsynligheten bli 0.
•Forveksle Markov-antakelsen med glatting. Markov-antakelsen begrenser historikken, glatting haandterer null-frekvenser.
Syntaks og grammatikk
•Glemme aa tegne ALLE mulige traer naar oppgaven ber om det. Sjoekk alltid om PP kan tilknyttes bade VP og NP.
•Forveksle overgenering og undergenering. Overgenering = grammatikken godtar ugrammatiske setninger. Undergenering = den avviser grammatiske setninger.
•Legge til ikke-rekursive konjunksjonsregler som bare haandterer to ledd (NP -> NP KONJ NP er rekursiv og haandterer ubegrenset mange).
•Glemme leksikalske regler naar du utvider grammatikken. Du maa legge til bade syntaktiske regler (VP -> VP PP) OG leksikalske regler (P -> paa, N -> julaften).
Semantikk
•Forveksle hyponymi og meronymi. Hyponymi = 'er en type' (is-a), meronymi = 'er en del av' (part-of). Sommerfugl er en TYPE insekt (hyponymi), taa er en DEL AV fot (meronymi).
•Forveksle homonymi og polysemi. Homonymi = urelaterte betydninger (tilfeldighet), polysemi = relaterte betydninger (utvikling fra samme opphav).
•Gi Agent-rollen til subjektet automatisk. I 'Jon hoerer en lyd' er Jon EXPERIENCER (opplever), ikke Agent (handler ikke bevisst).
•Glemme at semantiske roller foelger verbet, ikke posisjonen i setningen. I passiv ('kaken ble spist av hunden') er hunden fremdeles Agent.
Naive Bayes-klassifisering
•Glemme glatting naar oppgaven ber om det. Uten glatting gir ukjente ord sannsynlighet 0, og hele produktet blir 0.
•Telle feil: C(w,c) er antall ganger ordet forekommer i klasse c (IKKE antall dokumenter det forekommer i).
•Glemme aa inkludere alle ord i test-setningen i utregningen. Hvert ord skal vaere med som en faktor.
•Bruke feil V (vokabularstorrelse). V er antall UNIKE ord i HELE treningssettet (bade klasser), ikke bare i en klasse.
Sprakteknologiske anvendelser
•Bruke I-PER i stedet for B-PER naar en ny person-entitet begynner. Hvert nytt egennavn starter med B-, ikke I-.
•Glemme at stedsnavn kan vaere bade LOC og GPE. GPE brukes for politiske enheter (land, byer), LOC for geografiske (fjell, elver).
•Ikke ta hensyn til at noen entiteter ikke passer i kategoriene. I H2020 var 'Klara' (skipsnavn) verken PER, ORG, LOC eller GPE.
•Forveksle precision og recall. Precision = 'av det vi gjettet positivt, hvor mye var riktig?'. Recall = 'av det som faktisk var positivt, hvor mye fant vi?'.
Eksamenstips
Regulaere uttrykk
•Bryt ned komplekse regex-oppgaver i delproblemer. Skriv regex for dag, maned, ar, pris osv. separat, og sett dem sammen.
•Test regex-et ditt mentalt mot eksemplene i oppgaveteksten -- bade de som SKAL og de som IKKE SKAL matche.
•Regex-oppgaven er typisk verdt 10-15% og kommer alltid forst. Den er tidkrevende -- bruk ca. 30 minutter.
Morfologi og ordklasser
•Ordklasseoppgaven gir typisk 5-10 poeng og tester om du kan anvende de tre kriteriene. Nevn alltid alle tre i teorisporsmaal.
•Bruk konteksten aktivt. Et ord kan vaere ulike ordklasser i ulike setninger -- se paa hva som staar rundt ordet.
•Paa H2022-eksamen var affikstyper testet med paring-oppgave. Oeev paa aa skille mellom boynings- og avledningsaffikser.
Sprakmodeller og n-gram
•Sprakmodell-oppgaven er typisk verdt 10-15% og krever konkrete utregninger. Vis alle mellomregninger tydelig.
•Paa H2022 ble Markov-antakelsen testet som flervalg -- husk at hovedgrunnen er aa kunne estimere sannsynligheter uten aa se paa hele historikken.
•Naar du faar en bigram-tabell, les den noye: P(kolonne | rad) -- raden er det foregaaende ordet.
Syntaks og grammatikk
•Syntaks-oppgaven er den stoerste paa eksamen (15-25%). Oeev paa aa tegne frasestrukturtraer for haand -- det er tidkrevende.
•Naar du faar en grammatikk og skal avgjoeere om setninger er grammatiske: foersoek aa bygge treet fra toppen (S) og ned. Hvis du ikke kan naa setningen, er den ikke grammatisk i foelge grammatikken.
•Rekursjon-sporsmaalet kommer alltid. Se etter regler der samme symbol staar paa bade venstre og hoeyre side, eller en syklus (A -> B, B -> A).
Semantikk
•Semantikk-oppgaver er ofte flervalg/paring og gir 10-15%. De er raske poeng hvis du kan definisjonene.
•Polysemi vs. homonymi er vanskeligst: spoer deg selv 'er betydningene relaterte?' Hvis ja = polysemi, hvis tilfeldig = homonymi.
•For semantiske roller: finn verbet foerst, og spoer 'hvem gjor handlingen?' (Agent), 'hva paavirkes?' (Theme/Patient), 'hvem opplever?' (Experiencer).
Naive Bayes-klassifisering
•Naive Bayes-oppgaven er typisk verdt 15-20% og krever detaljerte utregninger. Vis ALLE steg og mellomregninger.
•Start med aa telle ord per klasse og beregne V foer du begynner paa selve klassifiseringen.
•Oppgaven spoer ofte om klassifiseringen er korrekt og hvorfor/hvorfor ikke. Ha et svar klart paa hvorfor smaae treningsdata gir feil.
Sprakteknologiske anvendelser
•BIO-tagging testes med paring-oppgave (H2022) eller fritekst (H2020). Oeev paa aa tagge setninger korrekt -- spesielt B vs. I.
•Tokenisering ble testet paa H2021 med en tekst full av spesialtilfeller. Tenk paa: bindestrek, URL, prosent, forkortelser.
•Koreferanse-sporsmaalet (H2020) er typisk et kort teori-sporsmaal. Definer begrepet og gi ett eksempel paa hvorfor det er vanskelig.