IN1140

Cheat Sheet

Formler, begreper og oppsummering

Introduksjon til språkteknologi

eksamenssett.no

Formler

Regulære uttrykk

•[abc] = tegnklasse, [0-9] = siffer, [a-z] = små bokstaver
•\d = siffer, \s = mellomrom, \w = ordtegn, . = vilkårlig tegn
•? = 0/1, * = 0+, + = 1+, {n} = nøyaktig n, {n,m} = n-m
•| = disjunksjon (lav presedens!), () = gruppering
•\. = escaped punktum, ^ = start, $ = slutt

Morfologi

•Bøyning (fleksjon): endrer grammatisk form, beholder ordklasse
•Avledning: affiks endrer ordklasse/betydning (tjene -> tjeneste)
•Sammensetning: frie morfemer kombineres (jule + nisse + drakt)
•Ordklassekriterier: formelle, syntaktiske, semantiske

N-gram og språkmodeller

•P(w2|w1) = C(w1 w2) / C(w1) -- bigram
•P(setning) = P(w1|~~) * P(w2|w1) * ... * P(~~|wn)
•Laplace-glatting: P(w|c) = (C(w,c) + 1) / (C(c) + V)
•Markov-antakelsen: neste ord avhenger kun av n-1 foregående

Nøkkelformler per tema

Regulære uttrykk

•[abc] -- tegnklasse, matcher ett av tegnene a, b, c
•[0-9] eller \d -- matcher et siffer
•a|b -- disjunksjon, matcher a ELLER b (lav presedens!)
•? = 0/1, * = 0+, + = 1+, {n} = nøyaktig n, {n,m} = n til m
•() -- gruppering (styrer presedens) og fangst
•\. -- escaped punktum (matcher bokstavelig punktum)
•\s -- mellomrom, tab, newline

Morfologi og ordklasser

•Morfem = minste betydningsbærende enhet
•Avledning: legger til affiks som endrer ordklasse/betydning
•Sammensetning: kombinerer frie morfemer til nytt ord
•Ordklassekriterier: formelle (bøyning), syntaktiske (plassering), semantiske (betydning)
•Ordklasser: NOUN, VERB, ADJ, ADV, PREP, DET, PRON, KONJ, SUBJ

Språkmodeller og n-gram

•P(w2 | w1) = C(w1 w2) / C(w1) -- bigram-sannsynlighet
•

Vanlige feil å unngå

Regulære uttrykk

•Glemme at disjunksjon (|) har lav presedens. /ab|cd/ matcher 'ab' eller 'cd', IKKE 'a(b|c)d'. Bruk parenteser for å avgrense.
•Forveksle ? (0 eller 1) med * (0 eller flere). Bruk ? når noe er valgfritt men maks ett.
•Glemme å escape punktum. Uescapet . matcher ALLE tegn, ikke bare et faktisk punktum.
•Bygge for brede uttrykk som matcher for mye. Vær sa spesifikk som mulig med tegnklasser.

Morfologi og ordklasser

•Forveksle bøyning og avledning. Bøyning endrer IKKE ordklasse (gutt->gutter), avledning KAN endre ordklasse (tjene->tjeneste).
•Glemme at mange ord er flertydige mellom ordklasser. 'for' kan være preposisjon, konjunksjon eller adverb avhengig av kontekst.
•Klassifisere 'det' som bare pronomen -- det kan også være determinativ/artikkel ('det store huset').
•Blande adverb og adjektiv. 'fort' er adverb (modifiserer verb), 'rask' er adjektiv (modifiserer substantiv).

Språkmodeller og n-gram

•Glemme å inkludere og når du teller n-gram. De er tokens som skal telles med!
•Blande teller og nevner i bigram-formelen. Telleren er antall ganger bigrammet (w1,w2) forekommer, nevneren er antall ganger w1 forekommer.
•

Eksamenstips

Regulære uttrykk

•Bryt ned komplekse regex-oppgaver i delproblemer. Skriv regex for dag, måned, ar, pris osv. separat, og sett dem sammen.
•Test regex-et ditt mentalt mot eksemplene i oppgaveteksten -- både de som SKAL og de som IKKE SKAL matche.
•Regex-oppgaven er typisk verdt 10-15% og kommer alltid først. Den er tidkrevende -- bruk ca. 30 minutter.
•To oppgavetyper går igjen: skriv et regex selv (datoer, adresser, billetter, bøyningsformer, forkortelser) OG analyser et gitt regex (hvilken streng matcher ikke, kan en parentes fjernes, er pastanden sann). Oev på begge.
•Husk koblingen til endelige tilstandsmaskiner: du kan bli bedt om en transisjonstabell og å begrunne om maskinen er deterministisk (DFA) eller ikke (flere transisjoner på samme symbol = ikke-deterministisk).

Morfologi og ordklasser

•Ordklasseoppgaven gir typisk 5-10 poeng og tester om du kan anvende de tre kriteriene. Nevn alltid alle tre i teorispørsmål.
•Bruk konteksten aktivt. Et ord kan være ulike ordklasser i ulike setninger -- se på hva som står rundt ordet.
•På H2022-eksamen var affikstyper testet med paring-oppgave. Oeev på å skille mellom bøynings- og avledningsaffikser.
•Et fast teori-spørsmål er å sammenligne regelbaserte og statistiske taggere. Få med at regelbaserte regler defineres MANUELT, og at statistiske modeller læres fra et ANNOTERT korpus -- det er disse to ordene sensor ser etter.

Språkmodeller og n-gram

•S -> NP VP, VP -> V | V NP | VP PP, NP -> N | D N | NP PP
•PP -> P NP, CP -> C S (komplementsetning)
•Rekursjon: symbol på både venstre og høyre side av regel
•Konstituenttester: substitusjon, flytting, koordinasjon

Semantikk

•Synonymi (lik), Antonymi (motsatt), Hyponymi (type-av), Meronymi (del-av)
•Homonymi (urelatert lik form), Polysemi (relaterte betydninger)
•Semantiske roller: Agent, Theme, Experiencer, Instrument, Goal, Source, Beneficiary
•Komposisjonalitet: betydning av helhet = f(delenes betydning + kombinasjon)

Naive Bayes

•P(c|d) proporsjonalt med P(c) * produkt av P(wi|c)
•P(c) = Nc / N (prior -- andel dokumenter i klassen)
•P(w|c) = (C(w,c) + 1) / (C(c) + V) -- med glatting
•V = antall unike ord i hele treningssettet

NER og evaluering

•BIO: B = starten av entitet, I = inne i entitet, O = utenfor
•Kategorier: PER, ORG, LOC, GPE, DT
•Precision = TP/(TP+FP), Recall = TP/(TP+FN)
•F1 = 2*P*R / (P+R)

P(setning) = produkt av P(wi | wi-1) for alle ord i setningen

•Markov-antakelsen: P(wi | w1...wi-1) ≈ P(wi | wi-n+1...wi-1)

•Laplace-glatting: P(w2|w1) = (C(w1 w2) + 1) / (C(w1) + V)

• og = start- og slutt-symboler for setninger

•Antall n-gram i setning med N ord (inkl. ,) = N - n + 1

Syntaks og grammatikk

•S -> NP VP (grunnleggende setningsstruktur)
•VP -> V | V NP | VP PP (verbfrase med objekt/preposisjonsfrase)
•NP -> N | D N | NP PP | NP KONJ NP (nominalfrase, rekursiv)
•PP -> P NP (preposisjonsfrase)
•CP -> C S (komplementsetning, f.eks. 'at katten sover')
•Rekursjon: en ikke-terminal produserer seg selv (direkte/indirekte)

Semantikk

•Synonymi: like betydninger (pen -- vakker)
•Antonymi: motsatte betydninger (inne -- ute)
•Hyponymi: 'er en type' (sommerfugl er en type insekt)
•Meronymi: 'er en del av' (tå er en del av fot)
•Homonymi: samme form, urelatert betydning (gift/gift)
•Polysemi: samme ord, relaterte betydninger (gå til fots / veien går)
•Entailment: p medfører q dersom q alltid er sann når p er sann (lingvistisk, ikke faktasjekk)
•Zeugma-test: konjunger to bruksmåter av et ord -- blir det rart, er ordet flertydig

Naive Bayes-klassifisering

•P(c|d) proporsjonalt med P(c) * P(w1|c) * P(w2|c) * ... * P(wn|c)
•P(c) = antall dokumenter i klasse c / totalt antall dokumenter
•P(w|c) = C(w,c) / C(c) -- ordsannsynlighet uten glatting
•P(w|c) = (C(w,c) + 1) / (C(c) + V) -- med Laplace-glatting
•V = antall unike ord i hele treningssettet (vokabularstorrelse)
•Velg klassen med høyest P(c) * produkt av P(wi|c)
•Betinget sannsynlighet: P(A|B) = P(A,B)/P(B) -- utgangspunkt for Bayes
•Produktsetningen: P(A,B) = P(A|B)P(B) = P(B|A)P(A)
•Bayes-regel: P(A|B) = P(B|A)P(A)/P(B) (utledet fra de to over)
•Naiv antakelse: P(f1,...,fn|c) ≈ produkt av P(fi|c)

Språkteknologiske anvendelser

•BIO-tagging: B = Beginning (første ord), I = Inside (fortsettelse), O = Outside (ikke entitet)
•NER-kategorier: PER (person), ORG (organisasjon), LOC (lokasjon), GPE (geopolitisk enhet), DT (dato)
•Precision = TP / (TP + FP) -- andel riktige blant predikerte
•Recall = TP / (TP + FN) -- andel funnet blant faktiske
•F1 = 2 * Precision * Recall / (Precision + Recall)
•Tokenisering: dele tekst i ord/tegn, håndtere spesialtilfeller
•Tokens = løpende ord (gjentakelser telles), types = unike ord
•Intrinsisk evaluering = direkte på deloppgaven; ekstrinsisk = bidrag i større oppgave
•Dialogsystemer: oppgaveorienterte agenter vs. chatbots

Glemme glatting når oppgaven eksplisitt ber om det. Uten glatting kan sannsynligheten bli 0.

•Forveksle Markov-antakelsen med glatting. Markov-antakelsen begrenser historikken, glatting håndterer null-frekvenser.

Syntaks og grammatikk

•Glemme å tegne ALLE mulige trær når oppgaven ber om det. Sjøkk alltid om PP kan tilknyttes både VP og NP.
•Forveksle overgenering og undergenering. Overgenering = grammatikken godtar ugrammatiske setninger. Undergenering = den avviser grammatiske setninger.
•Legge til ikke-rekursive konjunksjonsregler som bare håndterer to ledd (NP -> NP KONJ NP er rekursiv og håndterer ubegrenset mange).
•Glemme leksikalske regler når du utvider grammatikken. Du må legge til både syntaktiske regler (VP -> VP PP) OG leksikalske regler (P -> på, N -> julaften).

Semantikk

•Forveksle hyponymi og meronymi. Hyponymi = 'er en type' (is-a), meronymi = 'er en del av' (part-of). Sommerfugl er en TYPE insekt (hyponymi), tå er en DEL AV fot (meronymi).
•Forveksle homonymi og polysemi. Homonymi = urelaterte betydninger (tilfeldighet), polysemi = relaterte betydninger (utvikling fra samme opphav).
•Gi Agent-rollen til subjektet automatisk. I 'Jon hører en lyd' er Jon EXPERIENCER (opplever), ikke Agent (handler ikke bevisst).
•Glemme at semantiske roller følger verbet, ikke posisjonen i setningen. I passiv ('kaken ble spist av hunden') er hunden fremdeles Agent.

Naive Bayes-klassifisering

•Glemme glatting når oppgaven ber om det. Uten glatting gir ukjente ord sannsynlighet 0, og hele produktet blir 0.
•Telle feil: C(w,c) er antall ganger ordet forekommer i klasse c (IKKE antall dokumenter det forekommer i).
•Glemme å inkludere alle ord i test-setningen i utregningen. Hvert ord skal være med som en faktor.
•Bruke feil V (vokabularstørrelse). V er antall UNIKE ord i HELE treningssettet (både klasser), ikke bare i en klasse.

Språkteknologiske anvendelser

•Bruke I-PER i stedet for B-PER når en ny person-entitet begynner. Hvert nytt egennavn starter med B-, ikke I-.
•Glemme at stedsnavn kan være både LOC og GPE. GPE brukes for politiske enheter (land, byer), LOC for geografiske (fjell, elver).
•Ikke ta hensyn til at noen entiteter ikke passer i kategoriene. I H2020 var 'Klara' (skipsnavn) verken PER, ORG, LOC eller GPE.
•Forveksle precision og recall. Precision = 'av det vi gjettet positivt, hvor mye var riktig?'. Recall = 'av det som faktisk var positivt, hvor mye fant vi?'.

•Språkmodell-oppgaven er typisk verdt 10-15% og krever konkrete utregninger. Vis alle mellomregninger tydelig.
•På H2022 ble Markov-antakelsen testet som flervalg -- husk at hovedgrunnen er å kunne estimere sannsynligheter uten å se på hele historikken.
•Når du får en bigram-tabell, les den nøye: P(kolonne | rad) -- raden er det foregående ordet.

Syntaks og grammatikk

•Syntaks-oppgaven er den største på eksamen (15-25%). Oeev på å tegne frasestrukturtrær for hånd -- det er tidkrevende.
•Når du får en grammatikk og skal avgjøere om setninger er grammatiske: førsøk å bygge treet fra toppen (S) og ned. Hvis du ikke kan nå setningen, er den ikke grammatisk i følge grammatikken.
•Rekursjon-spørsmålet kommer alltid. Se etter regler der samme symbol står på både venstre og høyre side, eller en syklus (A -> B, B -> A).

Semantikk

•Semantikk-oppgaver er ofte flervalg/paring og gir 10-15%. De er raske poeng hvis du kan definisjonene.
•Polysemi vs. homonymi er vanskeligst: spør deg selv 'er betydningene relaterte?' Hvis ja = polysemi, hvis tilfeldig = homonymi.
•For semantiske roller: finn verbet først, og spør 'hvem gjør handlingen?' (Agent), 'hva påvirkes?' (Theme/Patient), 'hvem opplever?' (Experiencer).
•Entailment og komposisjonalitet kommer som korte teori-spørsmål: gi en presis definisjon PLUSS minst ett eksempel. For entailment poengter at relasjonen er lingvistisk (ikke faktasjekk) og gi gjerne både et leksikalsk og et syntaktisk eksempel.
•Roller forveksles ofte i passiv: i 'kaken ble spist av hunden' er hunden fremdeles Agent. Roller følger verbets argumentstruktur, ikke ordstillingen.

Naive Bayes-klassifisering

•Naive Bayes-oppgaven er typisk verdt 15-20% og krever detaljerte utregninger. Vis ALLE steg og mellomregninger.
•Start med å telle ord per klasse og beregne V før du begynner på selve klassifiseringen.
•Oppgaven spør ofte om klassifiseringen er korrekt og hvorfor/hvorfor ikke. Ha et svar klart på hvorfor små treningsdata gir feil.
•Ren teori-variant: vis utledningen av Bayes-regel fra betinget sannsynlighet (via produktsetningen), og/eller vis hvordan den naive uavhengighetsantakelsen uttrykkes i formelen (begge sider av ≈-tegnet). Disse gir raske poeng hvis du har stegene innøvd.
•Ord som ikke finnes i vokabularet (i noen testsetning men ikke i treningsdata) skal vanligvis ignoreres -- de inngår ikke som faktor. Les oppgaveteksten for om glatting skal brukes eller ikke.

Språkteknologiske anvendelser

•BIO-tagging testes med paring-oppgave (H2022) eller fritekst (H2020). Oeev på å tagge setninger korrekt -- spesielt B vs. I.
•Tokenisering ble testet på H2021 med en tekst full av spesialtilfeller. Tenk på: bindestrek, URL, prosent, forkortelser.
•Koreferanse-spørsmålet (H2020) er typisk et kort teori-spørsmål. Definer begrepet og gi ett eksempel på hvorfor det er vanskelig.
•Tokens vs. types er en klassisk deloppgave: definer forskjellen OG tell konkret i en gitt setning. Vær nøye med om tegnsetting skal telles med.
•Dialogsystemer/chatbots og intrinsisk vs. ekstrinsisk evaluering kommer som korte teori-spørsmål. Ha to-tre konkrete utfordringer ved menneskelige samtaler klare (turtaking, implikatur, temaskift).