Hvilke to pre-training-oppgaver brukte den opprinnelige BERT-modellen, og hva er hensikten med hver?
Klikk for å snu kortet
BERT ble pre-trent med to oppgaver samtidig: (1) Masked Language Modeling (MLM), der omtrent 15 % av tokenene maskeres tilfeldig og modellen må predikere de skjulte tokenene ut fra konteksten på begge sider. Dette gir BERT en dyp toveis (bidireksjonell) kontekstforståelse. (2) Next Sentence Prediction (NSP), der modellen får to setninger og må avgjøre om setning B faktisk følger etter setning A i den opprinnelige teksten. NSP var ment å lære modellen forhold mellom setninger, viktig for oppgaver som spørsmål-svar og inferens. Senere modeller (f.eks. RoBERTa) viste at NSP kan droppes uten tap, men MLM forble sentralt.
Space / Enter for å snu