# Pre-processing van GCND-transcripties voor het parsen met Alpino
## 1.Filosofie
### 1.1 Waarom pre-processen?
Met de parser [**Alpino**](https://urd2.let.rug.nl/~vannoord/alp/Alpino/) willen we in het GCND-project de zinnen uit de dialectopnames syntactisch annoteren. Doordat ALPINO echter getraind is op data (en vooral schrijftaal) uit het Standaardnederlands, heeft de parser vaak moeite met typisch spreektalige of uitgesproken dialectische structuren. Denk maar aan zinnen met subjectsverdubbeling (*ik heb **ik ik**...*) of ontkennende zinnen met *en* (*ik **en** heb dat niet geweten*). Alpino gaat er immers standaard van uit dat elke zin maar één onderwerp heeft, of dat *en* een voegwoord ("&") is. Bij dat soort structuren moeten we Alpino een handje helpen om tot de juiste syntactische analyse te komen. Daarom voegen we extra informatie toe in de transcripties voor we ze door Alpino laten analyseren (=pre-processing).
Een aantal pre-processing taken wordt automatisch uitgevoerd met behulp van scripts (zie hieronder voor meer info). De taak van de manuele pre-processing bestaat er vooral in om structuren te markeren/aan te passen die niet geautomatiseerd kunnen worden.
:::warning
**Belangrijk**: **Zinnen die de codes '???' of 'xxx'** **bevatten** -- i.e. zinnen waarbij de transcribent stukken niet kon transcriberen door respectievelijk een gebrekkige dialectkennis of slechte audiokwaliteit -- **worden niet geparset en hoeven dus ook niet gepreprocest te worden.** De beslissing om die zinnen niet te parsen werd gemaakt omdat het vaak moeilijk is de syntactische structuur te bepalen van zinnen waarvan je stukken niet verstaat, en we daar dan ook geen tijd en energie aan willen besteden. In de txt-bestanden die voor Alpino voorbereid moeten worden, zijn zinnen met '???' en 'xxx' automatisch gemarkeerd met een **hashtag #**; die zinnen mag je dus negeren bij het pre-processen, maar ze zijn wel handig voor de context.
Verschillende **tussenwerpsels** werden ook al automatisch aangeduid, maar hierover volgt nog meer uitleg in het hoofdstuk over haakjes.
:::
**We onderscheiden vier taken bij het preprocessen:**
1. Onderbroken zinnen die later herhaald worden uitcommentariëren
2. Haakjesstructuren toevoegen
3. Zinsgrenzen controleren en indien nodig aanpassen
4. Komma's toevoegen
### 1.2 Inputbestanden = getokeniseerde transcripties
> Zie hierover ook de handleiding 'Parsing en dependentiebomen for dummies'
Alpino kan verschillende soorten input verwerken; wij gebruiken **getokeniseerde** bestanden als input. *Getokeniseerd* betekent dat de hele transcriptie opgedeeld is in eenheden, die we **tokens** noemen. Die eenheden of tokens zijn woorden (zoals ‘heb’, ‘ik’ of ‘klappen’), leestekens (bv. ‘?’ en ‘.’) en symbolen (zoals ‘ggg’ of ‘xxx’).
### 1.3 Het formaat van de bestanden
Het formaat van de getokeniseerde bestanden, die de input vormen voor Alpino, is als volgt:
1. Elke **zin** -- gedefinieerd als een reeks tokens die met een '.', '?' of '...' afsluit -- staat op één **regel**.
2. Aan het **begin van elke regel** staat er een **unieke identificeerder**, die bestaat uit:
a. de code van de opname (kloekecode en nummer van de opname),
b. de code van de spreker (kloekecode, nummer van de opname en nummer van de spreker),
c. het nummer van de regel,
d. en, heel belangrijk, een loodrecht streepje | (ook *pipe* genoemd)
3. **Alles** wat **na het streepje |** komt, wordt door Alpino als **te parsen tokens** geïnterpreteerd.
In het volgende stukje uit de opname van Cassel, bijvoorbeeld, is *N097p_1* de code van de opname, *N097p_1_1* de code van de spreker, en *0053* tem *0057* zijn de regelnummers:
```
N097p_1--N097p_1_1--0053|uh [ @skip ... ] het waren daar enfin sermoenen [ @askip uh ] in het Vlaams .
N097p_1--N097p_1_1--0054|ah ja ik
N097p_1--N097p_1_1--0055|maar het was maar één keer te maand .
N097p_1--N097p_1_1--0056|het was in het Vlaams .
```
## 2. Pre-processing I: onderbroken zinnen (die vervolgens herhaald en wel afgewerkt worden) uitcommentariëren
In de informatica verwijst *uitcommentariëren* (ook wel *uitsterren* of *uitslashen* genoemd) naar het in commentaar plaatsen van gedeelten van een bestand, met als doel ervoor te zorgen dat de code of tekst die in commentaar is gezet geen invloed heeft op de uitvoering van het programma. Concreet voor het GCND gaan we sommige zinnen uitcommentariëren -- door een **hashtag aan het begin van de regel** te plaatsen -- om ervoor te zorgen dat Alpino die niet meeneemt bij het parsen. Zoals hierboven al aangegeven, gebeurt dat automatisch voor zinnen met 'xxx' en '???', omdat het moeilijk is de syntactische structuur te bepalen van zinnen waarvan je stukken niet verstaat. Daarnaast willen we sommige **onafgewerkte zinnen** ook buiten beschouwing laten, **namelijk die die later in het gesprek herhaald en afgewerkt worden**. Die moeten manueel uitgecommentarieerd worden.
```
ORIGINEEL
H117p_1--H117_1_1--0006|ja je hebt met een oude mens [ @skip ... ]
# H117p_1--Int_GDS--0007|waar zij#de geboren [ @skip uh ] ?
# H117p_1--H117_1_1--0008|??? .
# H117p_1--Int_GDS--0009|ja .
H117p_1--H117_1_1--0010|je hebt met een oude mens van doen .
AANGEPASTE VERSIE
# H117p_1--H117_1_1--0006|ja je hebt met een oude mens [ @skip ... ]
# H117p_1--Int_GDS--0007|waar zij#de geboren [ @skip uh ] ?
# H117p_1--H117_1_1--0008|??? .
# H117p_1--Int_GDS--0009|ja .
H117p_1--H117_1_1--0010|je hebt met een oude mens van doen
```
In het fragment hierboven begint de spreker een zin, en wordt dan door de interviewer onderbroken. De zinnen uitgesproken door de interviewer (met 'Int' in de code) zijn al automatisch uitgecommentarieerd, net als zinnen met '???' of 'xxx'. In zin `H117p_1--H117_1_1--0010` begint de spreker de zin opnieuw. In dit geval mag zin `H117p_1--H117_1_1--0006` gemarkeerd worden als 'over te slaan bij het parsen' aan de hand van een hashtag #.
::: danger
Let op! **Na de #** moet er **altijd een spatie** staan!
:::
**Wordt de onderbroken zin later in de tekst niét afgewerkt, dan behouden we een zin en wordt er toch een boom gegenereerd voor die onderbroken zin.**
```
...|als hij vandaag thuis is .
...|toen zij nog een kind was .
...|ik ben .
...|ze leggen .
```
**Eenwoordzinnen of andere korte zinnen** moeten ook behouden blijven.
```
...|spellewerken .
...|ja ik .
```
## 3. Pre-processing II: [ @haakjes ]: algemeen
In de voorbeelden hierboven heb je misschien al opgemerkt dat sprekers soms even twijfelen ("..."), en dat de code "..." tussen vierkante haakjes staat met de code `@skip` erbij. Die haakjes en die code zijn toegevoegd als bevel voor Alpino: alles wat er tussen die haakjes staat, zal Alpino negeren en niet parsen. Naast de code @skip zijn er nog een paar andere interessante haakjesstructuren die ervoor zorgen dat Alpino de zinnen makkelijker kan doorgronden.
:::success
In dit onderdeel lichten we kort de verschillende types haakjesstructuren toe met telkens een eenvoudig voorbeeld; in de onderdelen hierna volgen preciezere instructies met extra en complexere voorbeelden.
:::
| Haakjesstructuur | Betekenis | Voorbeeld |
| ------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------- |
| `[ @skip text ]` | Hiermee vragen we Alpino om een woord te negeren / niet te parsen. Die woorden hangen dan direct onder de bovenste knoop in de boom. Ze krijgen een POS-tag, maar geen dependentielabel. | **Herhaalde woorden/verbeteringen** <br> `[ @skip ik ] [ @skip heb ] ik had een koe` <br><br>**Ontkennend *en*** <br>`ik [ @skip en ] heb geen werk meer`
| `[ @mwu ... ]` | Hiermee vragen we Alpino om meerdere woorden als "multi-word unit" te behandelen. | **Namen, die uit meer dan een woord bestaan** <br> `[ @mwu New York City ]`
| `[ @mwu_alt ... ]` | Hiermee vragen we Alpino om meerdere woorden zoals een enkel woord te behandelen dat wel al in het lexicon voorkomt. | <br>**Anderstalige uitdrukkingen** <br>`[ @mwu_alt ja c'est ça ]`<br>wordt<br>, `[ @mwu_alt beurtelings à tour de rol ]`
| `[ @x text ]` | Met dit commando markeren we stukken tekst (doorgaans constituenten) die Alpino niet zomaar mag negeren, maar waarvan we op voorhand al weten dat ze door hun dialectische of spreektalige aard problemen in Alpino zullen opleveren. Tekst die met '@x' gemarkeerd is, wordt door Alpino los van de rest van de zin geparset (als een structuur op zich); bij de verbetering van de boom achteraf moeten we het gemarkeerde zinsdeel dan handmatig op de juiste plek in de boom hangen. | **V3-zinnen** <br> `[ @x als het weer goed is ] [ @x de boer , hij ploegt voort ]` <br> of <br>`[ @x 's anderdaags ] [ @x het zat ertegen ]` <br> of <br> `[ @x en 's ochtends ] [ @x we trekken de deur open ]` <br>
| `[ @phantom text ]` | Hier voegen we tekst toe die eigenlijk niet gezegd werd omdat Alpino de input beter zou kunnen parsen. | **Samentrekkingen** <br> > *Ik kocht boeken en Piet platen* <br>wordt<br> > `ik kocht boeken en Piet [ @phantom kocht ] platen`.<br>
| `[ @alt X Y ]`[](https://) | Hiermee vertellen we Alpino om het (voor Alpino onbekende) woord Y zoals het (voor Alpino bekende) woord X te behandelen.| **Tikfouten** <br> >*zie wat dat ik hier ontvangen _ehb_*<br>>`zie wat dat ik hier ontvangen [ @alt heb ehb ] .` |
:::warning
**Sommige haakjesstructuren worden automatisch toegevoegd**
> **Pauzes of haperingen aangeduid in de transcriptie met "..."** worden automatisch als [ @skip text ] gemarkeerd
> **Tussenwerpsels** worden grotendeels automatisch gemarkeerd met [ @skip ]. Maar: de tussenwerpsels die om de een of andere reden niet door het script worden herkend (door een tikfout bijvoorbeeld) moeten nog manueel gemarkeerd worden. Opgelet! Het woord 'zulle' wordt automatisch gemarkeerd als tussenwerpsel, maar heel soms is het een zelfstandig naamwoord (dialectwoord voor stoep) en dan moet de @skip-code verwijderd worden zodat de oorspronkelijke zin hersteld wordt.
**Andere haakjesstructuren voegen we manueel toe.** Wanneer we dat precies doen, lichten we hieronder toe.
:::
:::warning
De transcripties bevatten ook vaak **de code “ggg”** (om gelach, gehuil, gehoest,... te markeren). Die code **hoef je niet met haakjes te markeren**. Alpino heeft 'ggg' namelijk in zijn vocabularium en kan daar dus mee om; in de boom krijgt 'ggg' automatisch het categorielabel `SPEC(onverst)`
:::
::: danger
**Let op:** <br>
* **Spaties** zijn belangrijk! Bij elk commando hoort een spatie tussen de haakjes, het @-bevel en *text*. We zetten wel **geen** spatie tussen de `@` en het bevel (`x`, `skip`, `phantom`, of `add_lex`)! <br>
* Let ook op dat er altijd een spatie tussen het streepje | en een [ @... ] haakje staat!<br>
* Normaal gezien staat er op het einde van een regel een leesteken, meestal een "." Het leesteken mag niet binnen haakjes (komen te) staan, en moet altijd voorafgegaan worden door een spatie -- dit is een apart token voor Alpino! (indien er geen leesteken op het einde van een regel staat, is dat trouwens niet erg.)
:::
:::danger
**Heel belangrijk:**
De haakjes [ @skip text ], [ @phantom text ] en [ @alt X Y ] moeten **per woord** gebruikt worden. Je kunt er dus geen sequentie van meerdere woorden mee vervangen. Bij de combinatie **'s morgens** moet je ook telkens twee haakjes gebruiken, bijvoorbeeld [ @skip 's ] en [ @skip morgens ].
**NB** [ @x text ] kan wel voor een sequentie van meerdere woorden gebruikt worden.
:::
```
FOUT:
[ @skip hij is daar ] [ @skip ... ] hij is daar aangekomen .
JUIST:
[ @skip hij ] [ @skip is ] [ @skip daar ] [ @skip ... ] hij is daar aangekomen .
```
## 4. Haakjes: Wanneer [ @skip ... ] manueel toevoegen?
### **4.1 Bij herhaalde woorden/verbeteringen**
Typisch voor gesproken taal is dat sprekers vaak twijfelen, woorden herhalen of corrigeren.
```
ORIGINEEL
...|en ons Marie die schreef vulde die kaart in
...|hé dat dat heeft mijn geluk geweest hé
...|van de van de kerk mogen ze daar mogen ze niets van bezigen maar de toren van dat is van de gemeente hé
```
Bij die gevallen geven we Alpino de instructie om in de mate van het mogelijke enkel **het meest rechtse element te analyseren**, door de andere woorden tussen haakjes te plaatsen.
```
MET HAAKJES
...|en ons Marie die [ @skip schreef ] vulde die kaart in
> []
...|hé [ @skip dat ] dat heeft mijn geluk geweest hé
```
Soms zal het niet mogelijk zijn om het meest rechtse element te behouden omdat je anders een ongrammaticale structuur zou krijgen.
```
...|[ @skip van ] [ @skip de ] van de kerk mogen ze daar [ @skip mogen ] [ @skip ze ] niets van bezigen maar de toren [ @skip van ] dat is van de gemeente hé`
```
Ook wanneer **woorden herhaald worden voor klemtoon** behouden we één van de woorden, en skippen we de rest. Bij de postprocessing zullen deze herhaalde woorden echter wél een plaats in de boom krijgen, aangezien de herhaling daar een functie uitoefent (klemtoon).
```
ORIGINEEL
we hebben niets niets te kort op geen gebied.
MET HAAKJES
we hebben niets [ @skip niets ] te kort op geen gebied .
```
### **4.2. Ontkennend *en***
```
ORIGINEEL
ik en heb geen werk meer.
MET HAAKJES
ik [ @skip en ] heb geen werk meer .`
```
In zinnen met ontkennend *en* denkt Alpino doorgaans foutief dat het om het voegwoord *en* gaat. We geven Alpino daarom de instructie *en* even te negeren, en hangen het negatiepartikel dan achteraf handmatig op de juiste plek in de boom.
### **4.3. Dubbele negatie binnen de nominale constituent**
Met dubbele negaties van het type 'nooit niet' en 'niemand niet' kan Alpino vrij goed om. Problemen ontstaan echter met dubbele negaties binnen nominale constituenten, waarbij meerdere negatoren voor het nomen staan:
```
ORIGINEEL:
Ik heb niet veel geen boeken meer.
MET HAAKJES:
Ik heb [ @mwu_alt geen niet veel geen ] boeken meer.
```
In dit geval helpen we Alpino een handje door *niet veel geen* te behandelen als *geen*.
### **4.4. Subjectverdubbeling**
Hierbij staan er twee of meer subjecten in een zin die anders wel goed geparset zouden kunnen worden. Door de herhaalde subjecten tussen `[ @skip ... ]` haakjes te zetten (behoud het eerste zonder haakjes!) wordt de eigenlijke zin goed geparset, en moeten de verdubbelde subjecten dan bij de post-processing op de juiste plaats gehangen worden.
`ik heb [ @skip ik ] [ @skip ik ] geen werk meer .`
:::success
**Een bijzonder geval**
`dat is [ @skip hij ] een orkest van tien man .`
Dit is een bijzonder type subjectsverdubbeling, waarbij het tweede voornaamwoord (vaak *hij/tet/tjij*) eigenlijk niet naar dezelfde referent verwijst als het subject. **Bij het preprocessen mag je die op dezelfde manier behandelen als andere types subjectverdubbeling** -- tjij/et/hij skippen dus. In de uiteindelijke boom zullen we dit soort verdubbeling wel ietwat anders analyseren.
:::
### **4.5. *Geweest* of *wezen***
<!---(zonder gaan)--->
De constructies "hij is gaan vissen", "hij is wezen vissen" en "hij is geweest vissen" worden door Alpino zonder problemen geparset.
Problemen ontstaan echter bij sommige dialectische **constructies in het GCND waarbij zowel *gaan* als *wezen* gebruikt worden**. Voor de pre-processing is het daarom nodig om *wezen/geweest* eventjes tussen [ @skip ... ] haakjes te plaatsen, dan wordt de rest van de zin goed geparset, en kunnen we het woord bij de post-processing nog op zijn juiste plaats hangen.
<!---
:::danger
HIER NOG EENS NADENKEN HOE WE DAT ANALYSEREN? VOOR BESLISSINGENDOCUMENT? Ik zou hier ook wat inleiding toevoegen: om welk verschijnsel gaat dit?
Je hebt ook 'Ik ben wezen vissen'
Cf. De Schutter, Georges. "Wezen Vissen. Dialektgeografie Van Een Konstruktie." Taal & Tongval 26 (1983): 70-90. >> ASG heeft pdf van artikel
:::
--->
```
ORIGINEEL:
...|ik ben daar geweest gaan spreken
...|hij is daar wezen gaan kijken
MET HAAKJES:
...|ik ben daar [ @skip geweest ] gaan spreken
...|hij is daar [ @skip wezen ] gaan kijken
```
### **4.6. Imperatief met *gaan***
...|en gaan eet iets kind .
...|en [ @skip gaan ] eet iets kind .
### **4.7. Spiegelconstructies**
Ook voor de zogenaamde *spiegelconstructie*, waarbij onderwerp en persoonsvorm links en rechts van een willekeurige constituent (ankerpunt) gespiegeld staan, maken we gebruik van een [ @skip ... ]-commando om Alpino te helpen.
We spreken van een spiegelconstructie als de spreker
* een zin begint met de standaardvolgorde subject-persoonsvorm;
* daarna een bepaling toevoegt;
* en vervolgens het bouwplan van de zin als het ware herziet en de bepaling herinterpreteert als topic op de eerste zinspositie, waar dan de persoonsvorm en het onderwerp op volgen.
```
ORIGINEEL:
je moet heel snel moet je weer wisselen
MET HAAKJES:
je moet heel snel [ @skip moet ] [ @skip je ] weer wisselen
```
Door het commando toe te voegen zal Alpino geen hypothesen formuleren over de plaats van de herhaalde persoonvorm en het herhaalde onderwerp in de dependentieboom; bij de post-processing/verbetering van de geparsete boompjes moeten we het verdubbelde onderwerp en de verdubbelde persoonsvorm dan handmatig op de juiste plaats hangen.
::: danger
Belangrijk! In het geval van spiegelconstructies **behouden we het eerste onderwerp en de eerste persoonsvorm**. Het tweede onderwerp en de tweede persoonsvorm moeten geskipt worden.
:::
:::info
**Ter herinnering:**
[ @skip X ] moet ***per woord*** gebruikt worden. Je kunt er dus geen sequentie van meerdere woorden mee overslaan, maar moet dat woord voor woord doen.
:::
### 4.8. Expletief 'dat' na betrekkelijke voornaamwoorden
In spreektaal tref je vaak expletief *dat* aan:
* **Type 1: na onderschikkend voegwoord *of***
*Ik weet niet of dat hij komt.*
* **Type 2: na vraagwoord**
*Ik weet niet wie dat er komt.
we gaan weer moeten de tijd afwachten wat dat er allemaal gaat voorvallen*
* **Type 3: na betrekkelijk voornaamwoord**
*De mens die dat jou moet helpen, zal vloeken.*
* **Type 4: na vraagwoord + *of*** (zeldzaam in Vlaanderen, cf. Lassy-handleiding)
*Zijn er meer mogelijkheden dan wat of dat je nu hebt?*
Bij alle constructies waarbij expletief *dat* verschijnt, is een [ @skip ]-commando nodig, behalve bij type 1 want daar beschouwen we 'of dat' als één geheel (multi-word unit) dat net als 'of' geanalyseerd mag worden.
```
ORIGINEEL
Ik weet niet of dat hij komt.
De mens die dat jou moet helpen, zal vloeken.
MET HAAKJES
Ik weet niet [ @mwu_alt of of dat ] hij komt.
De mens die [ @skip dat ] jou moet helpen, zal vloeken.
```
### **4.9. Tijdsbepalingen met "van"**
```
ORIGINEEL
Dat begon van te vijven .
MET HAAKJES
Dat begon [ @skip van ] te vijven .
```
**Let op:** Niet in
```
vroeger moesten ze allemaal de trein hebben **van** ten kwart voor de zessen
```
### **4.10 Tussenwerpsels**
De dialectische **tussenwerpsels** zullen normaal al automatisch een [ @skip]-label gekregen hebben, maar als er nog dialectische tussenwerpsels door de mazen van het automatische net geglipt zouden zijn, moet het commando nog manueel toegevoegd worden. Let wel: Alpino kan om met de tussenwerpsels *awel*, *enfin* en *oh*; die hoef je niet per se te markeren.
```
ORIGINEEL
ik uh was toen dertien jaar .
MET HAAKJES
ik [ @skip uh ] was toen dertien jaar .
```
## 5. Haakjes: Wanneer [ @x ... ] manueel toevoegen?
Hiermee vraag je Alpino om een woord of een sequentie van woorden als fragment / discourse part te behandelen. Het wordt dan wel intern geparset, maar niet met betrekking tot de zin waarin het staat.
### **5.1 Inversieloos V-later-dan-2**
**[ @x ... ]** gebruiken we **voorlopig enkel voor** **V3-zinnen** die ***niet*** **als aanloopconstructie, aanspreking, aansporing, vooropgeplaatst tussenwerpsel of hanging topic geanalyseerd kunnen worden** ([zie hier voor toelichting](https://hackmd.io/QVyhVIjkRiaUTo6rIJIZtA?view#3-Uitbreidingen-van-de-zin-TAG-en-SAT)). Kort samengevat gaat het meestal om constructies waarin een bepaling voorop staat, maar je in tegenstelling tot in het Standaardnederlands geen inversie krijgt en het werkwoord dus niet op de tweede zinsplaats staat, maar op de derde.
```
ORIGINEEL:
(a) De boer als hij gepresseerd is hè hij gaat voort in het veld
(b) Gisteren in de cinema ik kwam slecht.
```
Dit soort zinnen analyseren we in Alpino als een 'discourse unit' die uit een tag en een kernzin bestaat. Elke bepaling (en eventueel ook een hanging topic) vormt een 'tag' op zich. **Om Alpino te helpen tot die structuur te komen, zetten we de bepalingen elk afzonderlijk tussen haakjes, net als de 'hoofdzin'.**
```
MET HAAKJES:
(a) [ @x de boer ] [ @x als hij gepresseerd is ] [ @x hè ] [ @x hij gaat voort in het veld ] .
(b) [ @x gisteren ] [ @x in de cinema ] [ @x ik kwam slecht ] .
```
:::danger
[ @x ... ] zorgt ervoor dat de text tussen de haakjes als discourse-fragment behandeld wordt, maar alles wat er rechts of links van staat, wordt dan ook als discourse-fragment beschouwd.
**Wees daarom voorzichtig** met waar je deze haakjes gebruikt: zeker **niet** binnen een zin die zonder de tekst tussen haakjes zonder problemen geparset zou kunnen worden. In dat geval gebruik je beter [ @skip ... ].
Dat bespaart ons onnodig werk bij de post-processing!
:::
:::info
**Ter herinnering:**
Anders dan bij de andere haakjes kun je [ @x ... ] wel op **meerdere woorden** tegelijk toepassen.
:::
## 6. Haakjes: [ @phantom ... ] manueel toevoegen?
### **6.1. Bij samentrekkingen**
We spreken van samentrekking als een woord of woordgroep wordt weggelaten omdat hetzelfde woord(deel) ook elders in de zin voorkomt.
```
ORIGINEEL:
(a) Ik kocht boeken en Piet platen
(b) en mijn mijn vader is toen naar... naar Brugge gegaan zijn stiel geleerd.
```
De meeste gevallen van nevenschikking met samentrekking worden door Alpino niet herkend, en dus moeten we een handje helpen:
```
MET HAAKJES:
(a) ik kocht boeken en Piet [ @phantom kocht ] platen`.
(b) en mijn mijn vader is toen [ @skip naar ] [ @skip ... ] naar Brugge gegaan [ @phantom en ] [ @phantom heeft ] [ @phantom daar ] zijn stiel geleerd.
```
:::warning
Het is **niet nodig** om alle **elliptische structuren** (zoals *goed geleefd* in het volgende voorbeeld) van 'phantoms' te voorzien, die kan Alpino prima als discourse parts parsen.
```
... |ik zeg we hebben onder de oorlog niets te kort gehad verre van .
... |goed geleefd
```
:::
:::danger
**Let op:** niet alle nevenschikkingen zijn samentrekkingen!
Een zin zoals <br>*Ik zag gisteren **Jan en Piet***<br> - met nevenschikking op constituentniveau - kan Alpino ook zonder hulp correct parsen (je hoeft er dus geen zin als 'Ik zag gisteren Jan en ik zag gisteren Piet' van te maken)!
:::
### **6.2. Wanneer preposities of andere woorden in het dialect ontbreken terwijl je die in het Standaardnederlands wel verwacht**
```
ORIGINEEL
...|we werden gezegend met een kindje de achttiende oktober van zevenentwintig
```
In bovenstaande zin weet Alpino niet goed wat gedaan met de laatste constituent, omdat je in het geschreven Standaardnederlands bij dergelijke tijdsbepalingen *op* verwacht. Hier helpen we dus een handje door "op" als phantom-element toe te voegen.
```
MET HAAKJES:
...|we werden gezegend met een kindje [ @phantom op ] de achttiende oktober van zevenentwintig
```
### **6.3. Bij opsomming van cijfers met betekenis 'ongeveer'**
```
ORIGINEEL:
en we hebben dagen geweest dat we dertig veertig vijftig boterhammen hadden voor ons [ @skip hé ] .``
```
Dit soort constructies analyseren als we een nevenschikking (conj) zonder bindwoord van drie determinatoren. Om die analyse voor Alpino te vergemakkelijken, voegen we bij het preprocessen een **phantom-bindwoord *en*** toe **tussen de laatste twee cijfers,** en een **phantom-komma tussen die ervoor**.
```
MET HAAKJES:
en we hebben dagen geweest dat we dertig [ @phantom ,] veertig [ @phantom of ] vijftig boterhammen hadden voor ons [ @skip hé ] .`
```
### **6.4. Bijzin met hoofdzinsvolgorde (V2-bijzin of Nebensätze)**
```
ORIGINEEL:
Die rol heb ik heel graag gespeeld omdat er zat poëzie in.
```
Bij het pre-processen wordt het werkwoord ‘zat’ geskipt, waarna het vervolgens op de ‘normale’ plaats gezet wordt met de code @phantom.
```
MET HAAKJES:
die rol heb ik heel graag gespeeld omdat er [ @skip zat ] poëzie in [ @phantom zat ]
```
:::info
**Ter herinnering:**
[ @phantom X ] moet ***per woord*** gebruikt worden, je kunt er dus geen sequentie van meerdere woorden mee vervangen.
:::
## 7. Haakjes: wanneer [ @alt X Y ] manueel toevoegen?
### **7.1 Tikfouten**
```
ORIGINEEL:
...|hetgeen dat overschot mochten we verdelen onder de nonnetjes en ons .
MET HAAKJES:
...|hetgeen dat [ @alt overschoot overschot ] mochten we verdelen onder de nonnetjes en ons .
```
:::danger
Let op!
Als er in de transcriptie nog een # is blijven staan om clitische elementen aan te duiden, verbeter die zin dan manueel en gebruik geen [ @alt X Y ].
```
ORIGINEEL:
k#ga morgen naar de kapper .
MANUELE VERBETERING:
ik ga morgen naar de kapper .
```
:::
### **7.2 Dialectische constructies die met vervanging van één woord makkelijker syntactisch doorgrond kunnen worden**
Bij sommige dialectische constructies kun je de parser een handje helpen door specifieke woorden te vervangen met [ @alt standaardwoord dialectwoord ]
#### **(a) Variatie in hulpwerkwoordgebruik**
```
ORIGINEEL:
...|en we hebben dagen geweest dat we dertig veertig vijftig boterhammen hadden voor ons
MET HAAKJES:
...|en we hebben dagen [ @alt gehad geweest ] dat we dertig veertig vijftig boterhammen hadden voor ons
```
#### (b) Beknopte bijzinnen met *voor* of *van* in plaats van *om*
```
ORIGINEEL:
...|de jongens waren niet verplicht van naar school te gaan
...|hij deed het voor op te vallen
MET HAAKJES:
...|de jongens waren niet verplicht [ @alt om van ] naar school te gaan
...|hij deed het [ @alt om voor ] op te vallen
```
#### ( c ) Presentatief *het*:
```
ORIGINEEL:
...|het was geen werk meer en ik leerde kantwerken .
MET HAAKJES:
...| [ @alt er het ] was geen werk meer en ik leerde kantwerken .
```
#### (d) *van doen hebben* (='te maken hebben')
```
ORIGINEEL:
...|je hebt met een oude mens van doen .
MET HAAKJES:
...|je hebt met een oude mens [ @alt te van ] doen .
```
#### **(e) Comparatieven met *of* ipv *dan* en *gelijk of/als* ipv *zoals***
De comparatiefpartikelen *gelijk* ipv. *zoals* (*ik ben niet gelijk gij*) en *als* ipv. *dan* (*ik ben slimmer als gij*) herkent Alpino vanzelf! Maar bij *gelijk of/als* en *of* ('dan') gaat Alpino de mist in. Door Alpino te laten weten dat *of* zoals standaardtalig *dan* werkt en *gelijk als/of (dat)* zoals *zoals* lukt de parsing wel. Let op: bij *gelijk als/of (dat)* moet `[ @mwu_alt ]` gebruikt worden, omdat je wilt aangeven dat meerdere woorden samen als een één standaardtalig woord functioneren.
```
ORIGINEEL:
...|hij is groter of ik
MET HAAKJES:
...|hij is groter [ @alt dan of ] ik
```
```
ORIGINEEL:
...|het is nu geen politiek meer gevoerd gelijk als vroeger
...|ze deden het gelijk of dat ze eigenlijk waren
MET HAAKJES:
...|het is nu geen politiek meer gevoerd [ @mwu_alt zoals gelijk als ] vroeger
...|ze deden het [ @mwu_alt zoals gelijk of dat ] ze eigenlijk waren
```
#### **(f) Dialectische bijwoorden**
Meestal zijn de dialectische bijwoorden al automatisch aangepast, maar soms kan het zijn dat er nog iets door de mazen van het net glipt en dan gebruik je [ @alt ] .
```
[ @alt zeker verzeker ]
[ @alt nauwelijks nauwers ]
```
#### **(g) *(van) te zessen/zevenen/...* ('om X uur')**
```
ORIGINEEL:
hij komt te zessen .
hij komt van te zessen .
MET HAAKJES:
hij komt [ @alt om te ] zessen .
hij komt van [ @alt om te ] zessen .
```
Heb je een zin als *hij komt te zessen* dan denkt Alpino dat *zessen* wel een werkwoord moet zijn in een infinitiefzin ingeleid door *te*. Om de juiste analyse te bekomen, vertellen we Alpino daarom *te* als *om* te behandelen.
#### **(h) *omdat hem peinsde dat...* (subject in oblique)**
```
ORIGINEEL:
omdat hem peinsde dat het zijn kindje was
MET HAAKJES:
omdat [ @alt hij hem ] peinsde dat het zijn kindje was
```
Bij pre-processing wordt de 'hem' aangepast naar 'hij' om Alpino een handje te helpen.
:::info
**Ter herinnering:**
[ @alt X Y ] moet **per woord** gebruikt worden. Je kunt er dus geen sequentie van meerdere woorden mee vervangen. In zo'n situatie gebruik je beter @mwu_alt.
:::
:::info
**Twijfel je of je ergens [ @alt X Y ] moet toepassen?** Het is zeer moeilijk een exhaustieve lijst te maken van dialectfenomenen die je moet markeren. **Ga niet in het wildeweg zomaar alles vervangen.** Bij dialectische zelfstandige naamwoorden kan Alpino bijvoorbeeld meestal (o.a. op basis van lidwoorden) goed raden dat het om een zelfstandig naamwoord gaat, en dan loopt de verdere analyse doorgaans ook goed. Bij twijfel **noteer je je vraag** (telkens met het regelnummer en de relevante zin!); op het einde van je shift bezorg je je vragen dan aan de coördinator of begeleidende promotor. **Als je al enigzins vertrouwd bent met Alpino-boomstructuren, kun je ook altijd op https://urd2.let.rug.nl/~vannoord/bin/alpino kijken of een specifiek dialectwoord problemen oplevert**; als je geen problemen ziet, hoef je zeker niets aan te passen.
:::
### 7.3. NIET aan te passen constructies
**Met volgende constructies kan Alpino goed om. Die hoef je dan ook NIET met [ @alt ] te markeren**:
- ***Als* ipv *of* in afhankelijke ja/nee-vragen** (*ik weet niet als hij komt vs. ik weet niet of hij komt*)
- **Dialectische zelfstandige naamwoorden waar een determinator aan vooraf gaat** (*we moeten die blaffeturen nog schilderen*)
## 8. Haakjes: wanneer [ @mwu_alt ] manueel toevoegen?
#### (a) ***hier/daar nevens***
Doel: we willen Alpino de instructie geven om 'hier nevens' te behandelen als 'hiernaast'en dat kan niet met [ @alt ] aangezien je daarmee maar 1 woord kan veranderen in een ander woord. Met [ mwu_alt ] kunnen meerdere woorden makkelijk vervangen worden door 1 woord.
:::danger
Let op: in de omgekeerde richting werkt het niet. Als je 1 woord wil vervangen door meerdere woorden, gebruik je [ @alt ] en voeg je een [ @phantom ] toe.
```
ORIGINEEL:
...|er was een bom daar nevens gevallen .
...|er lag daar vanalles op de grond.
MET HAAKJES:
...|er was een bom [ @mwu_alt daarnaast daar nevens ] gevallen .
...|er lag daar [ @alt van vanalles ] [ @phantom alles ] .
```
:::
#### (b) ***anderstalige uitdrukkingen***
```
ORIGINEEL:
...| natuurlijk c'est ça
...|ze deden dat à tour de rol .
MET HAAKJES:
...| natuurlijk [ @mwu_alt ja c'est ça ] .
...|ze deden dat [ @mwu_alt berutelings à tour de rol ] .
```
#### (c ) ***ja het/nee het***
In het dialect krijgen *ja* en *nee* vaak een voornaamwoord bij zich (in de volksmond ook wel de 'vervoeging' van *ja* en *nee* genoemd). Het is belangrijk om aan Alpino te laten weten dat *ja/nee* + vervoeging één geheel zijn en dat dat geheel behandeld moet worden als ja/nee, zonder vervoeging.
```
ORIGINEEL:
...|ja ik ik ben daar geweest .
...|nee het dat is niet waar.
MET HAAKJES:
...| [ @mwu_alt ja ja ik ] ik ben daar geweest .
...| [ @mwu_alt nee nee het ] dat is niet waar .
```
:::danger
Let op! Je kan niet zomaar alle ja + het of nee + ik automatisch aanpassen met [ @mwu_alt ] want het zal niet altijd om een vervoegde ja of nee gaan. Zie de voorbeelden hieronder bijvoorbeeld.
```
...|ja het is mooi weer vandaag .
...|nee ik ben daar nog nooit geweest .
```
:::
#### (d) ***de die***
In veel dialecten wordt de vorm *de die* gebruikt om naar 'die persoon' of 'die personen' te verwijzen. Alpino weet met de combinatie van *de* en *die* geen raad, en daarom moet Alpino de combinatie als 1 geheel beschouwen (en behandelen alsof er gewoon 'die' stond.
```
ORIGINEEL:
je vindt de die ook niet in de gewone kruisweg .
en de mensen zeggen , wat lopen de die hier nu zo rond de kerk en ze komen weer op hetzelfde uit .
MET HAAKJES:
je vindt [ @mwu_alt die de die ] ook niet in de gewone kruisweg .
en de mensen zeggen , wat lopen [ @mwu_alt die de die ] hier nu zo rond de kerk en ze komen weer op hetzelfde uit .
```
## 9. Haakjes: wanneer [ @mwu ] manueel toevoegen?
Een belangrijk meta-label is [ @mwu ]. Die code geeft aan dat de woorden tussen haakjes als één geheel behandeld moeten worden.
#### (a) ***en zo/ of zo het***
De wendingen *en zo* en *of zo* -- in spreektaal gebruikt om aan te geven dat je 'zomaar wat zegt' of dat je lijstje nog aangevuld kan worden -- analyseren we in het GCND niet als een nevenschikking, maar als een vaste combinatie die als zinsmodificeerder fungeert.
```
ORIGINEEL
Ik ga m’n eigen bedrijfje beginnen of zo.
Je moet dan wel wat regen en zo op de koop toe nemen.
Die zouden trouwen of zo.
Die was pas getrouwd of die zou gaan trouwen of zo.
MET HAAKJES
Ik ga m’n eigen bedrijfje beginnen [ @mwu of zo ] .
Je moet dan wel wat regen [ @mwu en zo ] op de koop toe nemen.
Die zouden trouwen [ @mwu of zo ] .
Die was pas getrouwd of die zou gaan trouwen [ @mwu of zo ] .
```
:::danger
Let op! Je kan niet zomaar alle of + zo / en + zo automatisch aanpassen met [ @mwu ]. Zie de voorbeelden hieronder.
```
...|en zo heb ik dat toen gemaakt .
```
:::
#### (b) ***plaatsnamen die uit meerdere woorden bestaan***
```
ik ga morgen naar [ @mwu De Klinge ] .
Emile vloog naar [ @mwu New York ] .
ze werkten toen in [ @mwu de Belgique ] .
```
## 10. Pre-processing III: Zinsgrenzen
Idealiter is de output van Alpino een lijst van volledige zinnen -- volledig in de zin dat alle syntactische elementen die erbij horen en erbij moeten staan, er ook feitelijk in zitten, en dat andere syntactische elementen, die op zichzelf staan of bij een andere zin horen, er niet in staan.
Het komt echter voor dat de output van ELAN bij het tokeniseren niet altijd op de juiste manier over de regels verdeeld wordt.
:::success
Een belangrijke taak bij de pre-processing is dus het controleren en desnoods verbeteren van de zinsgrenzen.
:::
### 10.1. Meerdere volledige zinnen op één regel
Indien er **meerdere volledige zinnen op één regel** staan, maak je er meerdere lijnen van, en voeg je een onderscheidende letter (a/b/c/...) aan de tweede/derde/... regel toe (zodat de regel-IDs uniek blijven), bv.
(1)
```
H001p_1_0080| en ik had vier kinderen en ik moest werken ... er was niets aan te doen .
```
wordt
```
H001p_1_0080| en ik had vier kinderen
H001p_1_0080a|en ik moest werken [ @skip ... ]
H001p_1_0080b| er was niets aan te doen .
```
(2)
```
...| maar in de kerk heb je dus hoeveel ik ga het een keer heel van de zestien ja ja vijftien zestien zeventien achttien alleszins vier staties is het wel bij de kerk.
```
wordt
```
...| maar in de kerk heb je dus hoeveel
...a| ik ga het een keer heel van de zestien ja ja vijftien zestien zeventien achttien
...b| alleszins vier staties is het wel bij de kerk.
```
(3)
```
...| en het is natuurlijk de begeleider die moet zeggen kijk hé gow meisje allez geef maar bus hé je moet een keer beginnen dus het is je tour hé je moet een keer beginnen je moet niet benauwd zijn.
```
wordt
```
...| en het is natuurlijk de begeleider die moet zeggen kijk hé gow meisje
...a| allez geef maar bus hé
...b| je moet een keer beginnen
...c| dus het is je tour hé
...d| je moet een keer beginnen
...e| je moet niet benauwd zijn .
```
(4) Het volgende voorbeeld lijkt een beetje op een spiegelconstructie (zie boven), maar het voldoet niet aan de voorwaarden (niet alleen het onderwerp en de persoonsvorm worden herhaald, maar ook het voltooid deelwoord *gerekend*). Hier gaat het dus eerder om twee zinnen. Dus
```
...| awel dat wordt zo gerekend... tien per duizend... wordt dat gerekend
```
wordt
```
...| awel dat wordt zo gerekend...
...a| tien per duizend [ @skip ... ] wordt dat gerekend
```
:::danger
**Doen-replieken** moeten altijd gescheiden worden van de rest van de zin!
```
H117p_1--H117_1_1--0176|jij hebt de brandweerd toch gebeld hé?
H117p_1--H117_1_2—0177|ik en doe ik heb ze niet gebeld.
wordt
H117p_1--H117_1_1--0176|jij hebt de brandweerd toch gebeld hé?
H117p_1--H117_1_2—0177|ik [ @skip en ] doe.
H117p_1--H117_1_2—0177a|ik heb ze niet gebeld.
```
:::
### 10.2. Erg lange zin die samengesteld is uit meerdere nevengeschikte hoofdzinnen
In spreektaal weven taalgebruikers vaak de ene na de andere zin aan elkaar via nevenschikking. Alpino kan beter omgaan met korte zinnen. We hanteren daarom volgende richtlijn:
**Nevenschikkingen op hoofdniveau worden steeds gesplitst, behalve als er sprake is van samentrekking!**
:::warning
**Voorbeeld 1: niet splitsen**:
H117p_1--H117_1_1--0036|ik heb hier lagere school geweest tot veertien jaar omdat ik hier toen in de buurt woonde .
> *Hier splitsen we niet, want geen nevenschikking*
**Voorbeeld 2: niet splitsen**
H117p_1--H117_1_1--0248|Jef en Jeanne gaan naar de winkel .
> *Hier splitsen we niet, want nevenschikking is niet op het hoogste zinsniveau.*
**Voorbeeld 3: niet splitsen**
H117p_1--H117_1_1--0248|Jef koopt appels en Tom peren.
> *Hier splitsen we niet, want samentrekking.*
>
**Voorbeeld 4: wel splitsen**
Oorspronkelijke zin:
H117p_1--H117_1_1--0044|dan uh een andere jongeman en ik als jong en daarbij één paar meisjes van een jaar of vijftien zestien en die wonnen zestig tot zeventig centiemen per dag.
Na splitsen:
H117p_1--H117_1_1--0044|dan uh een andere jongeman en ik als jong en daarbij één paar meisjes van een jaar of vijftien zestien
H117p_1--H117_1_1--0044a|en die wonnen zestig tot zeventig centiemen per dag.
> *Het moeilijke bij dit voorbeeld is dat er in de eerste deelzin(nen) werkwoorden ontbreken en dat het door die elliptische structuur moeilijk is te bepalen of je hier nevenschikking op constituent- dan wel op zinsniveau hebt. We houden voor de zekerheid de nevengeschikte elementen 'jongeman', 'ik', 'een paar meisjes' samen en splitsen enkel de laatste zin af.*
**Voorbeeld 5: wel splitsen**
Oorspronkelijke zin:
H117p_1--H117_1_1--0248|oh , zegt hij tegen mij , doe dat allemaal schoon voort op je gemak en doe dat allemaal in orde en slaap jij gerust en ga naar Roeselare niet . en ik ga de rest doen .
Na splitsen:
H117p_1--H117_1_1--0248|oh , zegt hij tegen mij , doe dat allemaal schoon voort op je gemak .
H117p_1--H117_1_1--0248a|en doe dat allemaal in orde .
H117p_1--H117_1_1--0248b|en slaap jij gerust .
H117p_1--H117_1_1--0248c|ga naar Roeselare niet .
H117p_1--H117_1_1--0248d|en ik ga de rest doen .
> Toelichting: hier hebben we een zin met verschillende nevengeschikte hoofdzinnen waarin er geen duidelijke samentrekking is. Splitsen is dus de boodschap. Door de directe rede zou je kunnen twijfelen of het wel gerechtvaardigd is deze zinnen te splitsen (want het matrixwerkwoord 'zegt' blijft dan enkel in de eerste regel bewaard), maar aangezien het bij directe rede om hoofdzinnen gaat, splitsen we hier ook.
:::
:::danger
**LET OP!** Niet alle lange zinnen die uit meerdere deelzinnen bestaan kun je zo opdelen, want soms is een deelzin ingebed in (= een zinsdeel / constituent van) een andere zin. In het volgende voorbeeld is *als het gebeurde dat het een keer beetje zaten te lullen tegen mekaar* een temporale bijzin bij een inversieloze hoofdzin (zie V3-structuren).
```
...|en als het gebeurde dat het een keer beetje zaten te lullen tegen mekaar de patron trok de deur open en [ @skip uh ] hij schuifelde een keer en we moesten voortdoen .
```
```]
...|en [ @x als het gebeurde dat [ @alt we het ] een keer beetje zaten te lullen tegen mekaar ] [ @x de patron trok de deur open ] [ @x en [ @skip uh ] hij schuifelde een keer en we moesten voortdoen ] .
```
:::
We kunnen het splitsen van zinnen ook gebruiken om te veel [ @skip ] haakjes te vermijden, als het rechter of linker deel van een regel wel een volledige zin vormt:
```
ORIGINEEL:
(1) ...|je weet nog niet [ @skip ... ] je weet nog niet als [ @skip ... ] als ze vaarten vertellen of wie dat het is [ @skip hé ]
(2) ...|ah ja maar als we wij [ @skip ... ] als we wij [ @skip ... ] ik blies zoveel jaren bazuin in de processie .
(3) ...|dat wordt verboden bijvoorbeeld aan de [ @skip ... ] aan de engelen zeggen kijk tracht sandalen te dragen [ @skip ... ] tracht [ @skip ... ] of tracht [ @skuh ] [ @skip ... ]
WORDT:
(1') # ...|je weet nog niet [ @skip ... ]
...a|je weet nog niet [ @skip als [ @skip ... ] als ze vaarten vertellen of wie dat het is [ @skip hé ]
(2') #...|ah ja maar als we wij [ @skip ... ] als we wij [ @skip ... ]
...a|ik blies zoveel jaren bazuin in de processie .
(3') ...|dat wordt verboden bijvoorbeeld aan de [ @skip ... ] aan de engelen zeggen kijk tracht sandalen te dragen
#...a|[ @skip ... ] tracht [ @skip ... ] of tracht [ @skip uh ] [ @skip ... ]
```
### 10.3. Eén zin over meerdere regels verspreid
Indien **één zin over meerdere regels verspreid** staat, zet je **alle tekst die bij de zin hoort samen op de eerste regel en duid je de tweede (en eventueel derde) aan met een #**. Let wel: aan ieder ID-nummer zijn ook tijdscodes verbonden (begin- en eindtijd van de lijn in ELAN). Wanneer we lijnen samennemen in één regel, willen we graag weergeven dat de zin begint bij de begintijd van regel 1 en eindigt bij de eindtijd van regel 2 (of eventueel 3). Daarom **voegen we aan de code van de eerste lijn het regelnummer van de laatste regel toe, en verbinden we de ID-codes met twee min-tekens**.
```
H003p_1_1179| haar vader .
H003p_1_1180| is verdronken .
wordt
H003p_1_1179--1180| haar vader is verdronken .
# H003p_1_1180| is verdronken .
```
```
H003p_1_0032|haar moeder .
H003p_1_0033|is gaan helpen .
H003p_1_0034|in de kantine .
wordt
H003p_1_0032--0034|haar moeder is gaan helpen in de kantine .
# H003p_1_0033|is gaan helpen
# H003p_1_0034|in de kantine
```
Het kan soms zijn dat de interviewer tussenin iets zegt, maar dat is geen probleem.
```
H117p_1--H117_1_1--0102|en die is getrouwd dan [ @skip in ] [ @skip ze ] [ @skip ... ] in [ @skip uh ] [ @skip ... ] zevenenvijftig [ @skip ja zevenenvijftig ] .
H117p_1--Int_GDS--0103|ja .
H117p_1--H117_1_1--0104|met een Limburgse onderwijzeres .
wordt
H117p_1--H117_1_1--0102--0104|en die is getrouwd dan [ @skip in ] [ @skip ze ] [ @skip ... ] in [ @skip uh ] [ @skip ... ] zevenenvijftig [ @skip ja zevenenvijftig ] met een Limburgse onderwijzeres .
# H117p_1--Int_GDS--0103|ja .
# H117p_1--H117_1_1--0104|met een Limburgse onderwijzeres
```
Soms zal je zinnen moeten splitsen om een van die delen vervolgens aan een andere regel te hangen.
```
H117p_1--H117_1_1--0176|en [ @skip uh ] we hadden een grote familie . we hebben wel negen sterfgevallen gehad .
H117p_1--H117_1_1--0177| in vijf jaar.
wordt
H117p_1--H117_1_1--0176|en [ @skip uh ] we hadden een grote familie .
H117p_1--H117_1_1—0176a--0177|we hebben wel negen sterfgevallen gehad in vijf jaar .
# H117p_1--H117_1_1--0177| in vijf jaar.
```
:::danger
**Let op!** Je mag absoluut geen zinnen van verschillende sprekers samennemen zoals hieronder:
O086p_1--O086p_1_2--0147--0148|[ @skip ah ] [ @skip ja ] [ @skip maar ] ja maar [ @skip ... ] zou het waar zijn ?
#O086p_1--O086p_1_1--0148|zou het waar zijn ?
Spreker 1 (O086p_1_1) moet altijd gescheiden worden van spreker 2 (O086p_1_2).
:::
## 11. Pre-processing IV: Komma's en gedachtestreepjes toevoegen
:::danger
**AANDACHT:**
Vergeet niet om telkens een **spatie** links en rechts van de toegevoegde komma / het toegevoegde streepje te laten!
:::
### 11.1. Directe rede
In de dialectopnames kom je heel vaak directe redes tegen; de sprekers vertellen nu eenmaal over hun leven en citeren of parafraseren daarbij vaak anderen. Alpino blijkt minimale leestekeninformatie nodig te hebben om dergelijke directe redes te herkennen, en dat vormt een probleem: in de GCND-transcripties werden er immers binnen zinnen geen komma's (`,`), dubbele punten (`:`) of aanhalingstekens (`"..."`) gebruikt. **Daarom voegen we komma's toe om de juiste structuur te verkrijgen** (aanhalingstekens of dubbele punten zijn op zich niet nodig).
```
ORIGINEEL:
(a) ah ik zeg tegen hem ik zeg hier vinden ze ons niet
(b) maar ik zeg als ze hierop komen...
(c) ik zeg we kunnen onder dat gewelf ons wel verstoppen...
(d) nee zegt mijn vrouw mijn man is niet thuis die is gaan werken.
```
```
NA PRE-PROCESSING:
(a) ah ik zeg tegen hem , ik zeg , hier vinden ze ons niet
(b) maar ik zeg , als ze hierop komen...
(c) ik zeg , we kunnen onder dat gewelf ons wel verstoppen
(d) nee , zegt mijn vrouw , mijn man is niet thuis die is gaan werken.
```
:::danger
Voeg liever te veel komma's toe dan te weinig. Als je ergens een vorm van *zeggen* ziet let dan altijd goed op.
**Géén** komma bij een ondergeschikte voegwoordzin
(`Hij zegt dat hij komt`)
**Wél** komma bij:
```
ORIGINEEL:
H084p_1--H084p_1_1--0157|het is te zeggen het ene is émeri potee en het andere is witte potee .
H084p_1--H084p_1_1--0177|de mensen zouden daartegen zeggen ding
H084p_1--H084p_1_1--0232|wij gaan niet zeggen een plaat wrijven nooit .
NA PRE_PROCESSEN:
H084p_1--H084p_1_1--0157|het is te zeggen , het ene is émeri potee en het andere is witte potee .
H084p_1--H084p_1_1--0177|de mensen zouden daartegen zeggen , ding
H084p_1--H084p_1_1--0232|wij gaan niet zeggen , een plaat wrijven , nooit .
```
:::
### 11.2. Aanspreking (vocatief)
Om duidelijk te maken dat iemand aangesproken wordt, noteren we een komma.
```
ORIGINEEL:
(a) pa je moet ruiten gaan insteken in het klooster
(b) ik zeg meneer de onderpaster wat is er te doen ?
NA PRE-PROCESSING:
(a) pa , je moet ruiten gaan insteken in het klooster .
(b) ik zeg , meneer de onderpaster , wat is er te doen ?
```
### 11.3. Apposities/bijstelling
We spreken van een bijstelling of appositie **wanneer een naamwoordelijke constituent als aanvullende informatie achter een andere naamwoordelijke constituent geplaatst wordt**, zoals in:
- De schipper, een voorzichtig man, hield zijn schip aan de kade.
- die man daar, tot voor kort gymnasiumleraar hier ter stede, is onlangs tot hoogleraar benoemd
Apposities krijgen in Alpino het dependentielabel 'APP'. Alpino herkent deze constructies makkelijker als we de appositie tussen komma's plaatsen.
```
ORIGINEEL:
...|hij heeft een meisje Brigitte die nu in het pensionaat is bij de Maricolen .
NA PRE-PROCESSING:
...|hij heeft een meisje , Brigitte , die nu in het pensionaat is bij de Maricolen .
```
```
ORIGINEEL:
...|meneer Cnudde de toenmalige burgemeester was er niet maar mevrouw Van Lancker was er wel .
NA PRE-PROCESSING:
...|meneer Cnudde , de toenmalige burgemeester , was er niet maar mevrouw Van Lancker was er wel .
```
### 11.4. Intercalatie/parenthese
We spreken van een intercalatie of parenthese als een spreker midden in een zin een andere tussenzin invoegt die syntactisch los lijkt te staan van de rest. Meestal gaat het over een gedachte of opmerking. We kunnen de syntactische analyse van dit soort constructies faciliteren door de **intercalatie tussen streepjes** te plaatsen.
```
ORIGINEEL:
...|en hier in de hof ik heb hier een grote hof stonden bonen en prei .
MET STREEPJES:
...|en hier in de hof - ik heb hier een grote hof - stonden bonen en prei .
```
```
ORIGINEEL:
...|mijn kat ze is zwart met witte strepen had toen een muis gevangen .
MET STREEPJES:
...|mijn kat - ze is zwart met witte strepen - had toen een muis gevangen .
```
```
ORIGINEEL:
...|het is niet moeilijk zie je het ?
MET STREEPJES:
...|het is niet moeilijk - zie je het ?
```
```
ORIGINEEL:
...|je moet het zo doen zie je het met grote stappen .
MET STREEPJES:
...|je moet het zo doen - zie je het - met grote stappen .
```
### 11.5. Ingebedde linksdislocatie
Om zinnen zoals *Wat vindt u der eigenlijk van **dat zulke zinnen dat die zo geanalyseerd worden?*** goed te kunnen parsen, voegen we een komma toe:
```
ORIGINEEL:
...|dat zulke zinnen dat die zo geanalyseerd worden ?
MET KOMMA:
...|dat zulke zinnen , dat die zo geanalyseerd worden ?
```
## 12. Voorbeeld: stuk transcriptie voor vs. na manuele preprocessing
```
TRANSCRIPTIE VOOR MANUELE PRE-PROCESSING:
# H117p_1--Int_GDS--0001|dialectopneming Lichtervelde achtentwintig november zeventig .
# H117p_1--Int_GDS--0002|ja en waarvan gaan we [ @skip uh ] gaan we praten ?
H117p_1--H117_1_1--0003|awel misschien van mijn geboorte af ?
# H117p_1--Int_GDS--0004|ja dat is goe .
# H117p_1--Int_GDS--0005|begin maar .
H117p_1--H117_1_1--0006|ja je hebt met een oude mens [ @skip ... ]
# H117p_1--Int_GDS--0007|waar zij#de geboren [ @skip uh ] ?
# H117p_1--H117_1_1--0008|??? .
# H117p_1--Int_GDS--0009|ja .
H117p_1--H117_1_1--0010|je hebt met een oude mens van doen .
H117p_1--H117_1_1--0011|ik ben tegenwoordig vierenzeventig jaar oud en ik ben geboren in september zesennegentig .
H117p_1--H117_1_1--0012|bij ons waren er [ @skip uh ] elf kinderen [ @skip ... ] elf kinderen .
# H117p_1--Int_GDS--0013|ja .
H117p_1--H117_1_1--0014|mijn ouds [ @skip ... ] mijn oudste broeder is gestorven aan eenentwintig .
H117p_1--H117_1_1--0015|mijn tweede zuster is gestorven aan vijftien .
H117p_1--H117_1_1--0016|en dan nog twee kleine gestorven dus we bleven dan nog met zeven mannen over .
# H117p_1--Int_GDS--0017|ja .
# H117p_1--Int_GDS--0018|den hoeveelste [ @skip uh ] waar#de gij ?
H117p_1--H117_1_1--0019|wablieft ?
# H117p_1--Int_GDS--0020|den hoeveelste waar#de gij ?
H117p_1--H117_1_1--0021|ik was de derde .
# H117p_1--Int_GDS--0022|den derde ?
H117p_1--H117_1_1--0023|de derde .
H117p_1--H117_1_1--0024|en [ @skip uh ] natuurlijk vader en moeder moesten veel daarvoor doen .
H117p_1--H117_1_1--0025|we woonden hier in het huis .
H117p_1--H117_1_1--0026|we hadden hier een winkel van schilderwerk en het één en het ander .
# H117p_1--Int_GDS--0027|ja .
H117p_1--H117_1_1--0028|maar de zaken [ @skip ... ] dat was zo niet gelijk nu .
H117p_1--H117_1_1--0029|daar was geen geld bij de mensen .
H117p_1--H117_1_1--0030|dat was allemaal gewit en een beetje gemollegrauwd .
# H117p_1--Int_GDS--0031|ja .
H117p_1--H117_1_1--0032|en als ze kwamen voor een papiertje te kiezen van een half frankje in de winkel [ @skip ... ]
H117p_1--H117_1_1--0033|vader en moeder zeiden dan [ @skip goh ] die mensen durven geld besturen .
H117p_1--H117_1_1--0034|een half frankje voor een rol papier .
# H117p_1--H117_1_1--0035|??? .
H117p_1--H117_1_1--0036|ik heb hier lagere school geweest tot veertien jaar .
H117p_1--H117_1_1--0037|en dan ben ik naar Roeselare moeten gaan naar de schilderschool .
H117p_1--H117_1_1--0038|ik ben drie jaar in Roeselare geweest de zondag en de maandag .
# H117p_1--H117_1_1--0039|de dijssendag woensdag donderdag en vrijdag het was geen werk ??? voor de broeders .
H117p_1--H117_1_1--0040|ik zat ik hier nevens in de paraplufabriek te werken aan een half frankje per dag .
H117p_1--H117_1_1--0041|een half frankje per dag .
H117p_1--H117_1_1--0042|daarbij was de broeder van de patron een wrede dronkaard .
# H117p_1--Int_GDS--0043|ggg .
H117p_1--H117_1_1--0044|dan [ @skip uh ] een andere jongeman en ik als jong .
H117p_1--H117_1_1--0045|en daarbij één paar meisjes van een jaar of vijftien zestien .
H117p_1--H117_1_1--0046|en die wonnen zestig tot zeventig centiemen per dag .
H117p_1--H117_1_1--0047|en als het gebeurde dat het een keer beetje zaten te lullen tegen mekaar de patron trok de deur open en [ @skip uh ] hij schuifelde een keer en we moesten voortdoen .
H117p_1--H117_1_1--0048|in alle geval zo voortgesukkeld tot de oorlog van veertien .
H117p_1--H117_1_1--0049|het was geen werk meer en ik leerde kantwerken .
# H117p_1--Int_GDS--0050|wa was da ?
# H117p_1--Int_GDS--0051|kantwerken ?
H117p_1--H117_1_1--0052|spellewerken .
H117p_1--H117_1_1--0053|spellewerken .
# H117p_1--Int_GDS--0054|ja ja .
H117p_1--H117_1_1--0055|zo ik had dat al bijkans een jaar gedaan en op zekere dag komt de onderpaster van onze gemeente .
H117p_1--H117_1_1--0056|Jozef zegt hij tegen mij ik heb een beter employé voor jou .
# H117p_1--Int_GDS--0057|ggg .
H117p_1--H117_1_1--0058|ggg .
H117p_1--H117_1_1--0059|ik zeg ja meneer de onderpaster wat is er te doen ?
H117p_1--H117_1_1--0060|awel zegt hij het Amerikaanse Komiteit wordt hier opgericht en als jij wilt je kunt helpen met het Amerikaanse Komiteit .
H117p_1--H117_1_1--0061|de frank was gered .
H117p_1--H117_1_1--0062|we hielpen wij hier bij de zustertjes .
H117p_1--H117_1_1--0063|en [ @skip uh ] ik en stond niet mager maar ik stond toen nog vetter .
H117p_1--H117_1_1--0064|we hadden alle dagen vers vlees .
H117p_1--H117_1_1--0065|we hadden alle dagen goede boterhammetjes .
# H117p_1--Int_GDS--0066|mmm .
H117p_1--H117_1_1--0067|de jongens waren niet verplicht van naar school te gaan en hetgeen dat overschot mochten we verdelen onder de nonnetjes en ons .
H117p_1--H117_1_1--0068|en we hebben dagen geweest dat we dertig veertig vijftig boterhammen hadden voor ons [ @skip hé ] .
**TRANSCRIPTIE NA MANUELE PRE-PROCESSING:**
# H117p_1--Int_GDS--0001|dialectopneming Lichtervelde achtentwintig november zeventig .
# H117p_1--Int_GDS--0002|ja en waarvan gaan we [ @skip uh ] gaan we praten ?
H117p_1--H117_1_1--0003|awel misschien van mijn geboorte af ?
# H117p_1--Int_GDS--0004|ja dat is goe .
# H117p_1--Int_GDS--0005|begin maar .
# H117p_1--H117_1_1--0006|ja je hebt met een oude mens [ @skip ... ]
# H117p_1--Int_GDS--0007|waar zij#de geboren [ @skip uh ] ?
# H117p_1--H117_1_1--0008|??? .
# H117p_1--Int_GDS--0009|ja .
H117p_1--H117_1_1--0010|je hebt met een oude mens [ @alt te van ] doen .
H117p_1--H117_1_1--0011|ik ben tegenwoordig vierenzeventig jaar oud en ik ben geboren in september zesennegentig .
H117p_1--H117_1_1--0012|bij ons waren er [ @skip uh ] [ @skip elf ] [ @skip kinderen ] [ @skip ... ] elf kinderen .
# H117p_1--Int_GDS--0013|ja .
H117p_1--H117_1_1--0014|[ @skip mijn ] [ @skip ouds ] [ @skip ... ] mijn oudste broeder is gestorven aan eenentwintig .
H117p_1--H117_1_1--0015|mijn tweede zuster is gestorven aan vijftien .
H117p_1--H117_1_1--0016|en dan nog twee kleine gestorven dus we bleven dan nog met zeven mannen over .
# H117p_1--Int_GDS--0017|ja .
# H117p_1--Int_GDS--0018|den hoeveelste [ @skip uh ] waar#de gij ?
H117p_1--H117_1_1--0019|wablieft ?
# H117p_1--Int_GDS--0020|den hoeveelste waar#de gij ?
H117p_1--H117_1_1--0021|ik was de derde .
# H117p_1--Int_GDS--0022|den derde ?
H117p_1--H117_1_1--0023|de derde .
H117p_1--H117_1_1--0024|en [ @skip uh ] natuurlijk vader en moeder moesten veel daarvoor doen .
H117p_1--H117_1_1--0025|we woonden hier in het huis .
H117p_1--H117_1_1--0026|we hadden hier een winkel van schilderwerk en het één en het ander .
# H117p_1--Int_GDS--0027|ja .
H117p_1--H117_1_1--0028| maar de zaken [ @skip ... ] dat was zo niet gelijk nu .
H117p_1--H117_1_1--0029|daar was geen geld bij de mensen .
H117p_1--H117_1_1--0030|dat was allemaal gewit en een beetje gemollegrauwd .
# H117p_1--Int_GDS--0031|ja .
H117p_1--H117_1_1--0032--0033|[ @x en als ze kwamen [ @alt om voor ] een papiertje te kiezen van een half frankje in de winkel ] [ @skip ... ] [ @x vader en moeder zeiden dan , [ @skip goh ] die mensen durven geld besturen ] .
# H117p_1--H117_1_1--0033|vader en moeder zeiden dan [ @skip goh ] die mensen durven geld besturen .
H117p_1--H117_1_1--0034|een half frankje voor een rol papier .
# H117p_1--H117_1_1--0035|??? .
H117p_1--H117_1_1--0036|ik [ @alt ben heb ] hier [ @phantom naar ] [ @phantom de ] lagere school geweest tot veertien jaar .
H117p_1--H117_1_1--0037|en dan ben ik naar Roeselare moeten gaan naar de schilderschool .
H117p_1--H117_1_1--0038|ik ben drie jaar in Roeselare geweest de zondag en de maandag .
# H117p_1--H117_1_1--0039|de dijssendag woensdag donderdag en vrijdag het was geen werk ??? voor de broeders .
H117p_1--H117_1_1--0040|ik zat [ @skip ik ] [ @mwu_alt hiernaast hier nevens ] in de paraplufabriek te werken aan een half frankje per dag .
H117p_1--H117_1_1--0041|een half frankje per dag .
H117p_1--H117_1_1--0042|daarbij was de broeder van de patron , een wrede dronkaard .
# H117p_1--Int_GDS--0043|ggg .
H117p_1--H117_1_1--0044--0045|dan [ @skip uh ] een andere jongeman en ik als jong en daarbij één paar meisjes van een jaar of vijftien zestien .
# H117p_1--H117_1_1--0045|en daarbij één paar meisjes van een jaar of vijftien zestien .
H117p_1--H117_1_1--0046|en die wonnen zestig tot zeventig centiemen per dag .
H117p_1--H117_1_1--0047|[ @x en als het gebeurde dat [ @alt we het ] een keer [ @phantom een ] beetje zaten te lullen tegen mekaar ] [ @x de patron trok de deur open en [ @skip uh ] hij schuifelde een keer en we moesten voortdoen ] .
H117p_1--H117_1_1--0048|in alle geval zo voortgesukkeld tot de oorlog van veertien .
H117p_1--H117_1_1--0049|[ @alt er het ] was geen werk meer en ik leerde kantwerken .
# H117p_1--Int_GDS--0050|wa was da ?
# H117p_1--Int_GDS--0051|kantwerken ?
H117p_1--H117_1_1--0052|spellewerken .
H117p_1--H117_1_1--0053|spellewerken .
# H117p_1--Int_GDS--0054|ja ja .
H117p_1--H117_1_1--0055|zo ik had dat al [ @alt bijna bijkans ] een jaar gedaan en op zekere dag komt de onderpaster van onze gemeente .
H117p_1--H117_1_1--0056|Jozef , zegt hij tegen mij , ik heb een beter employé voor jou .
# H117p_1--Int_GDS--0057|ggg .
H117p_1--H117_1_1--0058|ggg .
H117p_1--H117_1_1--0059|ik zeg , ja meneer de onderpaster , wat is er te doen ?
H117p_1--H117_1_1--0060|[ @x awel , zegt hij , het Amerikaanse Komiteit wordt hier opgericht ] [ @x en als jij wilt ] [ @x je kunt helpen met het Amerikaanse Komiteit ] .
H117p_1--H117_1_1--0061|de frank was gered .
H117p_1--H117_1_1--0062|we hielpen [ @skip wij ] hier bij de zustertjes .
H117p_1--H117_1_1--0063|en [ @skip uh ] ik [ @skip en ] stond niet mager maar ik stond toen nog vetter .
H117p_1--H117_1_1--0064|we hadden alle dagen vers vlees .
H117p_1--H117_1_1--0065|we hadden alle dagen goede boterhammetjes .
# H117p_1--Int_GDS--0066|mmm .
H117p_1--H117_1_1--0067|de jongens waren niet verplicht [ @alt om van ] naar school te gaan en hetgeen dat [ @alt overschoot overschot ] mochten we verdelen onder de nonnetjes en ons .
H117p_1--H117_1_1--0067|de jongens waren niet verplicht [ @alt om van ] naar school te gaan
H117p_1--H117_1_1--0067a|en hetgeen dat [ @alt overschoot overschot ] mochten we verdelen onder de nonnetjes en ons
H117p_1--H117_1_1--0068|en we hebben dagen [ @alt gehad geweest ] dat we dertig veertig vijftig boterhammen hadden voor ons [ @skip hé ] .
```
## 13. Testen op de [Alpino-website](https//urd2.let.rug.nl/~vannoord/bin/alpino?)?
Ter info: wil je uit curiositeit even testen welke impact je aanpassingen hebben op de syntactische analyse in Alpino, ga dan naar https://urd2.let.rug.nl/~vannoord/bin/alpino?. Voel je echter niet verplicht dat te doen; dit is enkel een nuttige oefening als je al wat ervaring hebt met boomstructuren.
:::danger
LET OP: @x-elementen worden aparte discourse parts in de boom, @skip-elementen hangen boven aan de wortel van de boom en moeten later nog versleept worden.
:::
## 14. Praktische richtlijnen
* Kijk in het bestand Verdeling_pre-processing welke transcriptie bij jouw naam staat.
* Ga naar de map Bestanden_original en download daar jouw bestand.
* Bewerk het bestand in Notepad++ en volg daarvoor onderstaande handleiding https://hackmd.io/fDffB_HTRjq5Ml_GUnVUDA
* Om de tekst in Notepad++ overzichtelijker te maken, kan je een ‘User Defined Language’ toevoegen:
::: success
Download ‘PREPROCESSING.xml’ van SharePoint. ( PREPROCESSING.xml )
Open Notepad++ en bij ‘Language’ of 'Syntaxis' > ‘User Defined Language’ of 'Aangepaste syntaxis'> ‘Define your language' of Aangepaste syntaxis markeren ontwerpen’
In het pop-upvenster dat verschijnt, klik je ‘Import’ of 'Importeren' en navigeer je naar waar je het XML-bestand gedownload hebt.
Nadat de User Defined Language/Aangepaste syntaxis succesvol geïmporteerd is, sluit je eerst het programma. Als je het dan opnieuw opstart, zou de nieuwe eigen ‘Preprocessing’-taal moeten verschijnen onder de ‘Language’-tab. Klik erop om de visuele hulp te activeren.
:::
* Mocht er een zin zijn waarover je twijfelt, meld het ons dan via het kanaal ‘vragen’ in MS Teams of via de chat (Lien).
* Klaar? Ga dan naar de map Bestanden_pre-processed en upload daar jouw bestand.
* Meld via de chat aan Lien dat je klaar bent en kijk opnieuw in het bestand Verdeling_pre-processing naar wat jouw volgende transcriptie is.
* Nog niet klaar aan het einde van je shift? Upload jouw bestand dan in de map Bestanden_bezig.
* Na elke shift vul je het Logboek_pre-processing in:
:::success
Datum?
Gewerkte tijd?
Welke transcriptie?
Van waar tot waar gecorrigeerd (eerste en laatste zinsregel noteren)
Hoeveel regels heb je behandeld?
Snelheid?
Opmerkingen
:::