# GCND-beslissingen over de syntactische annotatie van spreektalige en/of dialectische structuren
:::info
**Principes GCND bij syntactische annotatie**:
1. We volgen het systeem van het **Lassy**-corpus waar mogelijk.
2. Voor spreektalige of dialectische fenomenen waar in de Lassy-handleiding geen richtlijnen over te vinden zijn, kijken we of er in de beschrijving van de syntactische annotatie van het **CGN** richtlijnen te vinden zijn en passen we die toe, voor zover die niet botsen met de algemene principes bij de Lassy-annotatie (zie p. 18-20 van de Lassy-handleiding voor een beschrijving van principiële verschillen tussen de CGN- en Lassy-annotaties).
3. Indien er geen richtlijnen in de Lassy- of CGN-handleidingen te vinden zijn, bedenken we zelf een **oplossing die zo dicht mogelijk bij de Lassy-filosofie aansluit.**
**In wat volgt, documenteren we beslissingen die voortvloeien uit principes 2 en 3.**
:::
## 1. Parsing input
### 1.1 Elliptische/asyndetische constructies
In het GCND komen vaak zinnen voor waarin zogezegd 'noodzakelijke' zinsdelen (zoals een finiet werkwoord) ontbreken.
:::warning
**Zin**
*(Wie is er verantwoordelijk?)
Piet voor de bar en Klaas voor de schoonmaak.*
:::
De Lassy-manual (p. 192) spreekt in het geval van de zin hierboven over **asyndetische constructies**:
> Met asyndetische constructies doelen we hier op reeksen van woordgroepen waartussen geen expliciete dependentierelaties zijn uitgedrukt, maar die als elliptische zinnen kunnen worden opgevat. Bijvoorbeeld:
> - (welke kranten lees jij?) *bij de lunch de Volkskrant; ’s avonds de NRC*
> - *goed dat de politie er is.*
> - *(Wordt er gevoetbald?) In Amsterdam *
> - (Wie is er verantwoordelijk?) Piet voor de bar en Klaas voor de schoonmaak
> We geven de coherentie in dergelijke reeksen weer door de frases onder een DU-knoop samen te voegen. We zien er evenwel van af om expliciete dependentierelaties te reconstrueren: we beschouwen dit als een inferentie-taak, niet als een taak van de basisannotatie zelf. De dochters van DU krijgen in deze gevallen een uniform dependentielabel DP (‘discourse-part’).

Ook in het GCND zullen we **elliptische constructies dus niet 'reconstrueren'**, maar als **discourse units** analyseren.
:::info
Let wel: gevallen van **samentrekking** zien we niet als asyndese.
:::
### 1.2 Eenwoordzinnen
Zinnen die uit één of twee woorden bestaan, worden zo in Alpino ingevoerd.
:::warning
**Zin**
*ja ik .*
*nee jij .*
*spellewerken .*
*donderdag .*
:::
### 1.3 Performance errors, reparaties en onderbroken zinnen
Typerend voor spreektaal is dat een spreker vaak **fouten** maakt, **hapert** (uh), **zichzelf herhaalt, een zin niet afwerkt of de formulering opeens herbegint.**
#### 1.3.1 **Herformulering en reparatie**
Bij een herformulering of reparatie behouden we enkel **het meeste rechtse element** voor de parsing. De andere elementen worden direct aan de topknoop van de boom hangen met als dependentielabel '--'.
:::warning
hij zei... zei dat hij zot kwam. >> hij zei dat hij zot kwam.
hij had een jongen uh... een dochter van 5 jaar? >> hij had een dochter van 5 jaar.
:::
**Let wel: van het principe 'behoud-het-meest-rechtse-element' wijken we af wanneer dat een rare zin zou opleveren.** Bijvoorbeeld:
```
...|van de van de kerk mogen ze daar mogen ze niets van bezigen maar de toren van dat is van de gemeente hé
```
wordt
```
...|[ @skip van ] [ @skip de ] van de kerk mogen ze daar [ @skip mogen ] [ @skip ze ] niets van bezigen maar de toren [ @skip van ] dat is van de gemeente hé`
```
en dus niet
```
...|[ @skip van ] [ @skip de ] van de kerk [ @skip mogen ] [ @skip ze ] daar mogen ze niets van bezigen maar de toren [ @skip van ] dat is van de gemeente hé`
```
NB: Wat herformulering en reparatie betreft, wijkt het GCND enigszins af van de CGN-aanpak. In het CGN werd weliswaar eveneens het hoofdprincipe gehanteert dat bij woordherhaling of zelfverbetering alleen het meest rechtse voorkomen in de boom wordt betrokken, maar in de aantekeningen staat ook vermeld dat er "soms wel een boom wordt gebouwd voor hetgeen later wordt verbeterd", al wordt "dat 'foute' boompje (...) niet verbonden met de hoofdboom" (p. 7). De auteurs vermelden wel dat ze daarbij pragmatisch zijn, en geen afzonderlijke bomen genereren als dat een "erg rare bomen' oplevert (p. 7). Een dergelijke ad-hocaanpak werd voor het GCND, waarbij vele jobstudenten ingeschakeld werden voor het pre-en post-processen van de Alpino-parsing, moeilijk werkbaar geacht. Er werd dan ook besloten bij herhaling of zelfcorrectie geen boompjes te tekenen van de 'foute' wendingen.
#### 1.3.2 **Onderbroken zinnen**
Niet alle onderbroken zinnen worden geparset. We behouden onderbroken zinnen ***niet*** **als de zin later in het gesprek herhaald én afgewerkt wordt.** Lijnen 1 in voorbeelden 1 en 2 hieronder worden bij de preprocessing bijvoorbeeld uitgecommentarieerd zodat ze bij de parsing buiten beschouwing blijven. **Wordt de onderbroken zin later in de tekst niét afgewerkt (cf. vb 3) dan wordt er toch een boom gegenereerd voor die onderbroken zin.**
:::warning
**Vb1**
1: sprA: ik denk... **>> niet meegenomen**
2: sprB: ja?
3: sprA: ik denk dat hij vandaag jarig is .
**Vb2**
1: sprA: hij ging toen... **>> niet meegenomen**
2: SprA: hij ging toen naar de kermis met zijn kameraden .
**Vb3**
1: SprA: hij ging toen... >> **meegenomen**
2: SprB: iedereen ging toen nog naar de kermis toch?
1: SprA: ja dat is waar.
:::
#### 1.3.3 **Uh en uhm**
*Uh* en *uhm* worden automatisch genegeerd bij de parsing.
:::warning
**Zin**
*ik denk uh dat ik kom.*
wordt automatisch
*ik denk [ @skip uh ] dat ik kom.*
:::
:::info
**Let wel op: volgende constructies zien we niét als performance errors:**
**(1) Herhaling met klemtoon als doel**
*dat zou ik echt nooit nooit doen.*
**(2) Opsomming van cijfers met als betekenis 'ongeveer'**
*dat gebeurt eens in de drie vier jaar*.
*er kwam een man of vijf zes.*
**(3) Spiegelconstructies (SUBJ WW BEP WW SUBJ)**
*En dat wordt alle maanden wordt dat vernieuwd.*
**(4) Ingebedde dislocaties**
*Wat vindt u er eigenlijk van dat zulke zinnen dat die zo geanalyseerd worden?*
*Ik denk dat als dat waar is, dat dan de hele zaak op de helling moet.*
**Verder in deze handleiding wordt toegelicht hoe we deze gevallen analyseren.**
:::
### 1.4 Zinsafbakening
#### 1.4.1. Nevenschikking
In spreektaal weven taalgebruikers vaak de ene na de andere zin aan elkaar via nevenschikking. Alpino kan beter omgaan met **korte zinnen** en daarom is het soms beter om erg lange zinnen met veel nevengeschikte hoofdzinnen te splitsen. In het CGN werd al bij het transcriberen de instructie gegeven geen onnodig lange zinnen te maken en een punt te zetten zodra dat volgens de intuïtie van de transcribent kon (Goedertier & Goddijn 2000:12). In het GCND-transcriptieprotocol werden op dat vlak geen expliciete instructies gegeven. Voor het parsen maken we de volgende afspraak:
**Nevenschikkingen op hoofdniveau worden steeds gesplitst, behalve als er sprake is van samentrekking!**
<!--
**Beslissing**:

-->
:::warning
**Voorbeeld 1: splitsen**:
Oorsponkelijke zin:
H117p_1--H117_1_1--0036|ik heb hier lagere school geweest tot veertien jaar en dan ben ik naar Roeselare moeten gaan naar de schilderschool .
Na splitsen:
H117p_1--H117_1_1--0036|ik heb hier lagere school geweest tot veertien jaar
H117p_1--H117_1_1--0036a|en dan ben ik naar Roeselare moeten gaan naar de schilderschool .
**Voorbeeld 2: splitsen**
Oorspronkelijke zin:
H117p_1--H117_1_1--0044|dan uh een andere jongeman en ik als jong en daarbij één paar meisjes van een jaar of vijftien zestien en die wonnen zestig tot zeventig centiemen per dag.
Na splitsen:
H117p_1--H117_1_1--0044|dan uh een andere jongeman en ik als jong en daarbij één paar meisjes van een jaar of vijftien zestien
H117p_1--H117_1_1--0044b|en die wonnen zestig tot zeventig centiemen per dag.
> *Het moeilijke bij dit voorbeeld is dat er in de eerste deelzin(nen) werkwoorden ontbreken en dat het door die elliptische structuur moeilijk is te bepalen of je hier nevenschikking op constituent- dan wel op zinsniveau hebt. We houden voor de zekerheid de nevengeschikte elementen 'jongeman', 'ik', 'een paar meisjes' samen en splitsen enkel de laatste zin af.*
**Voorbeeld 3: splitsen**
Oorspronkelijke zin:
H117p_1--H117_1_1--0248|oh , zegt hij tegen mij , doe dat allemaal schoon voort op je gemak en doe dat allemaal in orde en slaap jij gerust en ga naar Roeselare niet . en ik ga de rest doen .
Na splitsen:
H117p_1--H117_1_1--0248|oh , zegt hij tegen mij , doe dat allemaal schoon voort op je gemak .
H117p_1--H117_1_1--0248b|en doe dat allemaal in orde .
H117p_1--H117_1_1--0248c|en slaap jij gerust .
H117p_1--H117_1_1--0248d|en ga naar Roeselare niet .
H117p_1--H117_1_1--0248e|en ik ga de rest doen .
> Toelichting: hier hebben we een zin met verschillende nevengeschikte hoofdzinnen op hoofdniveau waarin er geen duidelijke samentrekking is. Splitsen is dus de boodschap. Door de directe rede zou je kunnen twijfelen of het wel gerechtvaardigd is deze zinnen te splitsen (want het matrixwerkwoord 'zegt' blijft dan enkel in de eerste regel bewaard), maar vanuit de Lassy-filosofie dat de inleiders van aanhalingen in de directe rede 'tags' zijn die buiten de kernzin staan (zie p. 190 Lassy-manual), is de keuze om te splitsen onzes inziens wel gerechtvaardigd.
:::
:::info
**Let op!** **Niet alle lange zinnen die uit meerdere deelzinnen bestaan kan je zo opdelen.** Dat kan enkel bij nevengeschikte zinnen. Bij zinnen met een V3-structuur mag er absoluut niet gesplitst worden.
:::
#### 1.4.2. Doen-replieken
:::warning
Zin
A: "Hij komt toch niet?"
B: "Ja hij en doet ne komt.""
:::
Dit soort *doen*-replieken behandelen we voor het gemak als aparte zinnen (*ja hij en doet. ne komt*). Zie ook [verder](https://hackmd.io/QVyhVIjkRiaUTo6rIJIZtA?both#69-Doen-replieken-met-en-zonder-negatie) in dit document voor meer info over de interne analyse van dit soort zinnen.
### 1.5. Zinnen met '???' en 'xxx'
Zinnen die de transcriptiecodes ‘???’ of ‘xxx’ bevatten – i.e. zinnen waarbij de transcribent stukken niet kon transcriberen door respectievelijk een gebrekkige dialectkennis of slechte audiokwaliteit – worden niet geparset. Die beslissing werd gemaakt omdat het vaak moeilijk is de syntactische structuur te bepalen van zinnen waarvan je stukken niet verstaat, en we daar dan ook geen tijd en energie aan willen besteden.
De transcripties bevatten ook vaak de code “ggg” (om gelach, gehuil, gehoest,… te markeren). Die code zit in het vocabularium van Alpino en krijgt in de boom automatisch het categorielabel SPEC(onverst).
### 1.6. Liedjesteksten en gedichten
Wanneer een spreker een lied zingt of een gedicht voordraagt, worden die zinnen **uitgecommentarieerd**, aangezien het hier niet echt om 'spontane spraak' gaat en je ook niet kunt garanderen dat het om het authentieke dialect van de spreker zelf gaat (vaak 'Schoon Vlaams').
## 2. Subjectsverschijnselen
### 2.1 Subjectsver(drie)dubbeling
:::warning
**Zin**
*Ik heb ik ik dat niet gezegd.*
:::
De Vogelaer & Devos (2008) onderscheiden **verschillende types subjectverdubbeling:**
1. Type 1 = clitic doubling: clitisch element + optioneel sterk pronomen (*werkt ze zij in Brussel, da ze zij in Brussel werkt*)
2. Type 2 = topic doubling: pronominaal onderwerp op de eerste plaats, verdubbeling na de persoonsvorm (*Zij werkt zij in Brussel - Ze werkt zij in Brussel*)
3. Type 3 = topic marking: combinatie van een lexicaal element en een sterk pronomen (*Marie werkt zij in Brussel, dat zij Marie in Brussel werkt, An heeft zij dat niet gedaan*)
4. Er is nog een speciaal geval van subjectverdubbeling, waarbij een pronominaal element op de positie van de verdubbeling verschijnt dat niet verwijzend is; het verwijst immers niet naar dezelfde persoon als het onderwerp verwijst (*Marie werkt **tet/tjij/hij** ook.*). Greco, Haegeman & Phan (2017) noemen dit soort elementen ‘expletives’.
**De verschillende types behandelen we in het GCND op dezelfde manier:** we voegen **de verschillende (pro)nomina als aparte knopen op hetzelfde niveau van de boom toe**. **Alle pronomina krijgen het dependentielabel 'subject'. Het eerste subject krijgt een index; de andere niet.** Wat POS-tag betreft: nominatief, ook al gaat het om een vorm die in het Standaardnederlands enkel als objectsvorm wordt gebruikt (cf. 2.2. hieronder)

**Opmerking:** Heel af en toe zijn er **zinnen waarbij je de verdubbelde subjecten als eenheden moet behandelen**:
:::warning
Als we wij en mijn vader in de kelder zaten...
:::
Omdat Alpino hiervoor geen ideale oplossing heeft, analyseren we *we wij* in dit geval als een "du" (discourse unit) die nevengeschikt is aan de nominale constituent *mijn vader.*
### 2.2 Subject in objectsvorm
:::warning
**Zin**
*omdat **hem** peinsde dat dat zijn kindje was.*
*waar zitten wij ons hier nu weer*
:::
Bij preprocessing wordt de *hem* aangepast naar *hij* om Alpino een handje te helpen. Bij postprocessing moet de *hem* hersteld worden, maar de POS-tag blijft wel nominatief.
*Ons*: in Standaardnederlands objectsvorm, maar hier subjectverdubbelling, dus POS-tag: nominatief.
### 2.3 Presentatief *het*
:::warning
**Zin**
*Het staat daar geen stoel.*
:::
Deze constructie wordt noch in de Lassy-handleiding noch in de CGN-beschrijving besproken. In het GCND zullen we dit soort *het* zoals presentatief *er* behandelen, en het dus het dependentielabel 'MOD' te geven.
**- Dependentielabel = MOD**
**- POS-tag = VNW(pers,pron,stan,red,3,ev,onz)**

## 3. Uitbreidingen van de zin: TAG en SAT
### 3.1 Linker zinsperiferie
In het Standaardnederlands staat de persoonsvorm in hoofdzinnen doorgaans op de tweede zinsplaats. Zetten we een bepaling op de eerste zinsplaats, dan keren we de elementaire volgorde 'onderwerp - persoonsvorm' in de regel om -- dan spreken we van *inversie* -- en blijft de pv op de tweede zinsplaats. Soms wordt van dit principe echter afgeweken, en dan spreken we van V3-hoofdzinnen.
Het is belangrijk om verschillende types V3-zinnen uit elkaar te houden. De verschillende types analyseren we namelijk anders in Alpino.
1. Aanloopconstructie (analyse: SAT)
2. Tussenwerpsels, aansporingen (analyse: TAG)
3. Hangende topics (analyse: TAG)
4. Inversieloze V3-zinnen (analyse: TAG)
#### 3.1.1. **Left Dislocation / Linksdislocatie / Aanloopconstructie:**
::: warning
**Zin**
*Jan, die ken ik niet!
Het kind, dat ken ik niet.*
:::
Bij aanloopconstructies staat er een **naamwoordgroep** in de eerste positie (de aanloop) en **aanwijzend** **voornaamwoord/voegwoord** (*die, dat, daar*) -- een zog. resumptief -- in de tweede positie. Daarop volgt de persoonsvorm.
**Analyse**
- De **naamwoordgroep** op de eerste plaats zien we **als aanloopzinsdeel** dat **samen** met de **kernzin** een *discourse unit* vormt (hiervoor zijn er een aantal syntactische argumenten: BRON).
- **Analyse in Alpino** (gaat normaal automatisch goed)
- Aanloop = SATELLIET
- Kernzin = NUCLEUS
<br> <br>
[](https://i.imgur.com/3j76oZi.png)
#### 3.1.2. Tussenwerpsels en aansporingen
:::warning
zo, dat was plezant.
natuurlijk, moeilijk is het niet.
kom, ik ga er maar vandoor.
jongens, ik vertrek nu.
:::
Een werkwoord belandt ook vaak op de derde zinsplaats wanneer een spreker een **tussenwerpsel**, **aansporing** of een **gereduceerde zin** voorop zet. Die elementen beschouwen we net als linksdislocaties **niet als deel van de kernzin**. Ze staan wel op een andere manier dan die linksdislocaties buiten de zin, en krijgen in Alpino daarom een ander dependentielabel, namelijk **TAG** (cf. ook inleidende zin bij directe redes, zie verder in dit overzicht).
Met dit soort structuren kan Alpino doorgaans vlotjes om; preprocessing is dan ook niet nodig.
:::info
Let wel: dialectische tussenwerpsels zoals *neeë* of *eni* worden automatisch geskipt omdat Alpino zinnen waarin die tussenwerpsels in het midden voorkomen vaak fragmenteert in losse discourse units (ook wanneer je de instructie geeft die tussenwerpsels als het bekende 'hé' te behandelen). Aangezien je vaak kunt discussiëren over waar tussenwerpsels precies in de boom moeten hangen, laten we de tussenwerpsels los bovenaan in de boom hangen **
:::

#### 3.1.3. **Hanging Topic / Hangend Topic / Nominativus Pendens:**
:::warning
**Zin**
*Jan, ik ken hem niet. Jan, hem ken ik niet.
Het kind, ik ken het niet.*
:::
zo
Op het eerste gezicht lijken deze constructies met **hanging topics** misschien op een linksdislocatie/aanloopconstructie (cf. punt 1), maar er zijn cruciale verschillen:
- De **intonatorische pauze is hier *niet* optioneel**
- er staat steeds een **naamwoordgroep** in de eerste positie, die later in de zin door een **persoonlijk** **voornaamwoord** (*hij, het, zij, hem, haar*) wordt opgenomen, dus niet door een aanwijzend voornaamwoord/voegword (*die, dat, daar*) zoals bij *Left Dislocation*. Dit voornaamwoord hoeft niet op de tweede positie te staan, het kan op eender welke plaats in de zin staan waar nominale constituenten kunnen staan.
- **Syntactisch gezien staan *hanging topics* buiten de kernzin**. Dat kun je bijvoorbeeld zien aan het feit dat in een zin als *Iedere boer, hij verwent zijn vrouw* er geen co-referentie tussen *iedere boer* en *zijn* bestaat (de interpretatie is veleer dat 'zijn' op een andere referent die eerder in het discours geïntroduceerd werd, verwijst). (Dit is ook een belangrijk verschil met de aanloopconstructie/linksdislocatie, waar co-referentie wél mogelijk is: *Iedere boer, die verwent zijn vrouw* wordt zo geïnterpreteerd dat het om de vrouw van iedere boer gaat, niet van iemand anders.)
<!---
(intonatorische pauze, afwezigheid van binding-verschijnselen,naamval van HT en voornaamwoord in de zin niet overeen hoeven te komen, vgl. ***Hij**, ik ken **hem** niet*
--->
De *hanging topics* analyseren we net als de tussenwerpsels en aansporingen als **TAG + NUCLEUS**.
<!---
dan ook als deel van een **discourse unit** (du), die uit meerdere *discourse parts* (dp) bestaat, namelijk het hanging topic zelf en dan de hoofdzin, en dus niet als satelliet of tag (zie boven).
--->
<!---
Vermits er in de preprocessing een komma na de *hanging topic* toegevoegd wordt, maakt Alpino deze analyse automatisch zelf.
<!---
<!---
:::danger
ASG: in Alpino: "Jan, hem ken ik niet" levert analyse als TAG op. "Jan, ik ken hem niet" ook. Heeft met de komma te maken denk ik. >> in Lassy manual geen expliciete bespreking van Hanging topics, enkel aanloopconstructies (du-structuur is dus niet bewust)
:::
--->

<!---
<br> 
--->
#### 3.1.4. **Inversieloos V-later-dan-2 / V>2 / Noninverted V3:** <br>
:::warning
**Zin**
*Toen ik thuiskwam, de elektriek was uitgevallen* <br> *In de stad, het was hier haast allemaal Frans* <br> *De boer, als hij gepresseerd is, hè, hij gaat voort in het veld*<br>
:::
De zinnen hierboven vormen een bijzondere vorm van *hanging topics*, en komen in de regel niet in de standaardtaal voor. Je hoort ze wel vaak in de dialecten en soms ook in andere gesproken registers. In dit soort zinnen staat er **meestal een bijwoordelijke bepaling voorop, soms meerdere, of een nominale constituent**. Soms vind je er ook nog eens een **hanging topic tussen** (cf. voorbeeldzin over 'de boer'). Daarna volgt een hoofdzin met het onderwerp voorafgaand aan de persoonsvorm.<br>
We analyseren deze zinnen als een **discourse unit (*du*) die bestaat uit een TAG en een NUCLEUS**:

<!--- Bij sommige V3 zinnen is er sprake van een satelliet die buiten de kernzin staat, en via een index met een element binnen de kernzin verbonden is:
Alpino-output (zonder verbetering):

Verbeterde versie:
 --->
:::info
Voor de laatste drie types constructies, dus
- Tussenwerpsels
- Hanging topics
- Inversieloze V3-zinnen
kiezen we dus voor eenzelfde analyse: een discourse unit **DU** met als constituenten **TAG** en **NUCL**.
Wij baseren ons bij deze analyse op de Lassy-handleiding:
> "Het functielabel TAG maakt in die gevallen duidelijk dat de elementen niet hun ‘normale’ rol [in de zin] vervullen [zoals] bijwoord (MOD binnen de zin) ..." (p.188)
>
**Dit geldt voor alle drie types constructie:**
2. Bij tussenwerpsels e.d. zoals *natuurlijk* vervult *natuurlijk* niet de functie van bijvoeglijk naamwoord of bijwoord in de kernzin.
3. Een *hanging topic* is geen zinsdeel van de hoofdzin (vgl. *[Iedere boer]~i~, hij verwent zijn~*i/j~ vrouw*).
4. Een vooropgespelde bepaling in een inversieloze V3-constructie is geen zinsdeel van de hoofdzin (bijv. een zin als *Toen ik thuis kwam, de elektriciteit was uitgevallen* kan alleen betekenen dat de elektriciteit al voor aankomst uitgevallen was, de temporale bijzin modificeert dus niet (het tijdstip van) *uitgevallen*. Dit is anders bij een gewone V2-zin met inversie: *Toen ik thuis kwam, was de elektriciteit uitgevallen* kan zowel betekenen dat de elektriciteit bij aankomst al uitgevallen was, maar ook dat ze net op het moment van aankomst uitviel. Voor meer argumenten zie Greco & Haegeman (2020)).
:::
### 3.2 Ingebedde dislocaties
:::warning
Wat vindt u der eigenlijk van **dat zulke zinnen dat die zo geanalyseerd worden?**
:::
De zin hierboven kom je in schrijftaal zelden tegen. Het is verleidelijk te denken dat het hier om een aarzeling gaat, maar in het GCND analyseren we deze zinnen liever -- net als in het CGN (p. 70-71) -- als volwaardige constructies, en meer specifiek als 'ingebedde dislocaties'. De term 'dislocatie' wordt doorgaans gebruikt om te verwijzen naar het plaatsen van discourselementen voor of achter de zinsstructuur -- respectievelijk links- en rechtsdislocatie genoemd (zie aanloopconstructies). Bij deze zin gaat het echter om een disclocatie in een ingebedde (= bij-)zin.
**In navolging van het CGN analyseert het GCND dit soort zinnen als ingebedde links-dislocaties**. *dat zulke zinnen* is dan een aanloop (dependentielabel = 'sat') op de voegwoordzin *dat die zo geanalyseerd worden*.

### 3.3 *ja/nee het/ik/...*
:::warning
**Zin**
*Bwa nee het jong*
:::
In veel dialecten is het elliptische antwoord op een *ja/neen*-vraag "ja het"/"nee het" of "ja ik/wij/zij" etc. We opteren er hier voor om die combinatie als een '**tag**' te analyseren, en te zeggen dat *ja/nee* + vnw een ***multi word unit*** (*mwu*) is, die bestaat uit een tussenwerpsel en een voornaamwoord. De hele constructie wordt een *dp* (discourse part).
- Dependentielabel (rel) 'nee het' = tag
- Categorielabel (cat) 'nee het' = mwu

### 3.4 V2-bijzinnen - pseudodirecte rede
:::warning
**Zin**
*Hij zei hij weet het niet.*
:::
Na werkwoorden zoals *denken* volgt in spreektaal vaak een V2-bijzin (een bijzin met het werkwoord op de tweede zinsplaats) i.p.v. een bijzin met een onderschikkend voegwoord en bijzinsvolgorde. Dit soort zinnen -- die ook wel eens pseudodirecte redes worden genoemd -- worden geannoteerd zoals directe redes (zie p.190 in `sa-man_lassy.pdf`), namelijk als een **combinatie van een tag en een nucleus.**
**Inleidende matrixzin** (*hij zei*):
- Dependentielabel (rel): tag
- Categorielabel (cat): smain
**Pseudodirecte rede - V2-bijzin** (hij weet het niet):
- Depentielabel (rel): nucl
- Categorielabel (cat): smain (of -- bij werkwoordsinitiële zinnen -- sv1)

**NB:** Alpino parset directe en pseudodirecte redes doorgaans automatisch juist als je een komma toevoegt tussen de matrixzin en de V2-bijzin.
:::danger
Belangrijk! Zinnen met 'laat ons zeggen', 'om niet te zeggen', 'volgens dat het schijnt', 'je moet verstaan',... duiden we altijd aan met **tag**.
Voorbeeld: *de heel schone films komen niet altijd in Eeklo **je moet goed verstaan**.*
Hier zou je kunnen twijfelen of het over V-later-dan-2 gaat of over directe rede. Aangezien er hier een communicatief werkwoord geïntroduceerd wordt (verstaan) kiezen we er hier voor om het als directe rede te behandelen met tag.
:::
### 3.5 Intercalaties/parentheses/interpositio
:::warning
(a) hij bestelde toen -- je weet hoe hij is --- een Duvel .
(b) en hier in de hof -- ik heb hier een grote hof -- stonden bonen en prei .
(c ) mijn kat -- ze is zwart met witte strepen -- had toen een muis gevangen .
:::
**Parentheses/intercalaties/interpositio's** zijn tussenzinnen die syntactisch buiten de kernzin lijken te staan. In de schrijftaal worden dergelijk tussenzinnen vaak met gedachtestreepjes aangeduid. Over dergelijke tussenzinnen wordt noch in de LASSY-manual noch in het CGN-manual iets gezegd. **De LASSY-manual heeft het wel over 'materiaal tussen haakjes'** (of gedachtestreepjes), typerend voor schrijftaal (p. 156), en stelt daarover:
> In geval het materiaal tussen haakjes een woordgroep vormt, die ook weggelaten kan worden zonder de syntactische structuur van de hele zin te veranderen, dan wordt het tussen haakjes geplaatste zinsdeel meestal als MOD geannoteerd.
In **het GCND kiezen we ervoor parentheses het dependentielabel TAG** te geven en **op hetzelfde niveau als de hoofdzin onder te brengen** . Je kunt heel erg discussiëren over het niveau waarop intercalaties in de zin ingebed zijn en de functie die ze hebben. Sommige lijken een soort nabepaling bij een NC (cf. voorbeelden b en c); bij andere staat de intercalatie precies wat losser (cf. voorbeeld a). De precieze analyse van dit soort zinnen laten we aan de GCND-gebruiker over; met het dependentielabel 'tag' geven we vooral aan dat ze de syntactische structuur van de zin waarin ze voorkomen niet beïnvloeden.
Let op!!! Verwar een intercalatie niet met een bijstelling. Een **bijstelling of appositie** is "elke naamwoordelijke constituent die als aanvullende informatie achter een andere naamwoordelijke constituent geplaatst wordt" (ANS). Die nominale consituent kan van verbale origine zijn en kan allerlei zinsdelen incorporeren.
:::warning
we werden gezegend met een kindje *een zoon* de uh achttiende oktober van zevenentwintig .
hoofdstuk *vier*
de maand *maart*
de stad *Groningen*
de afstand *Mechelen-Brussel*
:::
Deze bijstellingen krijgen geheel volgens de Lassy-aanpak (p. 132) het dependentielabel 'APP'.
## 4. Complementizer-fenomenen
### 4.1 Afwijkende comparatieve voegwoorden
:::warning
**Zin**
*Hij is groter **of/als** ik.*
*Dat is niet meer **gelijk als** vroeger*
*om te zeggen **gelijk of dat** het is had ik er niet moeten bijkomen het was buiten.*
:::
- **Indien voegwoorden *of* en/of *als* gebruikt worden in plaats van het standaardtalige *dan***: **behandeling cf. voegwoord *dan*:**
- dependentielabel (rel) = cmp (complementizer)
- categorielabel (cat) = vg (voegwoord)
- Plaats in boom = vormt samen met voegwoord 'obcomp' (vergelijkingscomplement) bij het adjectief
NB: Alpino kan om met *als*-constructie, maar heeft wat hulp nodig bij *of*. Daarom geven we bij het preprocessen aan dat Alpino de *of* in *groter of* als *dan* moet behandelen (zie handleiding preprocessing).
- ***Gelijk als/gelijk of dat***: **behandelen als 'mwu' dat in zijn geheel als complementizer fungeert**
- dependentielabel (rel) *gelijk als*/*gelijk of dat* = cmp (complementizer)
- categorielabel (cat) *gelijk als*/*gelijk of dat* = mwu (multi-word unit)
- Dependentielabel (rel) *gelijk* | *als* | *of* | *dat*= mwp (part of multi-word unit) *> de dochters van een MWU krijgen altijd het dependentielabel MWP*
- Categorielabel (pos) *gelijk* | *als* = vg(onder)

Op die manier kunnen we later andere instanties van *gelijk* (als adjectief e.d.) van het voegwoordgebruik onderscheiden. Bij gebruik van enkel *gelijk* (zonder *als*) doet Alpino dit sowieso (bvb. in *dat is niet meer gelijk vroeger.*)
### 4.2 Directe rede ingeleid door *van*
Directe redes analyseert Alpino doorgaans als een combinatie van een tag (=de matrixzin) en een nucleus (= de directe rede). Een speciaal geval -- typerend voor spreektaal -- heb je wanneer de directe rede ingeleid wordt door *van:*
:::warning
*Die vroeg aan mij van is die dan getrouwd?*
:::
De aanpak is hier wat anders dan bij 'gewone' directe redes >
Cf. Lassy p. 78 (en CGN p. 26): "We beschouwen *van* in het voorbeeld (...) als complementeerder ter inleiding van een complementszin in 'directe rede' (SV1 of SMAIN). De bijzin inclusief *van* krijgt de categorie SVAN."

:::danger
Het is wat contra-intuïtief dat directe redes met *van* als argument bij een matrixwerkwoord worden beschouwd, terwijl directe redes zonder *van* als 'NUCLEUS' los van de inleidende zin (TAG) worden geanalyseerd. We zijn ons bewust van die tegenstrijdigheid, maar opteren er ook hier voor de Lassy-aanpak te volgen.
:::
### 4.3 Expletief *dat*
:::warning
**Type 1: na onderschikkend voegwoord**
*Ik weet niet of dat hij komt.*
*Om het te zeggen gelijk of dat het is:* ...
*ik was getrouwd sinds dat hij nog bij het leger was*
**Type 2: na vraagwoord**
*Ik weet niet wie dat er komt.
we gaan weer moeten de tijd afwachten wat dat er allemaal gaat voorvallen*
**Type 3: na betrekkelijk voornaamwoord**
*De mens die dat jou moet helpen, zal vloeken.*
**Type 4: na vraagwoord + *of*** (zeldzaam in Vlaanderen, cf. Lassy-handleiding)
*Zijn er meer mogelijkheden dan wat of dat je nu hebt?*
:::
Types 1, 2 en 4 worden behandeld in de **Lassy-handleiding bij 'complexe voegwoorden'** (p. 86 en verder):
> De **combinatie *(gelijk) of dat*** (en vergelijkbare gevallen zoals *sinds dat*) behandelen we als een MWU (multiword unit), die de rol van CMP (complementeerder/onderschikkend voegwoord) vervult.
>
> Het **vraagwoord-gedeelte** kan echter niet deel zijn van een MWU, omdat in principe ook complexe WH groepen kunnen optreden en er dus sprake van productiviteit is:
> (231) Ik vroeg met welke assistent of dat hij komt
> (232) Ik vroeg me af welke journalist of dat hij gesproken had
> In zulke gevallen kiezen we dus voor een WHD/BODY structuur (WHD = hoofd van een vraagzin, BODY= romp bij complementizer) waarbij de BODY een CP is (frase ingeleid door een onderschikkend voegwoord) die bestaat uit een complementizer en een body (ssub = bijzin - V finaal)
"
Die types analyseert Alpino vrij vlot zelf.
**Voor type 3 spreken we af:** analyse in lijn met vraagwoordanalyse: RHD/BODY structuur (RHD = hoofd van een relatiefzin) waarbij de body een CP is (frase ingeleid door een onderschikkend voegwoord) die bestaat uit een complementizer en een body.




### 4.4 Beknopte bijzinnen ingeleid door *voor* of *van* ipv *om*
:::warning
**Zin**
*en als ze kwamen voor een papiertje te kiezen
Jan verdient niet van gestraft te worden.*
:::
In het **Standaardnederlands** worden beknopte bijzinnen ofwel ingeleid door het **voorzetsel** ***om***, ofwel door een nulelement. *Om* is volgens Vandeweghe (1971) verplicht in finale bijzinnen, in resultatieve bijzinnen en in conditionele bijzinnen. Wanneer de beknopte bijzin fungeert als eigenlijk subject, als direct object of als nabepaling bij een substantief, is *om* facultatief. In niet-standaardtalige registers in Vlaanderen leiden de voorzetsels *voor* en *van* echter ook vaak beknopte bijzinnen in. Veralgemenend kunnen we stellen dat ***voor*** te horen is **in contexten waar we in de standaardtaal het verplichte *om* verwachten** (cfr. voorbeeldzin 1), terwijl ***van* varieert met het facultatieve *om*** (cfr. voorbeeldzin 2).
**Analyse cf. CGN (p. 30)**: we analyseren *van* en *voor* in dit soort zinnen **op exact dezelfde manier als *om***:
- dependentielabel: complementizer (cmp)
- POS-tag: VZ(init)
- structuur in boom: maakt deel uit van een 'oti' (om te-infinitief-groep)
Het is misschien wat contra-intuïtief om de infinitief-groepen met *van* en *voor* het label 'om te-infinitief-groep' te geven, maar dat leek ons beter dan het toevoegen van extra labels. Wanneer het optionele *om* (of *van*) niet wordt uitgesproken, analyseren we de *te*-infinitief -- geheel volgens Lassy-conventies -- als een TI (te-infinitief-groep).

### 4.5. Afhankelijke ja/nee-vragen ingeleid door *als* ipv *of*
:::warning
Ik weet niet *als* hij komt.
:::
In het Nederlands en Belgisch Standaardnederlands worden afhankelijke ja/nee-vraagzinnen ingeleid door het voegwoord *of* . Enkel bij nevenschikking met *of* van twee vragende bijzinnen verschijnt in de Europese standaardvariëteiten soms *dat* in de tweede bijzin (cf. "Hij wist niet meer of hij dat werkelijk had meegemaakt of dat hij het gedroomd had."). In verschillende dialecten -- vooral in West- en Oost-Vlaanderen en in Friesland -- en ook in het Surinaams-Nederlands is echter het voegwoord *als* gangbaar. Dit *als* behandelen we in het GCND net als het voegwoord *of* (categorielabel = onderschikkend voegwoord, dependentielabel = complementizer). Alpino kan hiermee om.
### 4.6. Bijzin met hoofdzinsvolgorde (V2-bijzin of Nebensätze)
:::warning
Die rol heb ik heel graag gespeeld omdat er zat poëzie in.
:::
Hier behandelen we de V2-bijzin niet zoals een hoofdzin met V-later-dan-2). We behandelen de V2-bijzin als een smain die afhankelijk is als complement van omdat. De cp domineert dus de smain.
Bij het pre-processen wordt het werkwoord 'zat' geskipt, waarna het vervolgens op de 'normale' plaats gezet wordt met de code @phantom.
## 5. Negatieverschijnselen (o.a. negatiepartikel *en* en dubbele negatie)
### 5.1. Dubbele negatie
:::warning
(a) Ik **en** heb dat **niet** gezegd.
(b) Ik heb **niemand niet** gezien.
(c ) Ik heb **niets niet** gedaan.
(d) Ik heb dat **nooit niet** gedaan.
(e) Daar zijn **nooit geen** rozen.
(f) Ik heb **geen boeken niet meer**.
(g) Er zijn er **niet veel niet meer**.
(h) Ik heb **niet veel geen boeken meer**.
:::
Hier hanteren we in het algemeen de aanpak dat de verschillende negatoren elk afzonderlijk een dependentielabel krijgen en afhankelijk van het type negatie op hetzelfde dan wel op een ander niveau ingevoegd worden. Zin (h) vormt een uitdaging; hier opteren we ervoor 'niet veel geen' als een *multi-word unit* te beschouwen, die in zijn geheel als determinator functioneert (cf. boom hieronder).
**Met de meeste types kan Alpino vrij goed om. Problemen krijg je bij:**
- **Negatie met het oude negatiepartikel *en*** (zin a), dat Alpino standaard als nevenschikkend voegwoord ziet. Dat passen we handmatig aan: POS-tag = BW(), dependentielabel = MOD
- **Negatieverdubbeling binnen de nominale constituent** (zin h): [ @mwu_alt geen niet veel geen ]
Die structuren worden via pre- en post-processing aangepakt om toch tot een juiste analyse te komen.




## 6. Andere
### 6.1 en zo/ of zo / en al / en alles / maar ja / en si en la
*en zo* verschijnt soms op zinsniveau, NP-niveau, op het niveau van een infinitief of op conjunctieniveau:
:::warning
*Ik ga m’n eigen bedrijfje beginnen of zo.*
*Je moet dan wel wat regen en zo op de koop toe nemen.*
*Die zouden trouwen of zo.*
*Die was pas getrouwd of die zou gaan trouwen of zo.*
:::
In Alpino zullen we 'en zo' (en consoorten: en al/en si en la) op dezelfde manier analyseren als het CGN (cf. Hoekstra et al. 2003:64): als **een *multi-word unit* (MWU) die als modificeerder fungeert (MOD).**


### 6.2 Woordherhaling voor klemtoon
:::warning
**Zin**
we hebben niets niets te kort op geen gebied .
:::
Naar analogie met o.a. subjectverdubbeling nemen we in de boom twee keer het herhaalde woord op, met hetzelfde dependentielabel.
Twee keer zelfde label in boom. >> geen fout of herformulering - is voor nadruk: wel meenemen > preprocessing [ @skip ]

### 6.3 Spiegelconstructies
:::warning
**Zin**
*je gebruikt nog alsan diezelfde potees gebruik je.
en da wordt alle zes maanden wordt dat vernieuwd.
het is toen een eindje verder is het.
de Bredabaan heb ik ook verschillende jaren heb ik ik daar gewerkt.*
:::
**We spreken van een spiegelconstructie (cf. CGN p. 69-70 - ook voor literatuurreferenties) als**:
- de spreker een **zin begint in de standaardvolgorde** subject-persoonsvorm (soms wel met inversie als er een zinsmodificeerder voorop staat),
- vervolgens een **bepaling** toevoegt,
- en daarna het **bouwplan** van de zin **als het ware herziet** en de bepaling herinterpreteert als topic op de eerste zinspositie, en daarom nog eens de persoonsvorm en het onderwerp laat volgen.
**Analyse: cf. CGN:** **analyse puur descriptief: de zin krijgt twee subjecten/verbale hoofden/...**

**Belangrijk: verwar spiegelconstructies niet met haperingen of zelfcorrecties. Om van een spiegelconstructie te spreken, moet het onderwerp exact hetzelfde zijn. Dus niet:**
`die zit nu al nu zit hij al vijfentwintig jaar in de kredietbank.`
Deze zin analyseren we niet als spiegelconstructie, maar als herformulering, omdat de bepaling die als spiegelpunt fungeert herhaald wordt en het subject vervangen wordt. Stond er: *Die zit nu zit die al vijfentwintig jaar in de kredietbank,* dan zouden we wel van een spiegelconstructie spreken.
### 6.4 Apokoinouconstructies
:::warning
ik maakte een tots zeiden wij daartegen
en dat was van de zaterdagochtend reden we wij mekaar de kop in
:::
Een apokoinouconstructie is een constructie waarbij een woord of woordengroep tegelijkertijd deel uitmaakt, eerst als staart en dan als kop, van twee onafhankelijke constructies.
Bij pre-processing helpen we Alpino een handje door @phantom toe te voegen:
en dat was van de zaterdagochtend [ @phantom ; ] [ @phantom zaterdagochtend ] reden wij mekaar de kop in
Bij post-processing: waarde van cat attribuut aanpassen naar "apokoinou" en een lege knoop in het tweede deel toevoegen die je vervolgens dezelfde index geeft als het woord dat twee rollen heeft.
### 6.5 Opsomming van cijfers met betekenis 'ongeveer'
#### 6.5.1 Type 1: *dertig veertig vijftig boterhammen*
:::warning
**Zin**
en we hebben dagen geweest dat we dertig veertig vijftig boterhammen hadden voor ons [ @alt hè hé ] .
:::
Dit soort constructies analyseren als we **een asyndetische nevenschikking (conj) van twee of meer determinatoren** (cf. ook Lassy-aanpak bij constructies als *een man of twee drie*, cf. hieronder en p. 120 in de handleiding). Om die analyse voor Alpino te vergemakkelijken, voegen we bij het preprocessen een phantom *en* toe tussen de laatste twee cijfers, en een phantom-komma tussen die ervoor.

#### 6.5.2 Type 2: speciale constructie: *Een jaar/man/... of vijftien zestien*
:::warning
**Zin**
en daarbij één paar meisjes van een jaar of vijftien zestien .
:::
STAAT IN LASSY-HANDLEIDING (p. 120): **behandelen als complexe determinator** (detp = determinator frase)

Andere voorbeelden van complexe determinatoren :
- *van die* bananen
- *een heleboel* flessen - NIET HETZELFDE ALS een kop koffie - een aantal mensen
- *een stuk of zes* pintjes
### 6.6. Discontinue telwoorden 'drie jaar en half'
:::warning
hij ging er drie jaar en half.
een pakje van drie kilo een half.
:::
drie en half: DETP, MWU, met drie en half MWP
drie een ahlf: DETP, MWU, met drie een half MWP
### 6.7. Tijdsbepalingen met *(van) te*: *te zessen, van te zessen*
:::warning
**Zin**
*Hij komt van te zessen*
:::
Deze constructie behandelen we als een **complexe voorzetselconstituent** die als **MOD** functioneert en die bestaat uit een voorzetsel *van* en een voorzetselconstituent *te zessen*.

### 6.8. *De die*
:::warning
je vindt **de die** ook niet in de gewone kruisweg .
en de mensen zeggen , wat lopen **de die** hier nu zo rond de kerk en ze komen weer op hetzelfde uit .
:::
Analyse: NP met *de* als determinator en *die* als hoofd.

### 6.9. Code-switches naar het Frans/Engels/...
:::warning
dat wil zeggen bien la force meillieur le génie.
maar in het general hij is altijd zo al al het westen neeë
:::
* 1 woord = behandelen als leenwoord (en dus POS-tag geven: naamwoord, ...), onafhankelijk van woord
* meerdere woorden: behandelen we als *multi-word unit*. Elk woord krijgt de POS-tag 'SPEC(vreemd)'. We analyseren zinnen of zinsdelen in het Frans/Engels/... dus niet intern.

### 6.10. Meerledige plaatsnamen (De Panne, De Belgiquen > mwu?)
Cf. Lassy: behandelen we als *multi-word unit*, waarbij elk deel de POS-tag 'SPEC(deeleigen)' krijgt.

### 6.11. *Doen*-replieken (met en zonder negatie)
:::warning
A: Hij heeft dat toch niet gedaan? | het regent toch niet hé?
B: ja hij doet. | het doet het doet (klinkt als 'toetoet')
A: Jij doet dat toch hé?
B: ik en doe!
A: Ik heb gisteren de brandweer gebeld
B: Doe je? (om verwondering uit te drukken, betekent zoveel als 'echt?')
A: Die kinders mogen niets thuis.
B: En doen ze? (om verwondering uit te drukken, betekent zoveel als 'echt?')
:::
In West- en Zuid-Oost-Vlaanderen hoor je vaak korte repliekzinnetjes met _doen._ Daarin herken je behalve het werkwoord _doen_ ook steeds een persoonlijk voornaamwoord – zoals _het, hij_ of _zij –_ dat verwijst naar de aangesprokene of naar het onderwerp van de vorige zin. Ontkennen sprekers een voorgaande bevestigende mededeling – “jij hebt de brandweer gebeld hé” – dan voegen ze in hun repliek het oude ontkenningspartikel _en_ toe: “‘k en doe(n)!” (‘nee toch niet’). Soms zijn replieken ook vragend – om verwondering uit te drukken – en dan hebben ze dezelfde vorm (bevestigend of ontkennend) als de bewering die eraan vooraf gaat.
**Deze repliekzinnetjes analyseren we als aparte zinnen. Intern onderscheiden we SUBJ (vnw) + eventueel MOD (negatiepartikel) + HD (ww).** Wil je in het corpus zoeken op dit soort constructies, dan moet je via de zoekmodule op zoek naar korte zinnen die bestaat uit een voornaamwoord, eventueel een negatiepartikel en 'doen' als verbaal hoofd (zonder direct object).

### 6.12. Adjectieven die met 'geen' gecombineerd worden
:::warning
Het is toch geen waar zeker?
Dat is geen erg.
:::
'Waar' en 'erg' worden door Alpino als substantieven geïnterpreteerd omdat ze geïntroduceerd worden door ‘geen’. Wij beschouwen ze als genominaliseerde adjectieven. Er mag dus wel degelijk NP staan, maar kies voor de juiste POS-tags: ADJ(nom,basis,zonder,zonder-n)
### 6.13. Geluiden en klanknabootsingen
:::warning
(1) en als je voeten zweetten zwiep zat je kleine teen erdoor.
(2) zodus iedere keer dat hij sloeg hé dat was … djoef.
:::
Uitgeschreven geluiden en klanknabootsingen analyseren we als tussenwerpsels. Als ze geen zinsfunctie hebben (zin 1), hangen we ze bovenaan in de boom zoals andere tussenwerpsels. Als ze wel een zinsfunctie hebben (zin 2) krijgen ze ook POS-tag TSW maar de zinsfunctie moet wel benoemd worden. Dat is predc in het geval van zin 2.
### 6.14. Exclamatieve infinitiefzinnen
:::warning
en wij maar werken!
en ik zoeken maar!
:::
Analyse: INF met subject erbij (geen gewone MAIN)
### 6.15.Circumpositie
:::warning
kom van dat dak af
want je moest achter niets achter gaan
:::
circumpositie = van dat dak af: hd = van, obj1 = dat dak, hdf = af
circumpositie = achter niets achter: hd = achter, obj1=niets, hdf = achter