owned this note
owned this note
Published
Linked with GitHub
## DTA Description (en)
The [*Deutsches Textarchiv* ("German Text Archive", DTA)](http://www.deutschestextarchiv.de/) is the largest single corpus of historical New High German covering the 16^th^ through the early 20^th^ century, comprising more than 350 million tokens in 1.34 million digitized pages. Focussing mostly on (digitized) printed material, the DTA also includes a growing number of hand-written documents. Specialty subcorpora include historical newspapers and other periodicals. The DTA as a whole covers a rich variety of text in the genres belles-lettres, use-literature, and academic writing.

Fig. 1: *Deutsches Textarchiv* / German Text Archive landing page, [http://www.deutschestextarchiv.de/](http://www.deutschestextarchiv.de/).
The DTA is composed of the so-called [*DTA-Kernkorpus* (DTAK, "DTA Core Corpus")](http://www.deutschestextarchiv.de/doku/ueberblick#dta-kernkorpus) with ca. 1500 first editions from the 16^th^ through the 19^th^ century. In this time frame, the Core Corpus is balanced with respect to text genres and token counts. Additionally, the [*DTA-Erweiterungen* (DTAE, "DTA Extensions")](http://www.deutschestextarchiv.de/dtae) module contains specialty corpora and individual texts which have been curated in the context of [CLARIN-D](https://www.clarin-d.net/en/) and other projects. The full-text sources provided by digitization projects and other discipline-specific initiatives have been (manually or semi-automatically) converted to a [TEI](https://tei-c.org)-compatible XML format conforming to the [*DTA-Basisformat* (DTABf, "DTA Base Format")](http://www.deutschestextarchiv.de/doku/basisformat/) guidelines, including extensive metadata on the original sources and data preparation. OCR texts in the DTA Core Corpus – as well as numerous additional text resources – have been manually corrected. A continuous quality assurance process is made possible by the collaborative web-based platform [DTAQ](http://www.deutschestextarchiv.de/dtaq/about), with ca. 2000 currently registered users.
All DTA corpora are prepared for user consumption by automated computational linguistic analysis methods, including not only PoS-tagging and lemmatization, but also – among others – an orthographic normalization of historical spelling variants, allowing users to formulate queries in modern orthography. Each individual document – and the corpus as a whole – is available for download in a variety of XML formats (TEI P5 with or without [TEI:att.linguistic](https://tei-c.org/release/doc/tei-p5-doc/en/html/ref-att.linguistic.html) attributes, [TCF](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/The_TCF_Format), and HTML) and as plain text. Metadata are available as a TEI-header, [CMDI](https://www.clarin.eu/content/component-metadata), or Dublin Core, and an [API](https://clarin.bbaw.de/oai-dta/?verb=Identify) is provided for automated harvesting. Additional tools are provided for statistical analysis of the corpora, including [time series plots](http://www.deutschestextarchiv.de/search/plot/) and diachonic collocation analysis with the help of the software tool [DiaCollo](https://clarin-d.de/en/diacollo-en).
 Fig. 2: The *Deutsches Textarchiv* / German Text Archive: an integrated research platform; Illustration from: [Geyken et al. 2018](https://doi.org/10.1515/9783110538663-011), p. 221
The DTA is fully integrated into the [CLARIN](https://www.clarin.eu/) infrastructure (e.g. via [VLO](https://www.clarin.eu/vlo), [FCS](https://www.clarin.eu/content/content-search), [LRS](https://www.clarin.eu/content/language-resource-switchboard), and [WebLicht](https://weblicht.sfs.uni-tuebingen.de/weblichtwiki/index.php/Main_Page)). Long-term availability, persistent addressability, and versioning of the data are provided by the [CLARIN Repository](https://clarin.bbaw.de/en/) of the *Zentrum Sprache* at the BBAW. Furthermore, the DTA serves as the basis for consultation and instruction in the context of CLARIN-D with respect to the associated tools, workflows, and procedures.
---
# DTA-Kurzbeschreibung
Das [*Deutsche Textarchiv* (DTA)](http://www.deutschestextarchiv.de/) bildet das größte zusammenhängende Korpus des historischen Neuhochdeutschen vom 16. bis zum frühen 20. Jahrhundert (mehr als 350 Mio. Tokens, 1,34 Mio. digitalisierte Seiten). Ein Schwerpunkt des DTA liegt auf digitalisierten Drucken; darüber hinaus enthält das Korpus auch einen wachsenden Bestand an handschriftlichen Dokumenten. Spezialkorpora umfassen historische Zeitungen und Zeitschriften. Das DTA deckt einen reichen Bestand an Textsorten der Belletristik, Gebrauchsliteratur und Wissenschaft ab.
> wieso "somit"? die Propositionen ("Zeitung" + "andere Textsorten") hängen nicht zusammen. [name=Bryan Jurish] [color=#cc0000]
> > danke dir, überhaupt für die klasse Übersetzung, die sich jetzt schon besser liest als die deutsche Vorlage. "somit" hab ich gestrichen, auch damit hast du recht!
[name=ct]
Das DTA setzt sich zusammen aus dem sogenannten *DTA-Kernkorpus* mit etwa 1500 Erstausgaben des 16. bis 19. Jahrhunderts. Das DTA-Kernkorpus ist über diesen Zeitraum hinsichtlich der Textsorten und Tokenzahlen ==ausgewogen==. Das Modul *DTA-Erweiterungen* (DTAE) enthält Spezialkorpora und Einzeltexte, die im Rahmen von CLARIN-D und anderen Projekten kuratiert wurden. Die Volltexte, die aus diversen Digitalisierungsprojekten und anderen fachwissenschaftlichen Initiativen stammen, wurden dabei nach den Richtlinien des [DTA-Basisformats (DTABf)](http://www.deutschestextarchiv.de/doku/basisformat/) manuell oder mit automatischen Werkzeugen in ein einheitliches, [TEI](https://tei-c.org)-kompatibles XML-Format konvertiert und mit umfangreichen Metadaten zu den Quellen und der Datenaufbereitung versehen. Per OCR erfasste Texte des DTA-Kernkorpus sowie zahlreiche weitere Textressourcen wurden manuell nachkorrigiert. Die fortlaufende Qualitätssicherung findet kollaborativ auf der webbassierten Plattform [DTAQ](http://www.deutschestextarchiv.de/dtaq/about) mit derzeit ca. 2000 registrierten Nutzern statt.
> "ausgewogen": Wollen/müssen wir das wirklich behaupten? [hier](https://kaskade.dwds.de/dstar/dtak/hist?fmt=hist&pformat=svg&q=*&_s=submit&n=abs&smooth=none&sl=10&w=3&wb=0&pr=0&xr=*%3A*&yr=0%3A*&psize=840%2C480) sieht es eher nicht danach aus. [name=Bryan Jurish] [color=#cc0000]
> > ach, ich glaub nu sollten wir dabei bleiben, wir haben es jedenfalls nun so oft geschrieben, dass wir es uns in *diesem* Kontext auch nicht mehr verkneifen müssen. In der Sache kann ich es natürlich nicht einschätzen, aber Axel hatte dazu im Zusammenhang mit dem Kristin-Kopf-Artikel was geschrieben https://dmm.bbaw.de/dstar-teambbaw/pl/egz4aw9wn7ggfmjksgz3mgnnfh, demnach schien es mir eh ein ausreichend dehnbarer Begriff.
[name=ct]
Alle DTA-Korpora werden durch computerlinguistische Analyseverfahren für die Recherche aufbereitet. Dazu gehören nicht nur PoS-Tagging und Lemmatisierung, sondern unter anderem auch eine orthographische Normierung historischer Schreibweisen, die es erlaubt, Suchanfragen in moderner Orthographie zu verarbeiten. Sowohl die einzelnen Dokumente als auch das Gesamtkorpus stehen in verschiedenen XML-Formaten (TEI P5 mit oder ohne att.linguistic, TCF und HTML) sowie als Plaintext zum Download bereit; die Metadaten werden als TEI-Header, CMDI oder Dublin Core angeboten, die auch über eine Programmierschnittstelle (API) geharvestet werden können. Außerdem werden verschiedene Tools zur statistischen Auswertung der Korpora zur Verfügung gestellt. Dazu gehören unter anderem diachrone [Verlaufskurven](https://www.dwds.de/r/plot?view=1&corpus=dta%2Bdwds&xrange=1600%3A2000) sowie die diachrone Kollokationsanalyse mit Hilfe des Werkzeugs [DiaCollo](http://kaskade.dwds.de/dstar/dta/diacollo/).
Das DTA ist vollumfänglich in die CLARIN-Infrastruktur integriert (VLO, FCS, LRS, WebLicht). Die langfristige Verfügbarkeit und persistente Adressierbarkeit der Daten sowie deren Versionierung erfolgt im CLARIN-Repositorium des Zentrums Sprache an der BBAW. Darüber hinaus werden anhand des DTA Beratungen und Schulungen zu den Werkzeugen, Workflows und Tools aus dem CLARIN-D-Kontext durchgeführt.
---
## Umfang
[Umfang des Gesamtkorpus aus DTA-Kernkorpus, DTAE](http://www.deutschestextarchiv.de/doku/ueberblick#umfang)<!-- d.i. DTAE plus DSDK und Grenzboten (letztere beide in DTAQ, aber nicht von DDC indiziert (Giftliste)) --> und angegliederten Spezialkorpora <!-- d.i. Dingler, textberg_hist (1864–1900) --> (Stand: 03/2020):
* ≈ 7000 Dokumente
* \> 1,34 Mio. Seiten
* \> 350 Mio. Tokens
---
## Zugriffs- und Nutzer\*innen-Zahlen
| Zugriffs- und Nutzer\*innen-Zahlen (Stand 03/2020) | |
| -------- | -------- |
| registrierte Nutzer\*innen ([DTAQ](http://www.deutschestextarchiv.de/dtaq/about)) | \> 2000 |
| Zugriffszahlen pro Woche ([DTA](http://www.deutschestextarchiv.de/), [DTAQ](http://www.deutschestextarchiv.de/dtaq/about), [dstar](http://kaskade.dwds.de/dstar/dta/)) | \> 6000 Besuche mit \> 31000 page views |
| [Textquellen DTAE](http://www.deutschestextarchiv.de/doku/textquellen) (Datengeber) | \> 50 |
| [Download](http://www.deutschestextarchiv.de/download)s der DTA-Korpora pro Monat | ca. 800<!-- hier große Diskrepanz der Zahlen, z.B. zwischen IAB-Report 2019 und den Zahlen aus 2018, hier müsste @FW nochmals genauer ermitteln. Wahrscheinlich kommen aber diese Angaben eh so nicht in den Text für CLARIN ERIC, sondern nur der Text. --> |
| [kooperierende bzw. Daten und Formate nachnutzende Projekte](http://www.deutschestextarchiv.de/clarin-kooperationen) | ca. 130 |
---
## Bibliographie <!-- für CLARIN ERIC, daher nur Englisch und mit starkem CLARIN-Bezug ausgewählt. -->
* Boenig, Matthias, and Susanne Haaf (2019): "Aggregating resources in CLARIN: FAIR corpora of historical newspapers in the German Text Archive." In: *Proceedings of CLARIN Annual Conference 2019*, Kiril Simov and Maria Eskevich (eds.), Leipzig: CLARIN, 124–128. PDF available at: https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf.
* Fischer, Frank, Susanne Haaf, and Marius Hug (2019): "The best of three worlds: Mutual enhancement of corpora of dramatic texts (GerDraCor, German Text Archive, TextGrid Repository)." In: *Proceedings of CLARIN Annual Conference 2019*, Kiril Simov and Maria Eskevich (eds.), Leipzig: CLARIN, 97–103. PDF available at: https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf.
* Jurish, Bryan, and Maret Nieländer (2019): "Using DiaCollo for historical research." In: *Proceedings of CLARIN Annual Conference 2019*, Kiril Simov and Maria Eskevich (eds.), Leipzig: CLARIN, 40–43. PDF available at: https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf.
* Geyken, Alexander, Matthias Boenig, Susanne Haaf, Bryan Jurish, Christian Thomas, and Frank Wiegand (2018): "Das Deutsche Textarchiv als Forschungsplattform für historische Daten in CLARIN." In: Henning Lobin, Roman Schneider, and Andreas Witt (eds.): *Digitale Infrastrukturen für die germanistische Forschung* (= *Germanistische Sprachwissenschaft um 2020*, vol. 6). Berlin/Boston, 2018, 219–248. DOI: [https://doi.org/10.1515/9783110538663](http://dx.doi.org/10.1515/9783110538663-011).
* Bański, Piotr, Susanne Haaf, and Martin Mueller (2018): "Lightweight Grammatical Annotation in the TEI: New Perspectives." In: *Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)*, 7.–12. Mai 2018, Miyazaki (Jp), 1795–1802. PDF available at: http://www.lrec-conf.org/proceedings/lrec2018/pdf/422.pdf.
* Haaf, Susanne, and Christian Thomas (2017): "Enabling the Encoding of Manuscripts within the DTABf. Extension and Modularization of the Format." In: *Journal of the Text Encoding Initiative* (jTEI), 10: 2015 Conference Issue. DOI: [https://doi.org/10.4000/jtei.1650](https://doi.org/10.4000/jtei.1650).
* Geyken, Alexander, and Thomas Gloning (2015): "A living text archive of 15th–19th-century German. Corpus strategies, technology, organization." In: Jost Gippert and Ralf Gehrke (eds.): *Historical Corpora. Challenges and Perspectives*. Tübingen 2015, 165–180. PDF available at: http://www.deutschestextarchiv.de/files/Geyken-Gloning-2015_A-living-text-archive_CLIP-5_2018-07-05.pdf.
* Jurish, Bryan (2015): "DiaCollo: On the trail of diachronic collocations." In: Koenraad De Smedt (ed.): *Proceedings of the CLARIN Annual Conference 2015*, Wroclaw, Poland, Ocotber 14–17, 28–31. PDF available at: http://www.deutschestextarchiv.de/files/jurish2015diacollo-clarin.pdf.
* Thomas, Christian, and Frank Wiegand (2015): "Making great work even better. Appraisal and digital curation of widely dispersed electronic textual resources (c. 15th–19th centuries) in CLARIN-D." In: Jost Gippert and Ralf Gehrke (eds.): *Historical Corpora. Challenges and Perspectives*. Tübingen 2015, 181–196. PDF available at: http://www.deutschestextarchiv.de/files/Thomas-Wiegand-2015_Making-Great-Work-Even-Better_CLIP-5_2018-07-05.pdf.