Text and Data Mining (TDM) ist ein Verfahren zur Analyse grosser Text-/Datensammlungen. Es ermöglicht die Identifizierung von Beziehungen, Mustern und/oder Trends, die ansonsten nicht ohne Weiteres erkannt werden können. Der vielfältige Bestand der ETH-Bibliothek kann unter bestimmten Voraussetzungen für TDM verwendet werden, dabei sollten die folgenden Hinweise unbedingt beachtet werden.

Rechtliches

Am 01. April 2020 wurde das Bundesgesetz über das Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz, URG) geändert und ein neuer Artikel (24d) eingeführt, der die Vervielfältigung von Werken für die TDM-Analyse (unter der Voraussetzung, dass der Zugang rechtmässig ist und den technischen Anforderungen entspricht) sowie die Aufbewahrung des TDM-Korpus zu Archivierungs- und Sicherungszwecken erlaubt. Dieses Recht erstreckt sich jedoch nicht auf die Nutzung der Kopien in einem anderen Kontext (z. B. die Verbreitung und Veröffentlichung der verwendeten Werke).

Bei den Ressourcen, auf welche über die Bibliothek zugegriffen wird (institutionelle Abonnements), haben die Lizenzvereinbarungen mit den jeweiligen Anbietern Vorrang vor den Bestimmungen des URG. In den ausgehandelten Lizenzvereinbarungen kann TDM ausdrücklich erlaubt oder verboten sein, oder es kann ein Vertragszusatz oder sogar eine spezielle Vereinbarung zwischen der Forscherin oder dem Forscher und dem Verlag nötig sein. Wir sind bestrebt, mit unseren Anbietern Lösungen zu finden, welche TDM mit den lizenzierten Ressourcen möglichst uneingeschränkt erlauben.

Unautorisiertes TDM, insbesondere durch Crawler, kann gegen die zwischen der ETH Zürich und den Anbietern vereinbarten Lizenzbestimmungen vorstossen und allenfalls einen Zugriffsverlust für die ganze ETH Zürich nach sich ziehen.

Erlaubte Nutzung

Die durch die ETH-Bibliothek lizenzierten Ressourcen stehen ausschliesslich den Angehörigen der ETH Zürich für die nicht kommerzielle, wissenschaftliche Forschung zur Verfügung.

Bitte kontaktieren Sie uns, falls Sie ein TDM-Projekt planen, welches auf von der ETH-Bibliothek lizenzierten Medien basiert. Wir helfen Ihnen gerne bei den lizenzrechtlichen Abklärungen sowie bei der Beschaffung grösserer Datenmengen.

Wir empfehlen Ihnen, ausreichend Zeit für Abklärungen und Datenbeschaffung einzuplanen.


Lizenzierte Korpora, Tools, APIs

Im Folgenden finden Sie eine Auswahl lizenzierter wissenschaftlicher Ressourcen, welche über eine API (Application Programming Interface) oder ein designiertes Auswertungstool genutzt werden können, sowie Korpora, die spezifisch für TDM zur Verfügung stehen.

Digital Science

  • Dimensions Analytics API: Die Dimensions Analytics API ermöglicht die Durchführung von Analysen in der Dimensions-Analytics-Datenbank, welche Metadaten zu Publikationen, Patenten, Datensätzen, klinischen Studien und politischen Dokumenten enthält.
  • Für ETH-Angehörige steht eine limitierte Anzahl Zugriffe bereit. Bitte kontaktieren Sie eressourcen@library.ethz.ch

 Elsevier

  • ScienceDirect, Scopus API: Elsevier erlaubt Forschenden, über die API abonnierte Inhalte auf ScienceDirect für nichtkommerzielle Zwecke zu durchsuchen. Nach der Registrierung erhalten Forschende einen API-Key.
  • Scopus-Daten: Die ETH-Bibliothek hat die Scopus-Rohdaten erworben. Auf Anfrage können Angehörige der ETH Zugriff auf diese Daten erhalten. Bitte kontaktieren Sie eressourcen@library.ethz.ch

Gale Historical Archives

Von Gale liegen die Metadaten und Inhalte folgender Sammlungen im XML-Format vor:

  • The Times Historical Archive 1785–2019
  • The Economist Historical Archive 1843–2020
  • Nineteenth Century Collections Online (NCCO)

Wenn Sie mehr Informationen erhalten und die Gale-Archive nutzen möchten, kontaktieren Sie eressourcen@library.ethz.ch

Linguistic Data Consortium (LDC)

Das Linguistic Data Consortium sammelt Sprach- und Textkorpora für linguistische Forschungs- und Entwicklungszwecke und entwickelt Tools für deren Bearbeitung. Angehörigen der ETH stehen ausgewählte Korpora zur Verfügung, registrieren Sie sich mit der ETHZ-E-Mailadresse und wählen Sie ETH Zurich als Organisation.

ProQuest TDM Studio

Mit dem TDM Studio können folgende Daten analysiert und visualisiert werden:

  • Wall Street Journal 1889–2002
  • Materials Science Collection, Materials Science Database, Engineering Collection, Engineering Database, Engineering Index
  • Diverse frei zugängliche Ressourcen

Für die Nutzung der Visualisation Tools registrieren Sie sich mit Ihrer ETHZ-E-Mailadresse. Bei Problemen kontaktieren Sie bitte eressourcen@library.ethz.ch
Für erweiterte Analysen steht zudem eine Workbench für Forschende, die mit R oder Python in Jupyter-Notebooks programmieren möchten, zur Verfügung. Bei Interesse wenden Sie sich bitte ebenfalls an eressourcen@library.ethz.ch

Swissdox@LiRI

Swissdox@LiRI: Die ETH-Bibliothek unterstützt die Kooperation zwischen Swissdox mit dem LiRI (Linguistic Research Infrastructure) der Universität Zürich. Es steht ein Textkorpus zur Verfügung, welches aus rund 29 Millionen Pressebeiträgen aus Print- und Online-Medien sowie aus Transkripten und Untertitelbeständen von Radio- und TV-Sendungen besteht. Es deckt mehrere Jahrzehnte ab und wird täglich mit 5000 bis 6000 neuen Pressebeiträgen aktualisiert, vornehmlich aus den deutsch- und französischsprechenden Teilen der Schweiz. Neben der Möglichkeit der klassischen deskriptiven, inferenziellen, explorativen oder kontextbasierten Datenanalyse eignet sich Swissdox@LiRI auch als Rohmaterial für Big-Data-Analysen und für das Trainieren von Algorithmen oder von neuronalen Netzwerken.

Web of Science

  • Web of Science Starter API (Free Plan): Abfrage vordefinierter Metadatenfelder, limitiert auf 50 requests/day, 50 000 documents/year. Eine Registrierung auf dem Clarivate Developer Portal ist erforderlich.
  • Web of Science-Daten: Die ETH-Bibliothek hat die Web of Science-Rohdaten erworben. Auf Anfrage können Angehörige der ETH Zugriff auf diese Daten erhalten. Bitte kontaktieren Sie eressourcen@library.ethz.ch

Zeitungen: Factiva, Nexis Uni

Die Datenbanken Factiva und NexisUni (Tageszeitungen) erlauben TDM, jedoch nur, sofern die benötigten Dokumente manuell heruntergeladen werden.

Beide Datenbanken bieten eine API für die Abfrage grosser Datenmengen an, zu denen die ETH-Bibliothek aber keinen Zugang bietet. Der Grund dafür sind die Nutzungsbeschränkungen und die hohen Preise dieser APIs. Wenn Sie über Forschungsmittel verfügen und diese Option in Erwägung ziehen möchten, können wir Sie bei der Beschaffung der erforderlichen Informationen sowie beim Lizenzierungsprozess unterstützen. Kontaktieren Sie uns über eressourcen@library.ethz.ch.

Frei verfügbare Ressourcen der ETH-Bibliothek

Die ETH-Bibliothek bietet diverse APIs für den direkten Zugriff auf ihre eigenen Ressourcen. Kontakt: api@library.ethz.ch

Frei verfügbare Korpora und Tools

Nachfolgende Ressourcen sind frei verfügbar, verfügen aber möglicherweise über Limitierungen hinsichtlich der Downloadmenge oder Abfragegeschwindigkeit. Informationen finden Sie jeweils direkt auf den Websites der Anbieter.

  • Arxiv
    Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie
  • BioMed Central
    Über 300 Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin
  • Chronicling America: Historic American Newspapers
    Sammlung digitalisierter historischer Zeitungen aus den USA aus den Jahren 1789 bis 1924
  • CrossRef Text and Data Mining Tool
  • Kostenloser, verlagsübergreifender Dienst der Firma CrossRef (u. a. AIP, APA, APS, Elsevier, HighWire Press, Springer, Taylor&Francis, Walter de Gruyter, Wiley) zur Metadatenabfrage. Neben dem Zugriff auf OA-Inhalte können teilweise auch lizenzierte Inhalte über dieses Tool bezogen werden.
  • Digital Public Library of America
    Zugriff auf Digitalisate von Kulturgütern aus amerikanischen Museen, Bibliotheken und Archiven
  • Europeana
    Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen
  • HathiTrust Digital Library
    Digitalisate von über 120 akademischen Institutionen weltweit
  • Internet Archive
    Zugriff auf Millionen von frei zugänglichen Büchern und Texten sowie 26+ Jahre Internethistorie mit der Wayback Machine. Tutorials und API-Liste
  • JSTOR
  • Data-for-Research: Umfangreiche Korpora können aus den JSTOR Archive Collections sowie den frei verfügbaren Inhalten der Dienste JSTOR und Portico zusammengestellt werden.
  • Mit Constellate steht eine Textanalyse-Plattform zur Verfügung, über welche Metadaten, Volltexte und N-Gramme heruntergeladen und Daten visualisiert werden können. Daneben bietet Constellate eine Reihe von Tutorials zum Umgang mit Python und Natural Language Processing (NLP) für die Digital Humanities an. Persönlicher Account erforderlich sowie Zugriff via ETHZ-Netz für den Einbezug nicht-freier Dokumente.
  • New York Times
  • Metadaten und einige Volltexte der New York Times von 1851 bis in die Gegenwart
  • Public Library of Science (PLOS)
    Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag
  • PubMed Central: Databases and Text Mining Tools
    Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv frei zugänglicher Inhalte aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann


Es gibt eine grosse Anzahl frei verfügbarer Korpora und Tools, und die Liste ist keinesfalls vollständig. Wir verweisen gerne auch auf Sammlungen anderer Bibliotheken:

 

Kontakt

Forschungsdienstleistungen
Lizenzen
eressourcen@library.ethz.ch

  • No labels