Text and Data Mining (TDM) ist ein Verfahren zur Analyse grosser Text-/Datensammlungen. Es ermöglicht die Identifizierung von Beziehungen, Mustern und/oder Trends, die ansonsten nicht ohne Weiteres erkannt werden können. Der vielfältige Bestand der ETH-Bibliothek kann unter bestimmten Voraussetzungen für TDM verwendet werden, dabei sollten die folgenden Hinweise unbedingt beachtet werden.
Rechtliches
Am 01. April 2020 wurde das Bundesgesetz über das Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz, URG) geändert und ein neuer Artikel (24d) eingeführt, der die Vervielfältigung von Werken für die TDM-Analyse (unter der Voraussetzung, dass der Zugang rechtmässig ist und den technischen Anforderungen entspricht) sowie die Aufbewahrung des TDM-Korpus zu Archivierungs- und Sicherungszwecken erlaubt. Dieses Recht erstreckt sich jedoch nicht auf die Nutzung der Kopien in einem anderen Kontext (z. B. die Verbreitung und Veröffentlichung der verwendeten Werke).
Bei den Ressourcen, auf welche über die Bibliothek zugegriffen wird (institutionelle Abonnements), haben die Lizenzvereinbarungen mit den jeweiligen Anbietern Vorrang vor den Bestimmungen des URG. In den ausgehandelten Lizenzvereinbarungen kann TDM ausdrücklich erlaubt oder verboten sein, oder es kann ein Vertragszusatz oder sogar eine spezielle Vereinbarung zwischen der Forscherin oder dem Forscher und dem Verlag nötig sein. Wir sind bestrebt, mit unseren Anbietern Lösungen zu finden, welche TDM mit den lizenzierten Ressourcen möglichst uneingeschränkt erlauben.
Unautorisiertes TDM, insbesondere durch Crawler, kann gegen die zwischen der ETH Zürich und den Anbietern vereinbarten Lizenzbestimmungen vorstossen und allenfalls einen Zugriffsverlust für die ganze ETH Zürich nach sich ziehen.
Erlaubte Nutzung
Die durch die ETH-Bibliothek lizenzierten Ressourcen stehen ausschliesslich den Angehörigen der ETH Zürich für die nicht kommerzielle, wissenschaftliche Forschung zur Verfügung.
Bitte kontaktieren Sie uns, falls Sie ein TDM-Projekt planen, welches auf von der ETH-Bibliothek lizenzierten Medien basiert. Wir helfen Ihnen gerne bei den lizenzrechtlichen Abklärungen sowie bei der Beschaffung grösserer Datenmengen.
Wir empfehlen Ihnen, ausreichend Zeit für Abklärungen und Datenbeschaffung einzuplanen.
Lizenzierte Korpora, Tools, APIs
Im Folgenden finden Sie eine Auswahl lizenzierter wissenschaftlicher Ressourcen, welche über eine API (Application Programming Interface) oder ein designiertes Auswertungstool genutzt werden können, sowie Korpora, die spezifisch für TDM zur Verfügung stehen.
Digital Science
- Dimensions Analytics API: Die Dimensions Analytics API ermöglicht die Durchführung von Analysen in der Dimensions-Analytics-Datenbank, welche Metadaten zu Publikationen, Patenten, Datensätzen, klinischen Studien und politischen Dokumenten enthält.
- Für ETH-Angehörige steht eine limitierte Anzahl Zugriffe bereit. Bitte kontaktieren Sie eressourcen@library.ethz.ch
Elsevier
- ScienceDirect, Scopus API: Elsevier erlaubt Forschenden, über die API abonnierte Inhalte auf ScienceDirect für nichtkommerzielle Zwecke zu durchsuchen. Nach der Registrierung erhalten Forschende einen API-Key.
- Scopus-Daten: Die ETH-Bibliothek hat die Scopus-Rohdaten erworben. Auf Anfrage können Angehörige der ETH Zugriff auf diese Daten erhalten. Bitte kontaktieren Sie eressourcen@library.ethz.ch
Gale Historical Archives
Von Gale liegen die Metadaten und Inhalte folgender Sammlungen im XML-Format vor:
- The Times Historical Archive 1785–2019
- The Economist Historical Archive 1843–2020
- Nineteenth Century Collections Online (NCCO)
- Science, Technology, and Medicine, Part I (1780–1925) Interdisziplinäre Sammlung digitalisierter Primärquellen (Zeitschriften, Bücher, Manuskripte) zur Entwicklung der Wissenschaft im 19. Jahrhundert. Titelliste
- Science, Technology, and Medicine, Part II Erweiterung zu Science, Technology, and Medicine, Part I. Titelliste
- Mapping the World: Maps and Travel Literature Sammlung digitalisierter Primärquellen (Zeitschriften, Bücher, Manuskripte) zu Reisen und Entdeckungen im 19. Jahrhundert. Titelliste
- Photography: The World Through the Lens Sammlung digitalisierter Primärquellen (Zeitschriften, Bücher, Manuskripte) zur Photographie im 19. Jahrhundert. Titelliste
- Eighteenth Century Collections Online (ECCO) II: Medicine, Science and Technology. Interdisziplinäre Sammlung digitalisierter Primärquellen des 18. Jahrhunderts aus den Bereichen Medizin, Naturwissenschaften und Technologie. Titelliste. ECCO und andere Korpora des 18. Jahrhunderts stehen auch frei via Text Creation Partnership zur Verfügung.
Wenn Sie mehr Informationen erhalten und die Gale-Archive nutzen möchten, kontaktieren Sie eressourcen@library.ethz.ch
Linguistic Data Consortium (LDC)
Das Linguistic Data Consortium sammelt Sprach- und Textkorpora für linguistische Forschungs- und Entwicklungszwecke und entwickelt Tools für deren Bearbeitung. Angehörigen der ETH stehen ausgewählte Korpora zur Verfügung, registrieren Sie sich mit der ETHZ-E-Mailadresse und wählen Sie ETH Zurich als Organisation.
ProQuest TDM Studio
Mit dem TDM Studio können folgende Daten analysiert und visualisiert werden:
- Wall Street Journal 1889–2002
- Materials Science Collection, Materials Science Database, Engineering Collection, Engineering Database, Engineering Index
- Diverse frei zugängliche Ressourcen
Für die Nutzung der Visualisation Tools registrieren Sie sich mit Ihrer ETHZ-E-Mailadresse. Bei Problemen kontaktieren Sie bitte eressourcen@library.ethz.ch
Für erweiterte Analysen steht zudem eine Workbench für Forschende, die mit R oder Python in Jupyter-Notebooks programmieren möchten, zur Verfügung. Bei Interesse wenden Sie sich bitte ebenfalls an eressourcen@library.ethz.ch
Swissdox@LiRI
Swissdox@LiRI: Die ETH-Bibliothek unterstützt die Kooperation zwischen Swissdox mit dem LiRI (Linguistic Research Infrastructure) der Universität Zürich. Es steht ein Textkorpus zur Verfügung, welches aus rund 29 Millionen Pressebeiträgen aus Print- und Online-Medien sowie aus Transkripten und Untertitelbeständen von Radio- und TV-Sendungen besteht. Es deckt mehrere Jahrzehnte ab und wird täglich mit 5000 bis 6000 neuen Pressebeiträgen aktualisiert, vornehmlich aus den deutsch- und französischsprechenden Teilen der Schweiz. Neben der Möglichkeit der klassischen deskriptiven, inferenziellen, explorativen oder kontextbasierten Datenanalyse eignet sich Swissdox@LiRI auch als Rohmaterial für Big-Data-Analysen und für das Trainieren von Algorithmen oder von neuronalen Netzwerken.
Web of Science
- Web of Science Starter API (Free Plan): Abfrage vordefinierter Metadatenfelder, limitiert auf 50 requests/day, 50 000 documents/year. Eine Registrierung auf dem Clarivate Developer Portal ist erforderlich.
- Web of Science Expanded API: ermöglicht eine umfangreiche Suche im Web of Science, um vollständige Metadaten auf Artikelebene aus einer erweiterten Liste von Feldern abzurufen, einschliesslich der Anzahl der zitierten Artikel, der Adressen und Zugehörigkeiten der Mitwirkenden sowie Finanzierungsdaten.
Die Nutzung der Web of Science Expanded API untersteht gewissen Einschränkungen, bitte kontaktieren Sie eressourcen@library.ethz.ch
- Web of Science-Daten: Die ETH-Bibliothek hat die Web of Science-Rohdaten erworben. Auf Anfrage können Angehörige der ETH Zugriff auf diese Daten erhalten. Bitte kontaktieren Sie eressourcen@library.ethz.ch
Frei verfügbare Ressourcen der ETH-Bibliothek
Die ETH-Bibliothek bietet diverse APIs für den direkten Zugriff auf ihre eigenen Ressourcen. Kontakt: api@library.ethz.ch
Frei verfügbare Korpora und Tools
Nachfolgende Ressourcen sind frei verfügbar, verfügen aber möglicherweise über Limitierungen hinsichtlich der Downloadmenge oder Abfragegeschwindigkeit. Informationen finden Sie jeweils direkt auf den Websites der Anbieter.
- Arxiv
Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie - BioMed Central
Über 300 Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin - Chronicling America: Historic American Newspapers
Sammlung digitalisierter historischer Zeitungen aus den USA aus den Jahren 1789 bis 1924 - CrossRef Text and Data Mining Tool
- Kostenloser, verlagsübergreifender Dienst der Firma CrossRef (u. a. AIP, APA, APS, Elsevier, HighWire Press, Springer, Taylor&Francis, Walter de Gruyter, Wiley) zur Metadatenabfrage. Neben dem Zugriff auf OA-Inhalte können teilweise auch lizenzierte Inhalte über dieses Tool bezogen werden.
- Digital Public Library of America
Zugriff auf Digitalisate von Kulturgütern aus amerikanischen Museen, Bibliotheken und Archiven - Europeana
Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen - HathiTrust Digital Library
Digitalisate von über 120 akademischen Institutionen weltweit - Internet Archive
Zugriff auf Millionen von frei zugänglichen Büchern und Texten sowie 26+ Jahre Internethistorie mit der Wayback Machine. Tutorials und API-Liste - JSTOR
- Data-for-Research: Umfangreiche Korpora können aus den JSTOR Archive Collections sowie den frei verfügbaren Inhalten der Dienste JSTOR und Portico zusammengestellt werden.
- Mit Constellate steht eine Textanalyse-Plattform zur Verfügung, über welche Metadaten, Volltexte und N-Gramme heruntergeladen und Daten visualisiert werden können. Daneben bietet Constellate eine Reihe von Tutorials zum Umgang mit Python und Natural Language Processing (NLP) für die Digital Humanities an. Persönlicher Account erforderlich sowie Zugriff via ETHZ-Netz für den Einbezug nicht-freier Dokumente.
- New York Times
- Metadaten und einige Volltexte der New York Times von 1851 bis in die Gegenwart
- Public Library of Science (PLOS)
Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag - PubMed Central: Databases and Text Mining Tools
Diverse frei zugängliche Mining Tools, mit denen PubMed Central, ein Archiv frei zugänglicher Inhalte aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann
Es gibt eine grosse Anzahl frei verfügbarer Korpora und Tools, und die Liste ist keinesfalls vollständig. Wir verweisen gerne auch auf Sammlungen anderer Bibliotheken:
- Liste frei zugänglicher Datenquellen sowie eine Werkzeugsammlung für die datenbasierte Forschung der UB Bern
- Sammlung frei verfügbarer APIs für die computergestützte Forschung der MIT Libraries
- Sammlung frei verfügbarer Tools für die qualitative Datenanalyse, zusammengestellt von der Carnegie Mellon University Library