EP-Volltextdaten für Textanalytik

Bild
Artificial image showing blocks of data and binary code

 

Ein Massendatensatz bestehend aus mit XML-Tags versehenen Bezeichnungen, Zusammenfassungen, Beschreibungen, Ansprüchen und Recherchenberichten von EP-Veröffentlichungen, der die natürliche Sprachverarbeitung ermöglicht.

Dieses Produkt ist speziell auf die Bedürfnisse von Nutzern zugeschnitten, die natürliche Sprachinhalte von Patentveröffentlichungen verarbeiten. Am besten wird es in Kombination mit PATSTAT-Massendatensätzen benutzt.

Mit EP-Volltextdaten für Textanalytik können Sie

  • mit den hoch strukturierten Texten von EP-Veröffentlichungen arbeiten
  • flexibel auf Textkomponenten wie Ansprüche, Zusammenfassungen und Beschreibungen zugreifen
  • die Daten kostenlos mit einer Lizenz für offene Daten weiterverwenden
Erste Schritte
  1. Werfen Sie einen Blick auf die Musterdaten und die weiteren Informationen auf dieser Webseite.
  2. Informationen dazu, wie Sie auf den Datensatz zugreifen können, finden Sie im nachstehenden Nutzerleitfaden.
  3. Laden Sie die Daten von der Google Cloud Platform herunter

Nutzerleitfaden (auf Englisch)

Bedingungen
Bestand  
  • EP-A-Schriften ab 1978
  • EP-B-Schriften ab 1980
Auf dem PCT-Weg eingereichte und von der WIPO in einer der drei Amtssprachen des EPA veröffentlichte europäische Patentanmeldungen (EP-A-Schriften) werden vom EPA nicht erneut veröffentlicht. In diesen Fällen sind nur die Bezeichnungen verfügbar.
 Format Der Datensatz besteht aus rund 35 Dateien mit einer einfachen CSV-Struktur. Jede Datei enthält die Veröffentlichungen zu 100 000 Veröffentlichungsnummern.
 Datenmenge Die Gesamtgröße des Datensatzes beträgt rund 210 GB (dekomprimiert).
 Lieferung Es gibt zwei Möglichkeiten:
 
  • Der Datensatz kann von der Google Cloud Platform heruntergeladen werden.
    Detaillierte Anweisungen finden Sie im Benutzerhandbuch, das Sie unter "Erste Schritte" herunterladen können.
    Von Google erhobene Download-Gebühren sind vom Nutzer zu zahlen.
Der Datensatz wird jährlich aktualisiert.
 Preis Der Datensatz ist kostenlos.
Für Download- oder Versandkosten siehe oben.
Lizenzierung  Das EPA gewährt die Nutzung der "EP-Volltextdaten für die Textanalyse" unter der Lizenz "Creative Commons Attribution 4.0 International Public License" (weitere Informationen).
Verwandte Produkte

EP-Volltextdaten

Europäischer Publikationsserver

Tauschen Sie sich mit EPA-Fachleuten aus oder lassen Sie sich von anderen Nutzern helfen.

Zum Diskussionsforum

Um den für Ihre Anforderungen am besten geeigneten Datensatz oder Web-Dienst auszuwählen, senden Sie uns eine E-Mail an patentdata@epo.org und fordern Sie eine Online-Beratung über Microsoft Teams, Zoom oder Skype an.