EP-Volltextdaten für Textanalytik
Bild
Ein Massendatensatz bestehend aus mit XML-Tags versehenen Bezeichnungen, Zusammenfassungen, Beschreibungen, Ansprüchen und Recherchenberichten von EP-Veröffentlichungen, der die natürliche Sprachverarbeitung ermöglicht.
Dieses Produkt ist speziell auf die Bedürfnisse von Nutzern zugeschnitten, die natürliche Sprachinhalte von Patentveröffentlichungen verarbeiten. Am besten wird es in Kombination mit PATSTAT-Massendatensätzen benutzt.
Mit EP-Volltextdaten für Textanalytik können Sie
- mit den hoch strukturierten Texten von EP-Veröffentlichungen arbeiten
- flexibel auf Textkomponenten wie Ansprüche, Zusammenfassungen und Beschreibungen zugreifen
- die Daten kostenlos mit einer Lizenz für offene Daten weiterverwenden
- Erste Schritte
-
- Werfen Sie einen Blick auf die Musterdaten und die weiteren Informationen auf dieser Webseite.
- Informationen dazu, wie Sie auf den Datensatz zugreifen können, finden Sie im nachstehenden Nutzerleitfaden.
- Laden Sie die Daten von der Google Cloud Platform herunter
Nutzerleitfaden (auf Englisch)
- Bedingungen
-
Bestand - EP-A-Schriften ab 1978
- EP-B-Schriften ab 1980
Format Der Datensatz besteht aus rund 35 Dateien mit einer einfachen CSV-Struktur. Jede Datei enthält die Veröffentlichungen zu 100 000 Veröffentlichungsnummern. Datenmenge Die Gesamtgröße des Datensatzes beträgt rund 210 GB (dekomprimiert). Lieferung Es gibt zwei Möglichkeiten:
- Der Datensatz kann von der Google Cloud Platform heruntergeladen werden.
Detaillierte Anweisungen finden Sie im Benutzerhandbuch, das Sie unter "Erste Schritte" herunterladen können.
Von Google erhobene Download-Gebühren sind vom Nutzer zu zahlen.
Preis Der Datensatz ist kostenlos.
Für Download- oder Versandkosten siehe oben.Lizenzierung Das EPA gewährt die Nutzung der "EP-Volltextdaten für die Textanalyse" unter der Lizenz "Creative Commons Attribution 4.0 International Public License" (weitere Informationen). - Verwandte Produkte