Welche Massendatensätze passen am besten zu Ihren Bedürfnissen? (XLS, 23 KB) (auf Englisch)
Ein Massendatensatz bestehend aus mit XML-Tags versehenen Bezeichnungen, Zusammenfassungen, Beschreibungen, Ansprüchen und Recherchenberichten von EP-Veröffentlichungen, der die natürliche Sprachverarbeitung ermöglicht.
Dieses Produkt ist speziell auf die Bedürfnisse von Nutzern zugeschnitten, die natürliche Sprachinhalte von Patentveröffentlichungen verarbeiten. Am besten wird es in Kombination mit PATSTAT-Massendatensätzen benutzt.
Bestand |
|
---|---|
Format | Der Datensatz besteht aus rund 35 Dateien mit einer einfachen CSV-Struktur. Jede Datei enthält die Veröffentlichungen zu 100 000 Veröffentlichungsnummern. |
Datenmenge | Die Gesamtgröße des Datensatzes beträgt rund 210 GB (dekomprimiert). |
Lieferung |
Es gibt zwei Möglichkeiten:
|
Preis |
Der Datensatz ist kostenlos. Für Download- oder Versandkosten siehe oben. |
Lizenzierung | Das EPA gewährt die Nutzung der "EP-Volltextdaten für die Textanalyse" unter der Lizenz "Creative Commons Attribution 4.0 International Public License" (weitere Informationen). |