Données EP en texte intégral pour l’analyse textuelle

Image
Artificial image showing blocks of data and binary code

 

Un jeu de données de masse composé de titres en balises XML, d’abrégés, de descriptions, de revendications et de rapports de recherche de publications EP et conçu pour faciliter le traitement du langage naturel.

This product is specifically tailored to the needs of users who process the natural language content of patent publications. It is best used in combination with PATSTAT bulk data sets.

Les données EP en texte intégral pour l’analyse textuelle vous permettent:

  • de travailler sur les textes fortement structurés de publications EP
  • d’accéder avec flexibilité à des éléments de texte tels que des revendications, des abrégés, des descriptions
  • de réutiliser gratuitement les données sur la base d’une licence de données ouvertes
Premiers pas
  1. Vérifiez les données type et les autres informations disponibles sur cette page Internet.
  2. Pour avoir des informations sur l’accès au jeu de données, consultez le guide de l’utilisateur ci-dessous.
  3. Lancez le téléchargement des données à partir de la plateforme Google Cloud ou consultez l'onglet "Conditions" pour voir les autres accès.

Guide de l’utilisateur (en anglais)

Conditions
Couverture  
  • Documents EP-A depuis 1978
  • Documents EP-B depuis 1980
Les demandes de brevet européen (documents EP-A) déposées via la voie PCT et publiées par l’OMPI dans l’une des trois langues officielles de l’OEB ne sont pas republiées par l’OEB. Dans ces cas-là, seuls les titres sont disponibles.
 Format Le jeu de données se compose d’environ 35 fichiers présentant une structure CSV simple. Chaque fichier contient les publications associées à 100 000 numéros de publication.
 Volume La taille totale du jeu de données est d’environ 210 Go (version dézippée).
 Livraison Il existe deux options :
 
  • Le jeu de données peut être téléchargé à partir de la plateforme Google Cloud
    Vous trouverez des instructions détaillées dans le Guide de l'utilisateur, téléchargeable à partir de l'onglet "Premiers pas".
    Les taxes de téléchargement facturées par Google doivent être acquittées par l’utilisateur.
Le jeu de données est mis à jour chaque année.
 Prix Le jeu de données est gratuit.
Voir ci-dessus pour les frais de téléchargement ou de livraison.
Licence  L'OEB accorde le droit d'utiliser le service données liées ouvertes EP dans le cadre de la licence publique Creative Commons Attribution 4.0 International ("Creative Commons Attribution 4.0 International Public License") (en savoir plus).
Produits apparantés

Données EP en texte intégral

Serveur de publication européen