Accueil Revues Revue Numéro Article

Documentaliste-Sciences de l'Information

2001/2 (Vol. 38)

  • Pages : 60
  • DOI : 10.3917/docsi.382.0100
  • Éditeur : A.D.B.S.

ALERTES EMAIL - REVUE Documentaliste-Sciences de l'Information

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 100 - 111 Article suivant
1

L’ACTUALITE QUOTIDIENNE ATTIRE NOTRE ATTENTION sur les enjeux et les défis de la propriété industrielle : brevetabilité du vivant et des logiciels, médicaments brevetés et médicaments génériques, procès en contrefaçon, etc. Ces débats de société mettent en lumière l’information en propriété industrielle et en particulier l’information relative aux brevets, qui n’est pas toujours bien connue, reconnue, rédigée, recherchée et exploitée.

2

Le souci d’une meilleure connaissance de cette information impose que l’accès en soit aisé, et adapté à chacune des nombreuses et différentes catégories d’utilisateurs : conseils en propriété industrielle, services de propriété industrielle des grandes entreprises, PME/PMI, recherche publique, écoles d’ingénieurs, étudiants en droit, etc.

3

Si les spécialistes de l’information professionnelle disposent, depuis plus de vingt-cinq ans, d’accès en ligne performants aux banques de données sur les brevets (brevets nationaux, brevets européens, demandes internationales), ce n’était pas le cas, jusqu’à une époque récente, pour les autres utilisateurs potentiels. La mise à disposition de ces données sur Internet les a rendues libres d’accès et souvent gratuites, sans pour autant offrir aux publics occasionnels des méthodes efficaces de recherche ni sensibiliser de nouveaux usagers à l’utilisation de cette information technique.

4

C’est pour répondre à cette demande, pour créer le chaînon manquant entre une information considérable et un nombre chaque jour croissant d’usagers potentiels qui n’utilisent guère ou pas du tout cette information que l’Institut national de la propriété industrielle (INPI) a développé un système d’accès aux données brevets « en langage naturel », c’est-à-dire par l’expression entièrement libre d’une question dans le langage courant de l’usager qui n’a pas à se préoccuper de quelque organisation du vocabulaire et de la syntaxe.

5

Nous présenterons d’abord l’objectif de cette réalisation, situé dans les missions de l’INPI et dans la complémentarité des services d’information déjà existants. Les différentes étapes de son développement sont ensuite décrites, avec les évolutions des méthodes et des techniques, inévitables dans un travail qui s’est étendu sur plusieurs années. Les caractéristiques de ce service et de son utilisation actuelle seront enfin précisées, ainsi que les développements futurs - la spécificité d’une telle réalisation, comme de tout système à base de connaissances, étant son évolution continue.

1 - Les objectifs d’un accès en langage naturel

6

La diffusion des informations issues des titres de propriété industrielle et de l’immatriculation des entreprises est la mission première de l’INPI, définie par le Code de la propriété intellectuelle [1]. Depuis longtemps déjà, cela ne signifie pas seulement que l’Institut doit permettre l’accès aux documents papier dans les salles de lecture et, pour les documents les plus anciens, aux archives. Cela implique aussi la mise à disposition de différents services d’information, sur différents supports, pour répondre aux besoins toujours plus spécifiques des usagers que l’on peut regrouper, de façon manichéenne et caricaturale, en deux catégories :

7

- les utilisateurs professionnels fréquents habitués à la pratique de logiciels de recherche puissants mais complexes et au paiement de l’information ;

8

- le public occasionnel, mal défini (PMI, ingénieurs, recherche publique, étudiants), non habitué au paiement de l’information mais exploitant plutôt les sources d’information gratuite de l’Internet [2].

Offrir un accès aux usagers non professionnels

9

Le premier public, les usagers professionnels, pratique depuis de nombreuses années les banques de données de propriété industrielle (brevets, marques et, plus récemment, dessins et modèles) sur les serveurs tels que Questel.Orbit, STN International et Dialog.

10

Le second, en particulier en France, a accédé plus tardivement à ces données avec le Minitel et le cédérom. En 1988, a été offert un accès aux informations sur les marques françaises et les demandes internationales en vigueur puis, après leur création, sur les marques communautaires (ICIMARQUES 08 36 29 36 30) ; et aux informations relatives aux entreprises françaises immatriculées au Registre du commerce et des sociétés (3617 EURIDILE). Pour ce même public, une demande guidée était aussi proposée en local par le cédérom BREF : données bibliographi-ques, abrégé en français et dessin de la première page des brevets français, européens et des demandes internationales.

11

Les brevets ne pouvaient pas échapper à l’attrait du Minitel ! Et, de fait, un service fut ouvert en 1990 (3617 INFOBREVET), qui fournissait un accès facilité aux trois derniers mois de demandes publiées et de brevets délivrés, français et européens. La méthode d’accès était la Classification internationale des brevets (CIB) [3], utilisée par la plupart des offices nationaux et internationaux de brevets (voir le hors texte pages suivantes). L’organisation de la CIB est complexe, mais un cheminement était proposé par écrans successifs de hiérarchie descendante : sections, sous-sections, classes, sous-classes, etc. À chaque niveau, le nombre de brevets était indiqué et, en raison du nombre limité de brevets proposés (environ 30 000), l’utilisateur obtenait rapidement, par choix successifs, un petit nombre de résultats lui permettant d’accéder au contenu des références des brevets français et européens.

12

Ce service fut néanmoins peu utilisé et fermé après quelques années. Les raisons de cet échec : une définition incertaine d’Infobrevet, service à la fois insuffisant pour les professionnels qui disposaient déjà par ailleurs d’outils efficaces de veille et trop complexe pour les autres publics pour qui la CIB, même explicitée par le développé de ses intitulés, n’est pas un instrument de recherche très facile à manier. Le rappel de cet échec indique bien que, si la CIB est un élément incontournable de l’information sur les brevets, il faut savoir l’appréhender !

13

Ce public occasionnel des données de propriété industrielle a vu enfin ses demandes satisfaites avec les accès Internet. Par exemple à partir du site de l’INPI ou par des accès directs : informations sur les brevets (inpi.fr), transfert de technologies (transinove.com), marques (icimarques. com), dessins et modèles (inpi.fr), entreprises (euridile.com) [4].

14

Il n’en reste pas moins que, si la structure de l’information relative aux marques, aux dessins et modèles et aux entreprises est relativement simple et permet, à partir de trois ou quatre index, d’effectuer une recherche efficace, il n’en va pas de même pour les brevets où les accès professionnels recourent jusqu’à trente ou quarante index différents [5].

Problématique de la recherche sur les brevets

15

Mise à part l’interrogation d’index spécifiques comme ceux des dates, des numéros de bulletin, des noms d’inventeurs ou de déposants, le problème posé est l’interrogation efficace du domaine technique, donc du contenu du brevet. Dans de nombreux cas, les résultats d’une recherche de brevets devraient être exhaustifs, toute omission pouvant s’avérer lourde de conséquences. Il y a trois possibilités de recherche à partir du contenu technique du brevet : par les mots du titre et de l’abrégé, par le texte intégral, par les indices de la CIB.

16

Dans la recherche des mots du titre et de l’abrégé, la rédaction libre de ces deux informations par le déposant lui-même ne sont pas gages d’une information pertinente et complète, au contraire. C’est pourquoi l’essentiel de la valeur ajoutée par des producteurs de banques de données comme Derwent revient à enrichir titre et abrégé des termes essentiels qui ne s’y trouvent pas. De plus, le langage du déposant, à la fois dans le choix des termes et dans les relations qui existent entre ces termes, ne correspond pas obligatoirement au langage de celui qui interroge.

17

La recherche des termes du texte intégral présente les mêmes inconvénients de rédaction libre que la précédente avec, en plus, un bruit très important engendré par le très grand volume d’informations non contrôlées. Même si le bruit est inhérent à toute recherche exhaustive, il y a quand même des limites à ne pas dépasser !

18

Au terme de cette réflexion apparaît la nécessité de rapprocher deux éléments très différents, voire opposés : la libre expression de la question (d’un non-spécialiste) et la CIB, classification indispensable pour atteindre l’objet d’une invention et utilisée dans toutes les banques de données brevets.

La Classification internationale des brevets

Le système d’accès aux brevets en langage naturel utilisant la Classification internationale des brevets comme interface entre l’expression de la question et les brevets détenus, il est utile d’en présenter les caractéristiques.

La divulgation de l’information technique contenue dans les documents de brevet (demandes de brevet, brevets ou titres similaires délivrés par les administrations compétentes) est une composante fondamentale du système des brevets. Elle n’a toutefois de véritable sens que si l’information concernée peut être facilement retrouvée au sein de la documentation internationale qui contient approximativement trente millions de documents.

Le codage des informations techniques contenues dans les documents de brevet est donc indispensable au système des brevets. Compte tenu de l’usage international qui est fait de la documentation brevets, il est nécessaire de disposer d’un codage commun à un maximum d’administrations du monde entier publiant ces documents, et qui soit par ailleurs indépendant de la langue du document de brevet.

De cette constatation est née la Classification internationale des brevets (CIB), instituée en 1971 par l’Arrangement de Strasbourg sur la Classification internationale des brevets. Entrée en application en 1974, la CIB est administrée par l’Organisation mondiale de la propriété intellectuelle (OMPI), à Genève. Elle est publiée en deux versions authentiques, les versions française et anglaise, mais elle est aussi éditée dans d’autres langues (allemand, espagnol, russe, japonais, etc.).

Actuellement, la CIB fait l’objet d’une révision continue par les offices de brevets des pays membres de l’Arrangement de Strasbourg. Une nouvelle édition est publiée tous les cinq ans pour tenir compte de l’évolution technologique et de l’afflux de nouvelles inventions (400 000 environ s’ajoutent chaque année à la documentation), avec environ 5 % de modifications par rapport à l’édition précédente. Les modifications sont effectuées sur la base du contenu des brevets déjà déposés auprès des offices. La septième édition est en vigueur pour les documents de brevets publiés depuis le 1er janvier 2000.

Fonctionnement du système

Avant d’être publié par une administration, un document de brevet est étudié par un examinateur spécialiste du domaine technique concerné, qui détermine le ou les indices de la CIB représentant l’invention, c’est-à-dire l’information ajoutée à l’état connu de la technique. L’attribution des symboles par les administrations chargées de délivrer les brevets assure objectivité et continuité dans le codage de l’information.

Dans le monde, plus d’une centaine d’offices de brevets apposent les symboles de la CIB sur les documents qu’ils publient.

Structure

Les symboles de la CIB sont des chaînes alphanumériques indépendantes de la langue du document de brevet ; ils correspondent chacun à une définition précise.

La CIB couvre tous les domaines techniques susceptibles de faire l’objet de brevets, soit de manière détaillée, soit de manière générale. Elle est subdivisée selon une structure hiérarchique (arborescente) dont le niveau le plus élevé est la section. Il y a huit sections représentées chacune par une lettre :

  1. Nécessités courantes de la vie

  2. Techniques industrielles diverses ; Transports

  3. Chimie ; Métallurgie

  4. Textiles ; Papier

  5. Constructions fixes

  6. Mécanique ; Éclairage ; Chauffage ; Armement ; Sautage

  7. Physique

  8. Électricité

Un Guide d’utilisation faisant partie intégrante de la CIB en donne le mode d’emploi.

Chaque section est divisée en un certain nombre de classes, par exemple A01, B29 (lettre de la section + nombre à deux chiffres).

Chaque classe est elle-même constituée de sous-classes (symbole de la classe + une lettre) telles que C07D, D21H, G10K.

À leur tour, les sous-classes sont subdivisées en groupes principaux dont le symbole reprend celui de la sous-classe auquel on ajoute un nombre de un à trois chiffres suivi de /00, par exemple C07D 265/00, G10K 11/00.

Les groupes principaux sont encore subdivisés en sous-groupes qui reprennent le symbole de leur groupe principal jusqu’à la barre oblique incluse, mais le double zéro (00) y est remplacé par un nombre qui peut avoir de deux à cinq chiffres, tel que C07D 265/02, G10K 11/165.

La septième édition (janvier 2000) de la CIB comprend 118 classes, 628 sous-classes, 7 340 groupes principaux et 61 750 sous-groupes. Comme les documents de brevet sont en principe classés au niveau du groupe principal ou du sous-groupe, il y a en fait plus de 69 000 entrées possibles pour classer ou chercher un document.

Chaque sous-groupe est précédé d’un ou plusieurs points (jusqu’à 10) et c’est uniquement le nombre de points qui détermine la position hiérarchique du sous-groupe. Ainsi un sous-groupe à deux points dépend d’un sous-groupe à un point qui lui-même dépend de son groupe principal à lire dans le contexte de la sous-classe, et ainsi de suite. À noter qu’un groupe à n points peut se trouver séparé du groupe à n-1 points dont il dépend par d’autres groupes parallèles à n points et leurs propres sous-groupes.

À titre d’illustration, le groupe principal A61F 9/00 et ses sous-groupes sont reproduits ci-contre, précédés du titre de la sous-classe A61F. L’organisation hiérarchique de ce groupe et de ses sous-groupes peut être représentée par le diagramme proposé.

Ce schéma montre que le nombre de deux à cinq chiffres (exemple /007) placé après la barre oblique dans le numéro du groupe n’a aucun rapport avec la position hiérarchique de ce dernier ; il ne peut donc pas être utilisé pour effectuer des troncatures lors de recherches.

Pour faciliter la lecture des entrées, leur libellé est réduit autant que possible, mais il ne faut jamais perdre de vue qu’il contient implicitement le texte de toutes les entrées hiérarchiquement supérieures, ce qui signifie que les libellés ne sont en général pas autosuffisants. Ainsi, dans l’exemple cité ci-dessus, le groupe A61F 9/01 concerne uniquement le traitement chirurgical de la cornée (procédés et dispositifs) utilisant un laser, puisque ce groupe dépend du groupe A61F 9/008 lui-même indenté sous A61F 9/007.

Destinée à couvrir des inventions qui par essence ne sont pas connues lors de son élaboration, la CIB utilise des expressions techniques, mais aussi beaucoup de périphrases descriptives aptes à couvrir les futures inventions en les définissant sans ambiguïté soit de manière détaillée, soit de manière plus générale.

Les libellés des sous-classes, des groupes principaux et des sous-groupes décrivent précisément le contenu de ces entrées et doivent être utilisés en respectant exactement le contenu du texte.

Toutefois, le contenu des entrées est éventuellement modifié par des indications complémentaires :

  • « renvois » qui indiquent entre parenthèses que certains sujets, qui devraient normalement se trouver à cet endroit d’après le libellé, sont en fait classés ailleurs ;

  • règles à suivre pour le classement, en particulier règles de priorité qui indiquent quelle entrée doit être choisie lorsqu’un objet technique répond à la définition de plus d’une entrée (voir le groupe A61F 9/013 dans l’exemple ci-contre) ;

  • définition particulière de certains termes.

De tels correctifs apportés à une entrée s’appliquent systématiquement aux entrées qui en dépendent hiérarchiquement.

Ajoutons encore que certaines sous-classes comportent des schémas généraux, qui jouent le rôle de tables des matières indiquant les thèmes généraux couverts par la sous-classe et donnant les numéros de groupes principaux correspondants. Par ailleurs, plusieurs groupes principaux peuvent être rassemblés sous un même chapeau nommé rubrique-guide qui ne comporte pas de symbole alphanumérique mais indique les sujets communs à ces groupes principaux et contient éventuellement des renvois qui leur sont applicables.

À côté de la CIB proprement dite, il existe un index des mots clés destiné à faciliter la recherche d’un classement à partir d’un mot.

Détermination du classement

Pour attribuer un classement à un document de brevet, l’examinateur doit étudier l’invention de manière globale et non classer ses parties constitutives. Il cherche le groupe le plus indenté dans la hiérarchie dont la définition correspond encore à l’invention, ce qui signifie qu’un document peut être classé dans un groupe principal si aucun groupe à un point ne peut être attribué.

Dans la mesure du possible, la CIB est conçue pour qu’un symbole suffise à caractériser une invention, mais un document peut comporter plusieurs symboles pour représenter des variantes, par exemple un produit et son procédé de fabrication, etc.

Il existe deux philosophies principales pour classer les inventions : soit le classement est axé sur la fonction (les inventions sont rangées selon leur structure intrinsèque, par exemple les composés chimiques sont répertoriés selon leur formule chimique), soit il est axé selon leur domaine d’application (dans l’industrie automobile, dans l’industrie textile, etc.). La CIB est un système mixte, mais elle est majoritairement axée sur la fonction afin de faciliter les recherches d’antériorité dans le cadre de la procédure de délivrance des brevets en évitant l’atomisation des informations par domaine d’application. Le classificateur, lorsqu’il a le choix entre classement selon la fonction et classement selon l’application, devra en outre donner la priorité au premier, à moins que l’application ne soit déterminante pour la structure de l’invention.

Lorsqu’ils ne sont pas explicitement prévus dans des entrées spécifiques, les procédés de fabrication sont classés avec les produits fabriqués ; de même, les appareils pour la mise en œuvre des procédés peuvent être classés avec les procédés s’ils n’ont pas d’entrée propre.

La CIB et l’accès à l’information brevets

L’aperçu du système de la CIB qui est donné ci-dessus montre qu’il s’agit d’un système fortement structuré, avec un formalisme très développé. Les offices de brevet qui utilisent la CIB ont réaffirmé récemment leur attachement à ce système car, si son utilisation peut paraître difficile au premier abord, elle reste aujourd’hui encore irremplaçable en dépit des progrès incontestables des autres techniques de recherche, notamment parce que les symboles sont attribués par des professionnels et qu’elle permet de surmonter l’obstacle des langues.

C’est la raison pour laquelle l’INPI considère la CIB comme l’intermédiaire incontournable de l’accès à l’information brevets et a développé un outil d’interrogation en langage naturel pour la mettre à la portée des usagers non spécialistes.

19

Mais elle est de grande complexité : 69 000 entrées, 15 niveaux hiérarchiques, sans oublier un vocabulaire et un formalisme difficiles à appréhender par l’utilisateur final [6].

20

La CIB présente l’avantage de proposer des indices et des traductions des intitulés exactement équivalents dans différentes langues : français, anglais, allemand, espagnol, etc. Ceci permet, une fois le travail effectué dans une langue, de passer à moindres temps et coût dans une autre langue, toutes les composantes de l’indexation (notamment sa profondeur en fonction des différents secteurs techniques sur lesquels peut porter la recherche) étant déjà réunies.

21

L’accès en langage naturel à l’information brevets passe donc par l’indexation de la CIB à l’aide d’une équation de recherche issue de la question enrichie aux niveaux sémantique et syntaxique. Le résultat intermédiaire obtenu est un (ou des) indice(s) CIB. La navigation permet éventuellement d’obtenir des codes plus spécifiques, plus génériques ou voisins, qui donneront accès aux numéros des brevets, à leur référence et au texte intégral.

2 - Réalisation du système d’accès en langage naturel

22

L’importance du travail à réaliser et la difficulté de définir a priori les caractéristiques exactes d’un système qui ne devait être opérationnel que plusieurs années plus tard ont déterminé deux étapes successives : la mise au point d’un prototype et la réalisation du système lui-même, envisageable seulement après l’évaluation des réponses obtenues à partir du prototype. Pour effectuer ce travail, l’INPI a fait appel à une société spécialiste en informatique linguistique, GSI-Erli (devenue ensuite Erli puis LexiQuest), créée en 1977 et bénéficiant de vingt ans d’expérience dans le traitement du langage naturel. LexiQuest a mené à bien d’importantes réalisations linguistiques comme l’annuaire électronique de France Télécom, l’accès aux pages jaunes dans plusieurs langues et le langage contrôlé pour l’industrie aérospatiale [7] [8].

L’ensemble du travail a demandé l’engagement important d’une équipe de l’INPI (spécialistes de la Classification internationale des brevets, des banques de données et de l’informatique) pour définir avec Erli les caractéristiques du système, valider les résultats de chaque étape du travail, et demander les corrections et améliorations du système.

Le groupe principal a61f 9/00 et ses sous-groupes, précédés du titre de la sous-classe a61f

A 61 F

FILTRES IMPLANTABLES DANS LES VAISSEAUX SANGUINS ; PROTHÈSES ; DISPOSITIFS D’ORTHOPÉDIE, DE SOINS OU DE CONTRACEPTION ; FOMENTATION ; TRAITEMENT OU PROTECTION DES YEUX OU DES OREILLES ; BANDAGES, PANSEMENTS OU GARNITURES ABSORBANTES ; NÉCESSAIRES DE PREMIER SECOURS (prothèses dentaires a61c) [6]

9 / 00

Procédés ou dispositifs pour le traitement des yeux ; Dispositifs pour mettre en place des verres de contact ; Dispositifs pour corriger le strabisme ; Appareils pour guider les aveugles ; Dispositifs protecteurs pour les yeux, portés sur le corps ou dans la main (casquettes protégeant les yeux A42B 1/06 ; visières pour casques A42B 3/22 ; accessoires pour aider les invalides à se déplacer A61H 3/00 ; bains d’œil A61H 35/02 ; lunettes de soleil ou lunettes d’automobiliste ayant les mêmes caractéristiques que des lunettes G02C)

9 / 007

• Procédés ou dispositifs pour la chirurgie de l’œil [6]

9 / 008

•• utilisant un laser [7]

9 / 009

••• Dispositifs auxiliaires destinés à réaliser un contact avec le globe oculaire et un couplage de la lumière laser [7]

9 / 01

••• Traitement de la cornée [7]

9 / 011

••• Procédés ou dispositifs invasifs [7]

9 / 013

•• pour la compensation de la réfraction oculaire (A61F 9/008 a priorité)[6,7]

9 / 02

• Lunettes protectrices

9 / 04

• Masques pour les yeux

9 / 06

•• Masques, écrans ou cagoules pour soudeurs (dispositifs de sécurité pour la soudure en général F16P 1/00)

9 / 08

• Dispositifs ou méthodes permettant au patient de voir en remplaçant la perception directe de la vue par une autre

Organisation hiérarchique du groupe A61F 9/00 et de ses sous-groupes

Mise au point du prototype

23

Cette phase a duré un an (juillet 1993 - juillet 1994). Il s’agissait de construire un sous-ensemble du futur système défini à partir des caractéristiques horizontales (secteurs techniques) et verticales (niveau de l’indexation) de la CIB. Deux sections sur huit ont été choisies pour la couverture technique : A : Nécessités courantes de la vie et B : Techniques industrielles diverses ; Transports. Le niveau d’indexation pris en compte pour le prototype a été limité à la sous-classe, soit 763 intitulés.

24

Le prototype a été réalisé sur la base de l’indexation structurée, en trois étapes : étude des besoins des usagers et examen de la CIB, réalisation proprement dite du prototype, et recommandations.

25

Études des besoins des usagers et de la CIB. L’analyse de la formulation des questions par les utilisateurs a été effectuée à partir d’un corpus de 129 questions recueillies par différentes voies (messagerie électronique, téléphone, télécopie). Elle a permis d’effectuer une étude sémantique (termes employés définissant le sujet) et syntaxique (nombre de termes et structure de l’ensemble des mots) des questions.

26

La CIB, d’autre part, a été « disséquée » d’un point de vue morpho-lexical : répartition des termes par catégories morphologiques (noms, adjectifs, verbes, etc.), étude des mots composés, des sigles et abréviations, des noms propres, des polysèmes, des termes inconnus, des fautes orthographiques et dactylographiques. La structure syntaxique de la classification a été aussi étudiée : syntagmes nominaux simples, groupes pré- positionnels complexes, rattachements réguliers et irréguliers, structures de coordination, etc. Cette étude a permis d’identifier les spécificités de la CIB qui rendent difficile son traitement : libellés mixtes procédés/produits/appareils, libellés dont la compréhension nécessite la prise en compte du niveau hiérarchique supérieur, renvois et notes [9].

27

L’indexation structurée intègre les termes extraits des intitulés indexés et des questions analysées, les fonctions syntaxico-sémantiques de ces termes et la structure de dépendance des termes entre eux [10].

28

Réalisation du prototype. Le prototype a été réalisé à partir de l’analyse du corpus de questions et de l’indexation structurée du périmètre restreint de la classification précédemment précisé. Il a fourni des réponses, c’est-à-dire un ou plusieurs indices CIB à chacune des questions. Ces réponses n’étaient que partiellement satisfaisantes (environ 40 % de résultats exacts), mais l’essentiel était de comprendre si les résultats obtenus à partir de ce traitement pouvaient être améliorés, en particulier, par une prise en compte de l’indexation de la totalité ou d’une plus grande partie de la CIB.

29

Recommandations. À l’issue de l’évaluation des réponses fournies par le prototype, les recommandations formulées ont porté sur la « surfaceutile » de la CIB à prendre en compte, sur les informations complémentaires de cette classification à inclure ou à exclure de l’indexation, et sur le traitement de l’indexation elle-même.

30

L’étude détaillée des réponses obtenues à partir du prototype a montré, en effet, que l’interrogation pouvait être améliorée par les développements et les ajouts du vocabulaire des questions et l’insertion des notes et renvois des sections non prises en compte dans le prototype. Les difficultés venaient de l’absence de désambiguïsation sémantique comme de vocabulaire précis dans les niveaux de la CIB (polysémies, périphrases, etc.). Différentes entrées supplémentaires pouvaient être ajoutées dans le futur système : rubriques guidées et/ou schémas généraux, groupes principaux et sous-groupes.

31

C’est pourquoi l’INPI a décidé de poursuivre le travail et de réaliser un système complet d’accès à l’information brevets en langage naturel utilisant la Classification internationale des brevets : le système CIB-LN.

Réalisation du système complet

32

Cette phase a duré trois ans, de 1995 à 1997, et a été décomposée en trois étapes : spécifications détaillées, mise au point des différents modules, enfin tests et mise au point.

33

Spécifications détaillées. La première étape de ces spécifications a été de définir exactement les contours du système, définition issue de l’évaluation du prototype.

34

Ces contours ne sont pas définis par les huit sections de la CIB et un seul niveau d’indexation, mais par une structure complexe (excluant la chimie parce que ce type de recherche n’est pas adapté à ce domaine), et dont le résultat au niveau du groupe principal (7 265 entrées) demande la prise en compte du vocabulaire de certains sous-groupes (figure 1) [11].

Figure 1 - Prise en compte de la CIB par le système CIB-LNFigure 1
35

Il est en effet possible de lancer une recherche sur les sous-groupes, puis de remonter au niveau des groupes principaux qui constitueront le niveau des réponses à partir duquel une navigation et une recherche pourront être réalisées sur les niveaux descendants.

36

La deuxième étape très importante de ces spécifications a été la définition d’un corpus de test de 376 questions et son évaluation, c’est-à-dire le choix du (ou des) indice(s) de la CIB répondant à chacune de ces questions avec deux niveaux de pertinence (bon, acceptable). Ce sont ces réponses qui constituent le référentiel permettant à chaque nouveau test d’attribuer un facteur positif, nul ou négatif aux différentes versions du système.

37

L’analyse de la CIB faite pour le prototype a permis de sélectionner les différents éléments à prendre en compte dans l’indexation : intitulés de la classification, index des mots clés, codes d’indexation, etc.

38

L’indexation structurée du prototype a montré son intérêt mais aussi ses limites, en particulier dans le traitement des questions complexes. Le système complet a donc été développé avec un système d’indexation dite « à plat » (tous les termes ont le même statut par rapport au document et ont les mêmes relations entre eux) qui associe le moteur linguistique de LexiQuest au moteur documentaire Topic de la société Verity.

39

Les autres travaux de ces spécifications ont porté sur l’interface de dialogue et de navigation, sur le chargement de la version 6 de la CIB (le prototype avait été réalisé avec la version précédente, CIB 5), et la stratégie de construction de la base de connaissances.

40

Mise au point des différents modules. Ce travail a porté sur la construction de la base de connaissances, c’est-à-dire l’enrichissement du vocabulaire de la question en langage naturel par son intégration dans un réseau sémantique hiérarchique : générique, spécifique, synonyme, associé. Cette constitution progressive de la base de connaissances s’est effectuée par des validations successives en utilisant le corpus de référence. La mise en œuvre de la navigation à partir des indices de la classification obtenus et la conception de l’interface entre la CIB et les banques de données brevets ont aussi fait partie de cette étape.

Tests et mise au point. Les tests ont été poursuivis en même temps qu’étaient réalisées l’ergonomie de l’interface utilisateur, les méthodes de tri et de présentation des réponses à l’utilisateur et la collecte des indices CIB pour leur transfert dans les bases de données.

41

Lors de la mise en ligne opérationnelle du système, le taux de rappel (proportion de documents pertinents retrouvés par rapport à l’ensemble des documents pertinents existant dans la base pour une question donnée) était d’environ 79 % et près de 55 % des réponses attendues apparaissaient dans les vingt premières réponses données. L’obligation d’une recherche professionnelle exhaustive de l’information brevets privilégie un taux de rappel important en acceptant un bruit inévitable.

42

Le lien a été effectué sur le site web de l’INPI réalisé par la société Jouve qui, à part les renseignements généraux sur l’Institut et sur la propriété industrielle, permet la recherche de brevets ainsi que le lien vers les autres services d’information : marques, dessins et modèles, entreprises [12].

3 - L’application en ligne

43

La question de l’usager est formulée en langage courant, elle est analysée (mots composés, mots vides, etc.) et enrichie par des synonymes issus d’une terminologie vivante qui est progressivement développée. La requête, ainsi exprimée par une série de termes et par les relations entre ces termes, accède à la CIB indexée, c’est-à-dire aux termes des différents libellés pris en compte : sous-groupe, groupe principal et sous-classe, renvois correspondants et mots clés extraits de l’index des mots clés (figure 2).

Figure 2 - Données indexées pour un groupe principalFigure 2
44

Le résultat est exprimé par le nombre d’indices et d’intitulés de la CIB obtenus (entrées) au niveau du groupe principal et par la visualisation des trente premiers, par ordre de pertinence décroissante. Cet indice de pertinence, non visible par l’usager, intègre le nombre de termes de la question obtenus dans la réponse et la pondération spécifique à chaque terme (des termes tels qu’appareil ou procédé ont une pondération faible). À partir des indices et intitulés obtenus (groupe principal ou sous-classe), l’utilisateur peut naviguer dans la classification afin de préciser son sujet au niveau de sous-groupe(s) spécifique(s) ou d’autres intitulés voisins. L’écran de visualisation présente, d’une part, la hiérarchie dans laquelle s’inscrit l’indice sélectionné et, d’autre part, les différents groupes principaux voisins du groupe principal sélectionné (figure 3).

Figure 3 - Architecture de l’application CIB-LNFigure 3
45

Après sélection d’un ou de plusieurs indices, l’utilisateur peut obtenir les numéros de brevets français, européens et les demandes internationales comportant ces indices. Il sélectionne ensuite ceux dont il souhaite obtenir les données bibliographiques puis le texte intégral. Cette recherche est effectuée sur un peu plus de deux ans d’antériorité, soit environ 300 000 documents. Les demandes publiées de brevets français ayant été numérisées, il est possible d’obtenir, à partir de la référence, le texte intégral en format fac-similé du document (voir l’exemple proposé ci-dessous).

46

Les liens avec le service esp@ cenet de l’Office européen des brevets (OEB) et les banques de brevets d’autres pays permettent l’accès à plus de 30 millions de références dont certaines, en fonction du pays et de l’antériorité, donnent accès au texte intégral.

47

Actuellement le nombre de visites au système CIB-LN est d’environ 7 000 par mois (figure 4). À ces visites correspondent environ 25 000 questions mensuelles (figure 5). La forte augmentation constatée entre octobre et novembre 2000 est due au changement de présentation de la recherche des brevets sur le site.

Exemple de recherche de brevets en langagenaturel avec CIB-LN

Étapes d’une recherche sur l’expression : dérailleur de vélo

1

- Sur le site INPI (www. inpi. fr), on clique sur la fonction « Recherche Brevets ».

- L’expression « dérailleur de vélo » est introduite dans l’espace de formulation de question. Le moteur de recherche propose en réponse 149 entrées (sur 7 268, nombre total des groupes principaux). On clique sur la première réponse, la plus pertinente. (Figure I)

Figure I - Entrées CIB proposées par le moteur de rechercheFigure I

2

- L’écran propose d’une part la hiérarchie des symboles de la CIB permettant la navigation à partir de l’intitulé choisi, d’autre part la sélection d’un ou de plusieurs intitulés : indice sélectionné, indices spécifiques et voisins. On sélectionne le sous groupe B62M-25/04. (Figure II)

Figure II - Hiérarchie et libellés des symboles CIBFigure II
Figure III - Première page du brevet obtenuFigure III

3

- Les brevets sont recherchés, soit sur le site INPI (brevets français, européens et demandes internationales), soit sur le site esp@ cenet de l’OEB (brevets européens, brevets des pays membres de l’OEB, brevets américains, japonais, etc.).

- Dans le site INPI, des numéros et des titres de brevets français, européens et de demande internationale sont proposés. On sélectionne un brevet français.

- On obtient le texte intégral de cette demande de brevet avec dessins. (Figure III)

On peut remarquer que les termes de la recherche ne figurent ni dans le titre ni dans l’abrégé : c’est le classement précis de la CIB qui a permis d’obtenir ce document.

4 - Les développements de l’application CIB-LN

48

Le développement minimal est d’enrichir le vocabulaire du lexique par les termes des nouvelles questions, d’identifier et d’analyser les questions qui sont restées sans réponse ou n’ont obtenu que des réponses non satisfaisantes. Pour cela des outils de suivi extraient automatiquement les questions n’ayant pas obtenu de réponse ainsi que des échantillons de réponses, afin d’en suivre la pertinence.

49

Des développements plus importants sont en cours portant, d’une part, sur une nouvelle version du logiciel d’indexation, d’autre part, sur le développement du système d’accès dans d’autres langues.

50

La nouvelle version du logiciel LexiRespond améliorera l’indexation des intitulés de la CIB ainsi que l’analyse linguistique des questions : identification des mots simples et des mots composés, des différentes structures grammaticales (nom, verbe, adjectif, etc.) et de leur pertinence.

Figure 4 - Évolution des visites du système CIB-LNFigure 4
51

Différents scores sont calculés, qui repèrent le pourcentage des termes de la question correspondant à un intitulé indexé mais aussi le pourcentage des termes de l’intitulé indexé correspondant aux termes de la question. La combinaison de ces deux calculs conduit à une meilleure pertinence des résultats à laquelle on ne parviendrait pas par une simple intersection entre les termes enrichis de la question et des intitulés de la CIB.

52

Ces notions sont affinées par un facteur de pertinence à quatre niveaux attribué aux termes. De façon analogue à la réalisation initiale de l’accès en langage naturel, ce développement important du système donnera lieu à un grand nombre de tests qui permettront d’évaluer les améliorations dues à chacun des facteurs.

53

Ce retour à l’utilisation de l’indexation structurée, exploitant plus facilement de grandes quantités de données qu’il y a quelques années, distingue en particulier LexiRespond d’autres systèmes d’accès en langage naturel [13].

54

L’autre développement important est l’utilisation du système en langage naturel dans d’autres langues. Il a été indiqué précédemment que le système est constitué de deux ensembles : CIB indexée et questions analysées. La structure identique de la CIB dans différentes langues dont le français et l’anglais permet, le travail étant réalisé en français, d’obtenir l’indexation en langue anglaise avec un minimum d’investissement, sans rapport avec le premier.

55

L’autre travail linguistique, c’est-à-dire l’analyse de la question en anglais, devra être effectué avec les dictionnaires techniques disponibles et en tenant compte des différences d’expression syntaxique de l’anglais par rapport au français. Une des difficultés à résoudre sera, comme en français, la désambiguïsation des termes identiques ayant des spécifications différentes dans différents secteurs d’activité, par exemple : fraise (français), horn (anglais).

56

L’Office des brevets du Royaume-Uni (The Patent Office) et l’OEB se sont récemment déclarés intéressés par l’utilisation du système en langue anglaise et ce travail commencera durant l’année 2001.

Figure 5 - Évolution du nombre de requêtes sur le système CIB-LNFigure 5
57

Avril 2001


Références

  • 1 –  Code de la propriété intellectuelle, article L.411-1. Paris, Direction des Journaux officiels, 1999. P. 63
  • 2 –  Innover grâce au brevet, Yann de Kermadec. Paris, INSEP Éditions, mars 1999. 150 p.
  • 3 –  Classification internationale des brevets. 7e éd. Genève, Organisation mondiale de la propriété intellectuelle, 1999. 9 vol.
  • 4 –  La propriété industrielle : sources et ressources d’information, Bernard Marx. Paris, Nathan Université, ADBS Éditions, 2000. 128 p. (Collection 128 ; 252. Domaine Information/documentation)
  • 5 –  Techniques linguistiques et statistiques pour sélectionner l’information pertinente, Pierre Le Loarer, Étienne Normier. In : IDT 96, 13e congrès, Paris, 21-23 mai 1996, Textes des communications. P. 115-120
  • 6 –  Besoin en traitements automatiques du langage naturel pour la recherche d’information sur les réseaux, Philippe Théret. In : La recherche d’information sur les réseaux, cours INRIA, 30 septembre - 4 octobre 1996, Trégastel, coord. par Jean-Claude Le Moal et Bernard Hidoine. Paris, ADBS Éditions, 1996. P. 127-164
  • 7 –  Lexiware, logiciel d’analyse linguistique, Bernard Normier. In : Valorisation des gisements d’information, actes de la journée d’étude organisée par le GFII, Paris, 27 mars 1998. Paris, Groupement français de l’industrie de l’information, 1998. 18 p.
  • 8 –  LexiQuest, an overview of national language solutions for text mining, Bernard Normier. In : Voyage d’étude du GFII à Londres : interventions des mercredi 6 et jeudi 7 décembre 2000 au Salon Online information. Paris, Groupement français de l’industrie de l’information, 2001. P. 71-90
  • 9 –  Language related problems in the IPC and search systems using natural language, Michèle Lyon. World Patent Information, 1999, vol. 21, 1999, p. 89-95
  • 10 –  Indexation automatique, recherche d’information et évaluation, Pierre Le Loarer. In : Le traitement électronique du document, cours INRIA, 2-7 octobre 1994, Aix-en-Provence, coord. par Jean-Claude Le Moal et Bernard Hidoine. Paris, ADBS Éditions, 1994. P. 149-201.
  • 11 –  Entrées à inclure/exclure du système CIB-LN, Marie-Gentiane Rivaille. Erli-SES-02 (V2.3.), 13 juin 1995
  • 12 –  Interrogation en langage naturel de la CIB, Valéry Comte. Mémoire de DEA « Veille technologique et IST », Université Aix Marseille 3, juin 1998. 97 p.
  • 13 –  Une expérience d’utilisation d’un système d’information en langage naturel, Sylvie Dalbin, Bruno Salléras. Documentaliste - Sciences de l’Information, décembre 2000, vol. 37, n° 5-6, p. 312-324.

Résumé

Français

C’est pour répondre à la demande d’un public non spécialiste, usager occasionnel de ses services d’information issus des titres de propriété industrielle, que l’INPI a développé un système d’accès en langage naturel aux données brevets. Cet article présente l’objectif de cette réalisation de l’Institut national de la propriété industrielle et décrit les étapes successives de son développement, avec les évolutions des méthodes et des techniques mises en œuvre. Il expose enfin les caractéristiques du service CIB-LN fondé sur la Classification internationale des brevets et sur une analyse et un enrichissement des questions librement posées dans le langage courant des usagers.

Plan de l'article

  1. 1 - Les objectifs d’un accès en langage naturel
    1. Offrir un accès aux usagers non professionnels
    2. Problématique de la recherche sur les brevets
  2. 2 - Réalisation du système d’accès en langage naturel
    1. Mise au point du prototype
    2. Réalisation du système complet
  3. 3 - L’application en ligne
  4. 4 - Les développements de l’application CIB-LN

Pour citer cet article

Darrigade Sabine, Lyon-Bougeat Michele, Marx Bernard, Buisson Annie, Cantet Marcel, Ilcinkas Robert, Oziol Évelyne, « Accès aux brevets en langage naturel. Le système CIB-LN de l'INPI », Documentaliste-Sciences de l'Information, 2/2001 (Vol. 38), p. 100-111.

URL : http://www.cairn.info/revue-documentaliste-sciences-de-l-information-2001-2-page-100.htm
DOI : 10.3917/docsi.382.0100


Article précédent Pages 100 - 111 Article suivant
© 2010-2014 Cairn.info
back to top
Feedback