Accueil Revues Revue Numéro Résumé

I2D – Information, données & documents

2015/2 (Volume 52)


ALERTES EMAIL - REVUE I2D – Information, données & documents

Votre alerte a bien été prise en compte.

Vous recevrez un email à chaque nouvelle parution d'un numéro de cette revue.

Fermer

Article précédent Pages 70 - 79 Article suivant

Résumé

Français

[étude] Les champs de métadonnées non structurés tels que « description » offrent une plus-value considérable à la compréhension pour les utilisateurs finals. Néanmoins, leur caractère non structuré les rend peu exploitables dans un contexte électronique et d’automatisation. Cet article explore les possibilités et les limitations de la reconnaissance d’entités nommées (« Named-Entity Recognition », NER) et de l’extraction terminologique (« Term Extraction », TE) dans la prospection de données non structurées afin d’en extraire des concepts significatifs. Ces concepts permettent de tirer parti d’une recherche et d’une navigation améliorées, mais peuvent également jouer un rôle très important dans la recherche en humanités numériques. À travers une étude de cas basée sur les champs de description des archives historiques de la ville de Québec, les auteurs, Simon HENGCHEN, Seth van HOOLAND, Ruben VERBORGH et Max DE WILDE, proposent une évaluation de quatre services tiers d’extraction d’entités afin de promouvoir l’expérimentation de la reconnaissance d’entités nommées et l’extraction terminologique. Dans le but de couvrir autant le NER que la TE, ils utilisent, pour l’évaluation des entités nommées, une approche quantitative basée sur la précision, le rappel et le F-score calculés sur la base d’un référent manuel (« gold standard corpus »). Une seconde approche, plus qualitative, permet ensuite de prendre en compte la pertinence des termes extraits et aborde la question du multilinguisme.

English

Extraction of nominative entities, an opportunity for the cultural sector ?Non-structured descriptive metadata provide additional benefits for end-user comprehension. However, their unstructured nature minimize their usefulness in an automated, digital context. This article explores the potential and the limits of Named Entity Recognition (NER) and Term Extraction (TE) in unstructured data searches in order to extract some meaningful cancepts. These concepts allow us to benefit from improved retrieval and navigation, but they also play a very important role in digital humanities research. Using a case study to promote NER and TE experiments, based on the descriptive fields of the historical archives of Quebec City, the authors assess four third-party entity extractors. In an effort to address both NER and TE to assess named entities, they use a quantitative approach based on precision, recall and F-score calculated on the "gold standard corpus". A second more qualitative approach then leads us to consider the relevance of TE and to address the issue of multilingualism.

Español

La extracción de entidades designadas: ¿una oportunidad para el sector cultural?Los campos de metadatos no estructurados como "descripción" aportan un valor adicional considerable para la comprensión de los usuarios finales. Sin embargo, su carácter no estructurado los hace menos explotables en un contexto electrónico y de automatización. Este artículo explora las posibilidades y los límites del reconocimiento de entidades designadas ("Named-Entity Recognition", NER) y de la extracción terminológica ("Term Extraction", TE) en la prospección de datos no estructurados para extraer conceptos significativos. Estos conceptos permiten beneficiarse de una investigación y exploración mejoradas, aunque también pueden desempeñar un papel muy importante en la investigación en humanidades digitales. A través de un estudio basado en los campos de descripción de los archivos históricos de la ciudad de Quebec, los autores, Simon Hengchen, Seth van Hooland, Ruben Verborgh y Max De Wilde, proponen una evaluación de cuatro servicios de niveles de extracción de entidades para promover la experimentación del reconocimiento de entidades designadas y la extracción terminológica. Con el objetivo de abarcar tanto el NER como la TE, para la evaluación de las entidades designadas, utilizan un enfoque cuantitativo basado en la precisión, la referencia y la puntuación F calculadas sobre la base de un referente manual ("gold standard corpus"). Un segundo enfoque, más cualitativo, permite también tener en cuenta la pertinencia de los términos extraídos y aborda la cuestión del multilingüismo.

Deutsch

Die Extraktion benannter Entitäten : Eine Chance für den kulturellen Bereich ?Felder unstrukturierter Metadaten wie z.B. die „Beschreibung“ bieten Endnutzern einen wichtigen Mehrwert zum Verständnis. Ihre unstrukturierte Eigenart erschwert jedoch ihre automatische und elektronische Auswertung. Dieser Aufsatz untersucht Chancen und Grenzen der Erkennung benannter Entitäten (« Named-Entity Recognition », NER) und der terminologischen Extrahierung (« Term Extraction », TE) in der Auswertung unstrukturierter Daten, um aus ihnen bedeutungsrelevante Konzepte zu extrahieren. Diese Konzepte ermöglichen es, eine Recherche und Navigation zu verbessern, aber auch eine wichtige Rolle in den Recherchen der digitalen Menschheit zu sein. Mit Hilfe einer Fallstudie der Felder der Beschreibungen der historischen Archive der Stadt Québec stellen die Autoren Simon Hengchen, Seth van Hooland, Ruben Verborgh und Max De Wilde eine Evaluierung von vier Diensten zur Extraktion von Entitäten vor, um die Experimentierung der Erkennung benannter Entitäten und der terminologischen Extrahierung vorzustellen. In der Absicht, sowohl die NER wie auch die TE zu behandeln, benutzen die Autoren zur Evaluierung einen Quantitativen Ansatz basierend auf Precision, Recall und F-Score, errechnet auf der Basis einer manuellen Referenz („Gold standard corpus“). Ein zweiter, qualitativer Ansatz, ermöglicht es, die Relevanz der extrahierten Begriffe zu erfassen, und behandelt das Thema der Mehrsprachigkeit.

Plan de l'article

    1. Questions de recherche
  1. 1 - État de l’art
    1. Contexte et histoire du NER
    2. NER et web sémantique
    3. Utilisation de NER avec les humanités numériques
    4. L’impact du NER sur le multilinguisme
  2. 2 - Méthodologie
    1. Cadre open source des services de NER
      1. Contexte des outils interactifs de transformation de données
      2. Développement de l’extension NER
  3. 3 - Analyse des résultats : précision, rappel et F-score
  4. 4 - Discussion
    1. Spécificités du corpus
    2. Spécificités des services
    3. Entités nommées et concepts généraux : que prendre en compte ?
    4. Désambiguïsation sémantique lexicale
  5. 5 - Conclusions et prochains travaux

© 2010-2014 Cairn.info
back to top
Feedback