astroECR : enrichissement d'un corpus astrophysique en entités nommées, coréférences et relations sémantiques - CEA - Université Paris-Saclay Accéder directement au contenu
Communication Dans Un Congrès Année : 2024

astroECR : enrichissement d'un corpus astrophysique en entités nommées, coréférences et relations sémantiques

Résumé

Le manque de ressources annotées constitue un défi majeur pour le traitement automatique de la langue en astrophysique. Afin de combler cette lacune, nous présentons astroECR, une extension du corpus TDAC (Time-Domain Astrophysics Corpus). Notre corpus, constitué de 300 rapports d'observation en anglais, étend le schéma d'annotation initial de TDAC en introduisant cinq classes d'entités nommées supplémentaires spécifiques à l'astrophysique. Nous avons enrichi les annotations en incluant les coréférences, les relations sémantiques entre les objets célestes et leurs propriétés physiques, ainsi qu'en normalisant les noms d'objets célestes via des bases de données astronomiques. L'utilité de notre corpus est démontrée en fournissant des scores de référence à travers quatre tâches~ : la reconnaissance d'entités nommées, la résolution de coréférences, la détection de relations, et la normalisation des noms d'objets célestes. Nous mettons à disposition le corpus ainsi que son guide d'annotation, les codes sources, et les modèles associés.
Fichier principal
Vignette du fichier
7664.pdf (444.05 Ko) Télécharger le fichier
Origine Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-04623049 , version 1 (01-07-2024)

Licence

Identifiants

  • HAL Id : hal-04623049 , version 1

Citer

Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum. astroECR : enrichissement d'un corpus astrophysique en entités nommées, coréférences et relations sémantiques. 35èmes Journées d'Études sur la Parole (JEP 2024) 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024), Jul 2024, Toulouse, France. pp.720-733. ⟨hal-04623049⟩

Relations

0 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More