Accueil

Dans le cadre de la conférence jointe CORIA-TALN 2023 à Paris (France) nous organisons l'atelier hOUPSh (“Humain ou pas humain” : les nouveaux défis pour les humains)

L’atelier vise à rassembler les curieuses et curieux du traitement de la langue autour de l’identification de l’auteur·e d'un document, principalement lorsque l'on hésite à discriminer entre un être humain ou une machine (ou plus largement, un logiciel, un algorithme, un modèle, même s’ils essaient de ressembler à un être humain en particulier). Ce sujet est devenu d'actualité suite à la popularisation des outils informatiques capables de produire des étiquettes et des textes d'une qualité langagière exceptionnelle.

De multiples exemples sur ce type de techniques existent déjà dans la littérature, comme SCIgen un logiciel de 2005 pour la génération automatique d'articles scientifiques en informatique, mais le phénomène s'est accentué avec la publication et la disponibilité au grand public des outils comme ChatGPT. Aujourd'hui, il devient de plus en plus difficile pour un être humain de discerner si un texte donné a été produit par une machine. Pour pallier ce phénomène, des outils pour identifier si ChatGPT est à l'origine de la production d'un document, ont commencé à apparaître. Nous pouvons citer ZeroGPT, DetectGPT (Mitchell et al. 2023) et GPTKit. De plus, de récentes publications centrées sur la production de jeux de données pour la tâche de détection de textes synthétiques sont apparues (Guo et al. 2023).

 

Programme

  • 14h00 - 14h20 Carlos Gonzalez Gallardo de l’Université de La Rochelle - Oui mais... ChatGPT peut-il identifier des entités dans des documents historiques ?
  • 14h20 - 14h40 Gaëtan Caillaut de Língua Custódia Explorer le potentiel des Large Language Models pour la traduction dans les domaines de spécialité : le cas de la finance
  • 14h40 - 15h00 Areg Sarvazyan de Symanto - AuTexTification 2023 and more: Detection and Attribution of Machine-Generated Text in Multiple Domains
  • 15h00 - 15h15 - Pause
  • 15h15 - 15h30 - Présentation de l'Annotathon
  • 15h30 - 17h15 - Annotathon
  • 17h15 - 17h30 - Retour de l’expérience et suite

Objectif

L'objectif de cet atelier est double. Dans une première partie, des travaux récents sur le domaine seront présentés et dans une deuxième, un annotathon aura lieu, auquel tous les membres de l'atelier seront invités à participer. Les résultats de cet annotathon seront restitués lors de la conférence.

 

Thèmes de l'atelier

Nous sollicitons des communications pouvant porter sur les thèmes suivants de façon non limitative :
- Détection automatique de textes synthétiques générés par des modèles de langues (LLM)
- Collections de textes synthétiques générés par des modèles de langues (LLM)
- Marquage pour des textes synthétiques générés par des modèles de langues (LLM)
- Études sur l'impact des textes synthétiques générés par des modèles de langues (LLM)
- Études des biais de génération des modèles de langues (LLM)
- Point de vue éthique sur l'utilisation des textes synthétiques générés par les modèles de langues (LLM)
- Études des critères de distinction entre les textes synthétiques générés par les modèles de langues (LLM) et les textes générés par des êtres humains
- Adaptation de textes synthétiques à un type de rédaction humaine
- État des lieux dans les différents domaines du TAL
- Applications de la génération automatique de textes et son impact sur l’emploi

Les articles seront publiés conjointement aux actes de TALN/CORIA 2023.

 

Annotathon

Une tâche (pour des humains uniquement) est proposée lors de cet atelier :

Annotathon : Annotation manuelle des couples question-réponse.
-   Entrée : un couple composé d'une question (humaine) et d'une réponse sur une interface Web
-   Sortie : Oui ou non la réponse semble provenir d'un être humain (réponse du participant)
-   Evaluation : Précision de l'annotation

Lors de la restitution, les membres de l'atelier seront informés de leur performance.

Notez que nous aurons comme résultat un nouveau jeu de données qui sera publié conjointement avec tous les membres de l'atelier dans une conférence de type LREC ou COLING.

Pensez à apporter votre ordinateur, téléphone portable, ou tablette avec vous !

 

Dates importantes

Date limite de soumission : 24 mars 2023 31 mars 2023
Notification aux auteurs : 21 avril 2023
Versions définitives : 5 mai 2023
Atelier : 5 juin 2023

 

Soumission des articles

Les articles seront rédigés en français. Ils devront suivre le format "mini" de CORIA-TALN 2023 (4 pages + références).

Feuille de style :
https://coria-taln-2023.sciencesconf.org/page/feuilles_de_style

Site web de soumission des articles :
https://coria-taln-2023.sciencesconf.org/submission/submit

 

Comité d'organisation

Emmanuelle Esperança-Rodier (Université Grenoble Alpes, LIG, Grenoble)
Jose G Moreno (Université Paul Sabatier, IRIT, Toulouse)
Vincent Segonne (Université Grenoble Alpes, LIG, Grenoble)

avec le soutien du comité de pilotage Technologies du Langage Humain (TLH) de l'AFIA.

Comité Scientifique

Jean-Pierre Chevallet (Université Grenoble Alpes, LIG, Grenoble)
Emmanuelle Esperança-Rodier (Université Grenoble Alpes, LIG, Grenoble)
Lorraine Goeuriot (Université Grenoble Alpes, LIG, Grenoble)
Jose G Moreno (Université Paul Sabatier, IRIT, Toulouse)
Aurélie Névéol (CNRS, LISN, Saclay)
Mathieu Roche (CIRAD, TETIS, Montpellier)
Vincent Segonne (Université Grenoble Alpes, LIG, Grenoble)

Personnes connectées : 2 Vie privée
Chargement...