Le colloque NACLA2 a pour ambition d’interroger la pertinence d’une approche basée sur corpus dans l’exploitation des textes de représentation.
Le texte de représentation englobe à la fois les textes dramatiques classiques – pièces de théâtre, scénarios et scripts de cinéma, etc. – mais également des textes relevant d’autres modes dramaturgiques, tels que les débats parlementaires, les comptes rendus de réunion, les entretiens, etc.
S’il existe désormais des critères de la TEI (Text Encoding Initiative) pour la structuration balisée de textes de théâtre, etc. (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DR.html) il n’en existe pas encore pour la dramaturgie quotidienne des débats, etc. ce qui motive certains chercheurs à s’inspirer des normes pour le texte théâtral dans la structuration de ce type de texte (cf. l’initiative PolMine https://polmine.github.io/about/). Les balises xml de la TEI ne sont par ailleurs pas toujours les plus pertinentes, selon les types de données et les tâches envisagées (Hardie 2014, « Modest XML for Corpora : Not a standard, but a suggestion. » ICAME Journal 38.1).
Ce colloque vise à rassembler des chercheurs en TAL, en linguistique de corpus, en littérature ou en sciences politiques, dans une réflexion commune autour de la structuration des données textuelles de ce domaine et de l’exploitation que l’on peut en faire, selon les modes de structuration retenus.
Les questions posées pourraient être :
- Quelles balises de structuration pour quelles données ?
- Quelle(s) structuration(s) pour quelles exploitation(s) ?
- Peut-on développer des procédures automatiques ou semi-automatiques de structuration ?
- Quelle exploitation peut ressortir de ce type de données ?
- Quels outils de visualisation, quelles mesures d’association, etc. ?
En dehors des occasions de rencontres interdisciplinaires, le projet devra donner lieu à une publication et pourra conduire vers de futures collaborations sur des thèmes idoines à l’interiéur de l’Agorantic et en externe.
Le projet vise à faire dialoguer des chercheurs en linguistique (linguistique de corpus et TAL), en informatique, en littérature et en sciences humaines et sociales. C’est un projet qui est en pleine cohérence avec l’axe identitaire de l’université, associant la culture (théâtrale, etc.), le patrimoine et les sociétés (via les SHS) et les sociétés numériques (l’informatique), par le biais de l’exploitation des données langagières de chacun de ces domaines.
Pour plus d’informations: https://nacla2.sciencesconf.org/