Création d'une nouvelle base / Importation d'une base
Deux possibilités pour charger des données dans iTrameur :
1. Charger un fichier (nouvelle base) au format TXT brut, encodé en UTF-8, en ayant préalablement partitionné son contenu (cf onglet Aide).
2. Importer une base annotée déjà constituée (cf onglet Aide pour le format de cette base).
Une fois la base chargée, les données textuelles sont représentées sous la forme d'une Carte des sections (sections définies via le délimiteur de contexte choisi) qui apparaît au bas de cette page.
1. Nouvelle base
1. Importer une base
2. Délimiteur de contexte
(si cette zone est vide, contexte=ligne)
3. Délimiteur(s)
4. Bi-texte
(chargement d'un bitexte aligné cf Aide)
5. Dépendance
(chargement d'une base avec annotations en dépendance cf Aide)
Dans une perspective lexicométrique / textométrique, représentation du texte en machine sous la forme d'une Trame et d'un Cadre (i.ele métier textométrique), pour ensuite réaliser des calculs textométriques.
Le Trameur (http://www.tal.univ-paris3.fr/trameur/) est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements).
iTrameur est une application en ligne mettant en oeuvre des fonctionnalités disponibles dans Le Trameur : iTrameur est une application qui fonctionne dans votre navigateur habituel (de préférence Firefox ou Chrome). iTrameur permet :
- de charger un fichier (structuré en parties et/ou découpé en sections) ou une base annotée (même type de structuration et comportant en outre plusieurs couches d'annotation : forme, lemme, catégorie, etc.). Le texte chargé (ou la base importée) peut aussi être un bitexte (un corpus aligné par exemple)
- d'explorer les données chargées via les opérations textométriques "classiques" : dictionnaire, concordancier, spécificités, segments répétés, graphique de ventilation, cooccurrents, etc.
- d'explorer des corpus richement annotés (treebanks monolingues/multilingues ou des alignements).
iTrameur regroupe par ailleurs des modules déjà disponibles en ligne :
iTrameur-Specif-Partie : les mots spécifiques d'une partie d'un corpus ; navigation via la carte des sections
iTrameur-CooCs-Bitext : les cooccurrents d'un pôle sur un corpus aligné (avec retour en contexte); navigation via la carte des sections alignées
iTrameur-CooCs : un graphe de cooccurrents sur un pôle donné (avec retour en contexte); navigation via la carte des sections
iTrameur-CooCs-regexp : un graphe de cooccurrents sur un ensemble de pôles définis via une regexp ; navigation via la carte des sections
iTrameur Fonctions avancées de l’analyse textométrique pour les corpus multiannotés (M. Zimina) : le 6 mai 2019, salle 208 ODG, Paris Diderot. Ressources en ligne.
iTrameur Formation “Introduction à la textométrie multilingue” (M. Zimina) : le 11 mars 2019, salle 208 ODG, Paris Diderot . Ressources en ligne.
Format d'entrée (Nouvelle base)
Les textes pris en charge par iTrameur doivent être au format TXT BRUT et encodés en UTF-8.
Découpage en sections
Ces textes peuvent être préparés en amont pour y introduire des caractères permettant de mettre au jour des sections dans le texte.
La mise au jour de sections peut aussi utiliser un caractère délimiteur déjà présent dans le texte (par exemple le caractère point . ) ; dans ce cas il convient de choisir ce caractère comme délimiteur de contexte avant de charger le fichier ou avant de construire une carte des sections.
Ce découpage peut mettre au jour une segmentation du texte en phrases, en paragraphes ou en parties par exemple (à défaut, le découpage en lignes peut être utilisé pour mettre au jour des sections).
Illustration sur ce fichier : Le Dormeur du val ; ici le caractère § met au jour une segmentation du texte en "ligne".
Découpage en parties
Ces textes peuvent aussi être préparés en amont pour y introduire des jalons textuels (des balises) permettant de mettre au jour des partitions dans le texte.
Illustration sur ces fichiers :
Le Dormeur du val (balisage "étendu" : chaque partie est encadrée par une balise ouvrante et une balise fermante)
Le Dormeur du val (balisage xml : le document est un arbre d'éléments)
Le balisage d'une partition se fait en introduisant pour chaque partie :
une balise d'ouverture que l'on peut écrire de la manière suivante <partie="valeur"> ou aussi <partie attribut="valeur">
et une balise de fermeture : </partie> (dans tous les cas...)
dans cet exemple, la partition sera décrite par des parties associées chacune à la balise définie (<partie="valeur"> par exemple), la valeur associée identifiera la partie visée dans la partition
Exemples de corpus de travail
Tous les fichiers suivants peuvent être téléchargés puis ouverts comme Nouvelle Base dans iTrameur. Ils peuvent aussi être directement chargés via les liens disponibles ci-dessous.
"Le Père Duchesne" : dans ce fichier, on trouve à la fois un découpage en sections et plusieurs systèmes de parties. Nouvelle base
"Les Fleurs du Mal" : dans ce fichier, on trouve à la fois un découpage en sections (chaque vers) et plusieurs systèmes de parties. Nouvelle base
Bi-textes alignés
Il est possible de charger un bitexte avec 2 volets alignés : balisage pour le marquage des volets et marquage de sections alignées par un caractère délimiteur.
Exemples de corpus aligné
Tous les fichiers suivants peuvent être téléchargés puis ouverts comme Nouvelle Base dans iTrameur. Ils peuvent aussi être directement chargés via les liens disponibles ci-dessous.
Ulysse (en/fr) : dans ce fichier, on trouve à la fois un découpage en sections alignées (le caractère §) et un système de parties via la balise VOLET (source). Nouvelle base
Format d'entrée (Base annotée)
Une base textométrique annotée est un fichier contenant une segmentation (Trame, cfdocumentation Le Trameur) et un système de parties (Cadre, idem).
La base à importer doit contenir au moins 3 couches d'annotation (a minima : forme, catégorie, lemme).
Il est possible de spécifier sur la première ligne de la base les labels des annotations associées à chaque item de la Trame(segmentation). Chaque label doit être introduit par la caractère # et les labels sont séparés par une tabulation (même format que pour le reste de la Trame).
Exemple ci-dessous :
#Num#type#Forme#POS#Lemme
(voir aussi les bases de test fournies infra)
La base contient des informations intégrées dans un fichier tabulé (au format TXT BRUT et encodés en UTF-8):
1. La première partie du fichier contient une description de la segmentation en mots avec un mot par ligne. Chaque colonne décrit les informations associées à cette forme graphique sous la forme suivante :
position type forme catégorie lemme annot4 annot5 etc.
Une tabulation sépare chaque élément décrivant le mot visé.
On donne à voir ci-dessous sous la forme d'un tableau le contenu d'un extrait d'un fichier tabulé illustrant la représentation d'une trame annotée :
Position
Type
FORME
POS
LEMME
ETC.
1
forme
une
DET
un
...
2
delim
DELIM
DELIM
...
3
forme
base
NOM
base
...
4
delim
DELIM
DELIM
...
5
forme
textométrique
ADJ
textométrique
...
6
...
...
...
...
...
Remarques :
- dans les lignes 2 et 4 le caractère "espace" est présent dans le fichier tabulé entre le type delim et le lemme DELIM - le caractère tabutation doit avoir pour forme la notation TABULATION (idem pour son lemme et sa catégorie)
- le caractère "retour à la ligne" doit avoir pour forme la notation RETURN (idem pour son lemme et sa catégorie)
Les annotations sur chaque mot peuvent être soit des valeurs associées au mot pour l'annotation visée soit des annotations marquant une relation entre 2 items de la Trame. C'est le cas des annotations de dépendance syntaxique (cf corpus de test infra).
Les annotations en dépendance doivent être notées ainsi : RELATION(i). Ce type d'annotation est porté par le dépendant, RELATION est le nom de la relation de dépendance (SUB, OBJ par exemple) et i est la position du gouverneur sur le Trame (cf documentation Le Trameur).
2. La seconde partie du fichier contient une description des systèmes de parties définies sur la segmentation en mots : une partie par ligne, chaque colonne décrit les informations associées à cette partie sous la forme suivante :
Toutes les bases suivantes peuvent être téléchargées puis importées dans iTrameur. La plupart d'entre elles peuvent aussi être directement importées via les liens disponibles ci-dessous.
Base "Le Dormeur du val" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 3 partitions. Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base
Base "Le Père Duchesne" : base textométrique avec labels des annotations sur la première ligne de la base, avec 3 couches d'annotations (forme, lemme, catégorie) et 2 partitions. Importer la base
Base "Le Père Duchesne" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 3 partitions. Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base
Base "CFDT 1973-2026" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 1 partition (cf "Les séries textuelles chronologiques", A. Salem 1991). Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base
Base "Rhapsodie (complète)" : base textométrique (avec labels des annotations sur la première ligne de la base) avec 61 couches d'annotations cfREADME pour le détail des annotations . Importer la base
Base "RSS-3208 2017 : 2 volets alignés" : base textométrique avec 6 couches d'annotation (forme, lemme, catégorie, morpho-syntaxe, dépendance...). Annotations construites via Talismane : Talismane is a natural language processing framework with sentence detector, tokeniser, pos-tagger and dependency syntax parser. Cette base regroupe les contenus textuels des fils RSS (titre et description) de la rubrique "A la Une" du journal "Le Monde" sur l'année 2017. L'alignement construit permet de distinguer 2 volets via le caractère £ comme délimiteur de sections sur la partition VOLET : les titres versus les descriptions des articles contenus dans chaque fil RSS. En outre : Corpus chronologique sur la partition MOIS. Importer la base
Bases de test Rapport (nouvelle segmentation) : base V3, base V4 (4 partitions : rapport, scripteur, session, phrase)
Bases de test Etudiants : base V1 (4 partitions : rapport, scripteur, session, phrase)
Annotation de données
L'archive ci-dessous contient des ressources pour annoter des données via UDpipe 1. Le fichier README disponible dans l'archive donne une description de la méthode à suivre pour réaliser cette annotation. Les données annotées peuvent ensuite être reformatées en une base annotée pour iTrameur via un script perl (lui aussi disponible dans l'archive). L'archive contient une ressource (un modèle) pour annoter des données en français. Pour les autres langues, il convient de récupérer la ressource idoine : Universal Dependencies 2.5 Models: udpipe-ud2.5-191206
Le bouton Parcourir permet de charger le fichier visé. Avant l'ouverture de ce fichier, il faut au préalable :
choisir les caractères délimiteurs utilisés pour segmenter le texte en mots (par défaut, une liste de délimiteurs classiques est disponible) ;
choisir le caractère délimiteur de sections qui sera utilisé à l'issue du chargement pour construire la représentation du texte sous la forme d'une Carte des sections (cfdocumentation Le Trameur).
Il sera ensuite possible de modifier cette représentation en sélectionnant un autre délimiteur de sections.
Pour tenir compte d'un bitexte aligné dès le chargement, il convient au préalable de cocher la case idoine avant de sélectionner le fichier : 4. Bi-texte : .
Comment annoter une base après son chargement ?
Le module d'export permet de sauvegarder la base chargée dans un format tabulé qu'il est possible d'enrichir (en ajoutant des colonnes pour décrire les différentes annotations à intégrer, par exemple en utilisant un tableur "classique" type Excel), cf supra pour la description d'une base annotée.
Le bouton Export Base permet de sauvegarder localement la base chargée dans un fichier au format txt brut (encodé en utf-8) ; ce fichier contient La Trame et Le Cadre. Il peut être corrigé et enrichi (ajout d'annotations par exemple) puis réimporté dans le logiciel. Son format de description de La Trame et du Cadre est similaire au format des bases présentées supra.
Etiquetage via treetagger d'une Base exportée
L'archive suivante base-iTrameur2treetagger contient des ressources pour annoter via treetagger un fichier initialement chargé dans iTrameur puis exporté : le fichier exporté est étiqueté puis reformaté pour intégrer les annotations produites par treetagger.
Importer une base annotée
Le bouton Parcourir permet de charger la base visée.
Avant l'ouverture de ce fichier, il faut au préalable :
Choisir le caractère délimiteur de sections qui sera utilisé à l'issue du chargement pour construire la représentation du texte sous la forme d'une Carte des sections (cfdocumentation Le Trameur).
Si la base annotée contient un bitexte aligné, il convient de cocher la case idoine avant de charger le fichier : 4. Bi-texte : .
Si la base annotée contient des annotations en dépendance, il convient de cocher la case idoine pour charger les fonctionnalités associées aux traitements de ces dépendances : 5. Dépendance : .
Le nombre d'annotations disponible après chargement est visible via la liste Annotations. Les calculs présentés infra sont accessibles sur le niveau d'annotation sélectionné au préalable.
Visualisation des annotations
Dès qu'une base annotée est chargée, toutes les zones d'édition de l'application (concordance, section etc.) permettent de visualiser les annotations de chaque item de la Trame (les mots) : il suffit de passer le pointeur de la souris sur le mot visé (cf Le Trameur).
Trame
Dictionnaire
Pour visualiser le dictionnaire de toutes les formes graphiques (annotation n°1) issues de la segmentation réalisée après le chargement du fichier visé, appuyez sur le bouton Dictionnaire. Même chose sur les autres niveaux d'annotation (2 : lemme ; 3 : catégorie ; etc.).
Le dictionnaire visé apparaît sous la forme d'un tableau permettant :
d'explorer le contenu du dictionnaire
de lancer des opérations sur chacun de ses items : concordance, ventilation, carte des sections, sélection
Concordance
Le bouton Concordance permet de mettre au jour une concordance du Pôle sélectionné. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Il est possible de réaliser une concordance de plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.
Si une base annotée en dépendance est chargée, il est possible de visualiser en contexte une relation de dépendance associée au pôle visé (le pôle étant le gouverneur dans cette relation) : par exemple, si on calcule une concordance du lemme "penser" et si on complète le paramétrage de manière suivante : Relation : n°Annot. Relation , la concordance construite mettra au jour la relation de dépendance OBJ, cette relation étant associée au niveau d'annotation n°4 (i.e les objets de "penser").
Accroissement Vocabulaire
Le bouton Accroissement Vocabulaire met au jour la courbe d'accroissement du vocabulaire sur le corpus complet. Si la case à cocher "(Parties)" est active, l'accroissement du vocabulaire est affiché pour chacune des parties de la partition en cours (cf. Paramètres).
Fusion d'annotation
Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de créer une nouvelle couche d'annotation par fusion de 2 annotations existantes. Le bouton Fusion annotation réalise cette fusion à partir des numéros d'annotation renseignés dans les 2 listes associées Annotations à fusionner. Le résultat final est la concaténation sur chaque item des valeurs des annotations visées pour cet item sous la forme suivante : annoti_annotj.
Cadre (système de parties)
Cadre
Le bouton Cadre donne à voir une représentation graphique de l'organisation des parties (et de leurs enchâssements). Cette représentation permet par exemple de vérifier la structuration des parties codée en amont dans le corpus par le système de balises mis en place.
Parties
Le bouton Parties donne à voir sous la forme d'un tableau les différents systèmes de parties repérées et les positions de chacune sur la Trame. Le résultat apparaît sous la forme d'un tableau.
Ventilation (parties)
Pour visualiser la ventilation d'un mot dans le corpus sur une partition donnée via un graphique de ventilation, il faut renseigner la zone de saisie Pôle , sélectionner une partition dans la zone Partition puis appuyer sur le bouton Ventilation. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat donne à voir 2 graphiques :
une ventilation en fréquence absolue sur la partition choisie ;
une ventilation en fréquence relative sur cette même partition ;
une ventilation en spécificité sur cette même partition.
Il est possible de réaliser ce genre de graphique pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.
PCLC
Le bouton PCLC donne à voir sous la forme d'un tableau les Principale Caractéristiques Lexicométriques de la partition sélectionnée. Le résultat apparaît sous la forme d'un tableau.
Spécificités d'une partie
Le bouton Spécifs-partie donne à voir sous la forme d'un tableau le vocabulaire spécifique de la partie choisie dans la partition sélectionnée. Le résultat apparaît sous la forme d'un tableau. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Spécificités totales
Le bouton Spécificités totales permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par la partition sélectionnée. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Les mots spécifiques(+) d'une partition
Le bouton Mots Spécifs+ permet de mettre au jour un tableau donnant à voir les mots de spécificités positives sur une partition donnée.
Ce calcul intègre les mots dont la fréquence est supérieure à la valeur FQ MAX et dont l'indice de spécificité, dans la partie visée de la partitition sélectionnée Partition, est supérieur à la valeur IndSPmin. Les résultats sont aussi présentés sous la forme d'un graphique associant pour chaque partie ses mots spécifiques.
Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Barycentre temporel / Coefficient Von Neumann
Quand la base chargée est un corpus chronologique, le bouton TGF + BT + VN permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX d'une part leur fréquence absolue sur toutes les parties induites par la partition sélectionnée puis un indicateur appelé barycentre temporel et enfin le coefficient de Von Neumann (cf "Les séries textuelles chronologiques", A. Salem 1991). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Si les SR ont été calculés auparavant, le tableau final les intégrera (attention cependant, le temps de calcul est dans ce cas plus long...).
Croisement de partitions
Il est possible de construire dynamiquement une nouvelle partition en croisant 2 partitions déjà disponibles. Pour cela il suffit de saisir les noms de 2 parties visées Partition 1Partition 2 puis d'activer le bouton Croisement Partitions. Au final, la nouvelle partition est créée et toutes ses parties sont disponibles pour les calculs définis.
SR/Patron
Segments répétés
Le bouton Segments répétés lance le calcul des segments répétés (dont le paramétrage par défaut est : SR LGmax : 12 SR FQMin : 10). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le résultat visé apparaît sous la forme d'un tableau permettant :
d'explorer le contenu du tableau
de lancer des opérations sur chacun de ses items : concordance, ventilation, carte des sections
Remarque : une fois les segments répétés mis au jour par ce calcul, tous les segments sont visualisables en contexte dans chaque section éditée par un soulignement de chaque segment.
Carte Sections(SR)
Le bouton Carte Sections(SR) permet de réaliser la projection sur la Carte des Sections du segment répété fourni dans la zone de saisie : SR
Ventilation(SR)
Le bouton Ventilation(SR) permet de produire la ventilation sur la partition sélectionnée du segment répété fourni dans la zone de saisie : SR
Concordance(SR)
Le bouton Concordance(SR) permet de construire la concordance du segment répété fourni dans la zone de saisie : SR
Patron
Extraction Patron
Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de d'extraire des patrons sur une couche d'annotation donnée pour produire la liste des termes associés. Le bouton Extraction Patron réalise cette extraction à partir du numéro d'annotation utilisé pour identifier le patron : Annotation patron , du patron visé : Patron (le patron comporte des éléments séparés par un espace) et de l'annotation visée pour les termes à produire : Annotation terme . Dans les valeurs données ici par défaut, on extrait le patron NOM ADJ, annotation n°3 i.e la catégorie, et on produit la liste des termes associés pour l'annotation n°1 i.e les formes graphiques. IMPORTANT : On dispose d'un JOKER dans l'écriture d'un patron : le patron NOM ANY permet ainsi de récupérer toutes les séquences composées d'un nom suivi par n'importe quelle catégorie.
Graphique Patron
Opération similaire à la précédente, mais dans ce cas les termes résultants sont affichés sous la forme d'un graphique ; il est possible de filtrer les termes résultants en entrant dans la zone de saisie Pôle un motif exprimé sous la forme d'une expression régulière : dans ce cas seuls les termes contenant le motif sont affichés. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Sélection Patron
Opération similaire à la précédente, mais dans ce cas les termes résultants ne sont pas affichés en sortie mais ajoutés au Gestionnaire de Sélection ; ils seront visualisables en contexte, par exemple, au moment de l'affichage d'une section, ils seront mis au jour sur un fond de couleur orangée.
Concordance Patron
Opération quasi similaire à l'extraction, mais dans ce cas les termes résultants sont affichés en contexte dans un concordancier.
Carte Sections (Sél. Patron)
Cette opération permet de projeter sur la Carte des Sections le patron préalablement sélectionné par l'opération "Sélection Patron". Il peut être nécessaire de vider le Gestionnaire de Sélection avant de lancer cette opération pour ne garder que le dernier patron sélectionné dans le Gestionnaire de Sélection.
Section
Carte des sections
A l'issue du chargement du fichier, le texte est représenté sous la forme d'une carte des sections (cfdocumentation Le Trameur). Le découpage du texte en sections est construit à partir du caractère délimiteur de sections défini préalablement dans la zone de saisie : 2. Délimiteur de contexte
Pour visualiser une section, un clic sur la section visée déclenche l'édition de la section au dessous de la carte.
Pour visualiser la ventilation d'un mot dans le corpus via cette carte, il faut renseigner la zone de saisie Pôle puis appuyer sur "entrée" ou sur le bouton Carte des sections.
Il est possible de réaliser la visualisation dans la carte pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.
Ventilation (sections)
Pour visualiser la ventilation d'un mot dans le corpus (sur la partition induite par le découpage en sections) via un graphique de ventilation, il faut renseigner la zone de saisie Pôle puis appuyer sur le bouton Ventilation. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat donne à voir 2 graphiques :
une ventilation en fréquence absolue sur la partition induite par le découpage en sections réalisé préalablement ;
une ventilation en spécificité sur cette même partition.
Sélection de sections
Un clic-droit sur une section permet de la sélectionner. La zone de saisie NB sélection section permet de sélectionner le nombre de sections ainsi paramétré à la droite de celle sur laquelle le clic-droit est activé.
Vocabulaire spécifique d'une sélection de sections
Pour calculer le vocabulaire spécifique d'une sélection de sections, il faut commencer par sélectionner les sections visées (clic-droit sur chaque section : le contour devient bleu), puis activer le bouton Spécifs Sections. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le résultat apparaît sous la forme d'un tableau.
Remarque : dès qu'une forme est recherchée dans la carte des sections, les sections concernées sont automatiquement sélectionnées.
Les cooccurrents d'une forme pôle
Pour calculer les cooccurrents d'une forme pôle donnée, il faut renseigner la zone de saisie Pôle puis appuyer sur le bouton Cooccurrents. Ce calcul de cooccurrence s'appuie sur les contextes induits par la Carte de sections construite préalablement. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Spécificités totales
Une fois chargée la carte des sections (i.e mise en jour implicite d'une partition en sections), le bouton Spécificités totales permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par cette partition (le découpage en sections). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.
Coocs
Calcul de cooccurrents
Le bouton Cooccurrents calcule les cooccurrents du pôle source dans une fenêtre contextuelle autour du pôle source, contenant le nombre de mots à gauche défini par la zone saisie : Nb Terme Gauche : idem pour le nombre de mots à droite avec : Nb Terme Droite : . Par défaut, ce calcul de cooccurrence est réalisé en ne retenant que les candidats cooccurrents dont l'indice de spécificité est supérieur à la valeur IndSpMin.
Le calcul met au jour un graphe de cooccurrence. Les cooccurrents mis au jour sont aussi visibles en contexte (via des liens hypertexte disponibles sur chaque item du tableau construit à l'issue du calcul).
Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Calcul de cooccurrents sur une partie
Le bouton Cooccurrents sur partie sélectionnée effectue la même opération que la précédente mais en restreignant les calculs sur la partie préalablement sélectionnée (pour une partition donnée, il faut sélectionner la partie visée). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Réseau de cooccurrents
Le bouton Réseau Cooccurrents effectue le calcul des cooccurrents sur l'ensemble des items de fréquence supérieure à Fq Max. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Réseau de cooccurrents sur une partie
Le bouton Réseau Cooccurrents sur partie sélectionnée effectue la même opération que la précédente mais en restreignant les calculs sur la partie préalablement sélectionnée (pour une partition donnée, il faut sélectionner la partie visée). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Calcul de cooccurrents / stopliste
Pour les calculs de cooccurrents précédents, il est possible d'utiliser le Gestionnaire de Sélections comme une stop-liste. Il convient pour cela d'activer la case à cocher StopListe="Gestionnaire de Sélection" et de sélectionner préalablement les items à exclure de ces calculs (par exemple à partir du dictionnaire)
Bitexte
Ce menu est accessible si la case à cocher : Bi-texte est activée. Son activation déclenche la vérification de l'alignement chargé ou à charger. Dans le cas du chargement d'un bitexte, la Carte des Sections donnent à voir une bi-carte de sections.
Dictionnaire Source
Le bouton Dictionnaire Source met au jour le dictionnaire du volet Source. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Dictionnaire Cible
Le bouton Dictionnaire Cible met au jour le dictionnaire du volet Cible. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Sélection de sections
Le bouton Sélection permet de sélectionner toutes les sections contenant simultanément les motifs cherchés dans le volet Source et dans le volet Cible.
Le bouton Sélection Source permet de sélectionner les sections Source associées à des sections Cibles contenant respectivement les motifs cherchés (Source et Cible).
Le bouton Sélection Cible permet de sélectionner les sections Cible associées à des sections Source contenant respectivement les motifs cherchés (Source et Cible).
Le bouton Sélection permet de sélectionner toutes les sections contenant les motifs cherchés soit dans le volet Source soit dans le volet Cible (et pas dans les 2 volets simultanément).
Le bouton Sélection Source permet de sélectionner les sections Source contenant le motif cherché dans le volet Source et associées à des sections Cible ne contenant pas le motif cherché dans le volet Cible.
Le bouton Sélection Cible permet de sélectionner les sections Cible contenant le motif cherché dans le volet Cible et associées à des sections Source ne contenant pas le motif cherché dans le volet Source.
Cooccurrents du pôle Source
Le bouton Coocs Source calcule le vocabulaire spécifique des sections sources contenant le pôle source préalablement recherché via la Carte des Sections. Ce calcul est réalisé en parallèle sur les sections cibles associées aux sections sources contenant le pôle source. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Cooccurrents du pôle Cible
Le bouton Coocs Cible calcule le vocabulaire spécifique des sections cibles contenant le pôle cible préalablement recherché via la Carte des Sections. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. Ce calcul est réalisé en parallèle sur les sections sources associées aux sections cibles contenant le pôle cible. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Spécifs SOURCE*
Le bouton Spécifs SOURCE calcule le vocabulaire spécifique des sections sources sélectionnées (celles contenant un motif préalablement cherché par exemple). Ce calcul est réalisé en parallèle sur les sections sources et les sections miroirs cibles. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Spécifs CIBLE*
Le bouton Spécifs CIBLE calcule le vocabulaire spécifique des sections cibles sélectionnées (celles contenant un motif préalablement cherché par exemple). Ce calcul est réalisé en parallèle sur les sections cibles et les sections miroirs sources. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Bi-Concordance
Le bouton Bi-concordance permet de mettre au jour les contextes alignés contenant soit le pôle source visé soit le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le bouton Bi-concordance permet de mettre au jour les contextes alignés contenant le pôle source visé ET le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le bouton Bi-concordance Source permet de mettre au jour les contextes alignés contenant le pôle source visé ET PAS le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le bouton Bi-concordance Cible permet de mettre au jour les contextes alignés contenant soit le pôle cible visé ET PAS le pôle source visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Dépendance
Ce menu est accessible si la case à cocher : Dépendance est activée.
Nouvelles Annotations GOUV-REL-DEP
Le bouton Annotations Gouv(lemme)_REL_Dep(lemme) créé 2 nouvelles annotations sur chaque item de la Trame à partir des annotations de dépendance associées à l'annotation visée Annotation Relation : .
La première fusionne le nom de la relation portée par l'item (RELATION) et le lemme du gouverneur associé (GOUV) sous la forme GOUV_RELATION.
La seconde fusionne le lemme du gouverneur visé par la dépendance porté par l'item (GOUV), le nom de la relation porté par l'item (RELATION) et le lemme de l'item portant l'annotation de dépendance (DEPENDANT) sous la forme GOUV_RELATION_DEPENDANT.
De même, le bouton Annotations Gouv(pos)_REL_Dep(pos) créé 2 nouvelles annotations sur chaque item de la Trame à partir des annotations de dépendance associées à l'annotation visée Annotation Relation : .
La première fusionne le nom de la relation portée par l'item (RELATION) et la POS du gouverneur associé (GOUV) sous la forme GOUV_RELATION.
La seconde fusionne la POS du gouverneur visé par la dépendance porté par l'item (GOUV), le nom de la relation porté par l'item (RELATION) et la POS de l'item portant l'annotation de dépendance (DEPENDANT) sous la forme GOUV_RELATION_DEPENDANT.
Catégories connectées par une relation
Le bouton Recherche Relation (POS→POS) met au jour la liste des catégories connectées par la relation préalablement paramétrée dans les zones de saisies suivantes : Relation : Annotation Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4). La notation ANY permet de récupérer toutes les relations disponibles. Le résultat apparaît sous la forme d'un tableau et d'un graphique synthétisant les relations entre POS sur la relation visée. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Recherche de relations entre lemmes (gouverneur-dépendant)
Le bouton Recherche Relation1 (lemme→lemme) met au jour la liste des lemmes connectés par la relation préalablement paramétrée dans les zones de saisies suivantes :
Relation : Annotation Relation : : la première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information. La notation ANY permet de récupérer toutes les relations disponibles.
GOUV (lemme)DEP (lemme1/pos2) : les 2 zones précédentes permettent de filtrer le gouverneur et/ou le dépendant associé(s) à la relation précédente en indiquant les lemmes visés pour l'un et/ou l'autre. Si les zones de filtrage du gouverneur et du dépendant ne sont pas renseignées, tous les lemmes connectés sont affichés pour la relation visée.
Dans l'exemple donné ci-dessus, la requête exprimée permet de rechercher les OBJETS de "penser" (la relation OBJ étant portée dans l'annotation n°4).
Le résultat apparaît sous la forme d'un tableau contenant des informations sur les relations mises au jour et un accès aux relations en contexte (via une concordance).
Si la relation visée (pour un lemme gouverneur donné) est ANY, le résultat construit permet aussi (via un bouton visible au dessus du tableau des résultats) d'accéder à l'affichage des contextes caractéristiques du gouverneur visé : ces contextes donnent à voir des exemples prototypiques de structures dépendancielles associées à ce gouverneur.
Le bouton Graphe Relation (lemme→lemme) : opération similaire à la précédente mais le résultat apparaît aussi sous la forme d'un graphique mettant au jour les relations entre lemmes pour la relation visée. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur
Le bouton Recherche Relation2 (lemme→POS) déclenche une recherche similaire à la précédente (lemme→lemme), à la différence ici que le dépendant est décrit par une POS.
Sélection Relation
Le bouton Sélection Relation permet d'ajouter au Gestionnaire de Sélection les gouverneurs et dépendants associés dans la relation décrite dans les zones de saisie suivantes : Relation : Annotation Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4). Cette sélection peut ensuite être rendue visible en contexte en projetant la sélection induite sur la Carte des Sections.
Sélection
Carte Sections (Sélection)
Cette opération permet de projeter sur la Carte des Sections le contenu du Gestionnaire de Sélection.
Concordance (Sélection)
Cette opération permet de produire une concordance des éléments du Gestionnaire de Sélection.
Bi-concordance (Sélection)
Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ou en cible)
Bi-concordance (Sélection)
Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ET en cible)
Bi-concordance Source (Sélection)
Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ET pas en cible)
Bi-concordance Cible (Sélection)
Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en cible ET pas en source)
Supprimer sélections
Ce bouton permet de vider le Gestionnaire de Sélection.
Export
Sauvegarde Base
Le bouton Export Base permet de sauvegarder localement la base chargée dans un fichier au format txt brut (encodé en utf-8) ; ce fichier contient La Trame et Le Cadre. Il peut être corrigé et enrichi (ajout d'annotations par exemple) puis réimporté dans le logiciel. Son format de description de La Trame et du Cadre est similaire au format des bases présentées supra.
Etiquetage via treetagger d'une Base exportée
L'archive suivante base-iTrameur2treetagger contient des ressources pour annoter via treetagger un fichier initialement chargé dans iTrameur puis exporté : le fichier exporté est étiqueté puis reformaté pour intégrer les annotations produites par treetagger.
Paramétrage
Délimiteur de contexte : Cette zone de saisie doit contenir le caractère utilisé pour la construction de la Carte des Sections (et aussi pour déterminer les contextes utilisés pour le calcul des cooccurrents via la Carte des Sections).
Délimiteur(s) : Cette zone de saisie contient la liste des caractères délimiteurs utilisés pour segmenter le texte en formes graphiques.
Bi-Texte : Cette case à cocher permet de charger un bi-texte aligné (et les fonctionnalités associées).
Dépendance : Cette case à cocher permet de charger les fonctionnalités associées aux traitements sur une base contenant des annotations en dépendance.
Partition : Liste permettant de sélectionner une partition.
Partie : Liste permettant de sélectionner une partie de le partition choisie.
Annotation : Cette liste, mise à jour à l'issue du chargement d'une base annotée, permet de sélectionner une annotation pour réaliser le calcul visé.
Annotation Sortie : Cette liste, mise à jour à l'issue du chargement d'une base annotée, permet de sélectionner l'annotation à utiliser pour afficher les zones textuelles (concordance, section, contexte cooccurentielle) quelle que soit l'annotation utilisée. Par exemple : concordance du pôle NOM (annotation n°3) et affichage en sortie via les formes graphiques (annotation n°1) des contextes visés. Par défaut l'annotation en sortie a la même valeur que l'annotation sélectionnée pour les calculs.
Seuil : Par défaut, l'indice de spécificité est calculé avec un seuil de probabilité fixé à 5 %.
Co-Freq : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont la co-fréquence est supérieure à la valeur donnée.
IndSpMin : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont l'indice de spécificité est supérieur à la valeur donnée.
FQ MAX : Par défaut, le calcul des spécificités totales est calculé en ne retenant que les formes dont la fréquence est supérieure à la valeur donnée. Idem pour le calcul du "Réseau de cooccurrents".
LG Contexte : Longueur du contexte pour l'affichage d'une concordance.
Graphe H : Par défaut, les graphiques construits ont une hauteur correspondant à la valeur donnée.
Graphe L : Par défaut, les graphiques construits ont une largeur correspondant à la valeur donnée.
Pôle : Zone de saisie utilisée pour définir le pôle visé (remplissage par auto-complétion).
NB sélection section : Zone de saisie permettant de définir le nombre de sections à sélectionner simultanément (via le clic-droit).
Relation : Zone de saisie permettant de saisir le nom d'une relation.
Annotation relation : Zone de saisie permettant le numéro d'annotation portant le nom de la relation visée.