documentation de référence sur corpus

Cette page contient les information de référence sur corpus :

web sémantique sur corpus

En outre, on trouve les analogies de corpus :

   Publicité ▼

sensagent's office

Raccourcis et gadgets. Gratuit.

* Raccourci Windows : sensagent.

* Widget Vista : sensagent.


Alexandria poste de travail. 29€.

Pour Windows ou Vista. Simple/double clique/Ctrl+F10. Pour tout logiciel (word, excel, etc.). Sans publicité.

dictionnaire et traducteur pour sites web

Alexandria

Une fenêtre (pop-into) d'information (contenu principal de Sensagent) est invoquée un double-clic sur n'importe quel mot de votre page web. LA fenêtre fournit des explications et des traductions contextuelles, c'est-à-dire sans obliger votre visiteur à quitter votre page web !

Essayer ici, télécharger le code;

SensagentBox

Avec la boîte de recherches Sensagent, les visiteurs de votre site peuvent également accéder à une information de référence pertinente parmi plus de 5 millions de pages web indexées sur Sensagent.com. Vous pouvez Choisir la taille qui convient le mieux à votre site et adapter la charte graphique.

Solution commerce électronique

Augmenter le contenu de votre site

Ajouter de nouveaux contenus Add à votre site depuis Sensagent par XML.

Parcourir les produits et les annonces

Obtenir des informations en XML pour filtrer le meilleur contenu.

Indexer des images et définir des méta-données

Fixer la signification de chaque méta-donnée (multilingue).


Renseignements suite à un email de description de votre projet.

Jeux de lettres

Les jeux de lettre français sont :
○   Anagrammes
○   jokers, mots-croisés
○   Lettris
○   Boggle.

Lettris

Lettris est un jeu de lettres gravitationnelles proche de Tetris. Chaque lettre qui apparaît descend ; il faut placer les lettres de telle manière que des mots se forment (gauche, droit, haut et bas) et que de la place soit libérée.

boggle

Il s'agit en 3 minutes de trouver le plus grand nombre de mots possibles de trois lettres et plus dans une grille de 16 lettres. Il est aussi possible de jouer avec la grille de 25 cases. Les lettres doivent être adjacentes et les mots les plus longs sont les meilleurs. Participer au concours et enregistrer votre nom dans la liste de meilleurs joueurs ! Jouer

Dictionnaire de la langue française
Principales Références

La plupart des défintions du français sont proposées par Memodata et comportent un approfondissement avec Littré et plusieurs auteurs techniques spécialisés.
Le dictionnaire des synonymes est surtout dérivé du Crisco ou du dictionnaire intégral (TID).
L'encyclopédie française bénéficie de la licence Wikipedia (GNU).

Traduction

Changer la langue cible pour obtenir des traductions.
Astuce: parcourir les champs sémantiques du dictionnaire analogique en plusieurs langues pour mieux apprendre avec sensagent.

Copyright

Les jeux de lettres anagramme, mot-croisé, joker, Lettris et Boggle sont proposés par Memodata.
Le service web Alexandria est motorisé par Memodata pour faciliter les recherches sur Ebay.
La SensagentBox est offerte par sensAgent.

Dernières recherches dans le dictionnaire :

reliquat · La · MOLAIRE · OBSEDAIT · fourvoyer ·
930 visiteurs en ligne

calculé en 0.047s

   Publicité 

Ecran ▼    Interface ▼    Favoris ▼   

 » 

Choisissez vos langues source et cible.

Résumé des résultats
 définitions   synonymes   locutions   réseau sémantique   anagrammes   mots-croisés   conjugaison   exemple   wikipedia   Le Littré   Ebay   traductions 
 
définitions

corpus (n.m.)

1.ensemble de textes, de discours réunis en vue d'une étude.

 
synonymes

corpus (n.m.)

corps, recueil

 
locutions
 
dictionnaire analogique

corpus (n. m.)

tid

recueil[Classe]

corpus (n. m.) [linguistique]

 
le Littré (1880)

CORPUS (s. m.)

Terme latin employé pour signifier la collection du droit romain. Le corpus juris, ou, simplement, le corpus.

ÉTYMOLOGIE

Voy. CORPS.

 
Wikipedia

Corpus

Un article de Wikipédia, l'encyclopédie libre.

Sommaire

  • 1 Le corpus en linguistique
  • 2 Le corpus en littérature
  • 3 Le corpus dans la science
    • 3.1 Corpus bien formé
      • 3.1.1 Taille
      • 3.1.2 Langage
      • 3.1.3 Temps couvert par les textes du corpus
      • 3.1.4 Registre de langage
    • 3.2 Méthodologie
    • 3.3 Corpus parallèles et corpus comparables
      • 3.3.1 Corpus parallèles
      • 3.3.2 Corpus comparable
  • 4 Voir aussi
  • 5 Notes & références

Un corpus est un ensemble de documents, artistiques ou non (textes, images, vidéos, etc.), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, etc.

Le corpus en linguistique

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus.

On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier. "Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.

Le corpus en littérature

Le corpus regroupe un ensemble de textes ayant une visée commune.

Le corpus dans la science

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.

D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.

D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition bien entendu qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.

Corpus bien formé

Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :

  • la taille ;
  • le langage du corpus ;
  • le temps couvert par les textes du corpus ;
  • le registre ;

Taille

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistiques).

Langage

Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possible de tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.

Temps couvert par les textes du corpus

Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment des néologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges.

Registre de langage

Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant à un autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.

Méthodologie

Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous corpus:

  • le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;
  • le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.

Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.

Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10

  • Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;
  • Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;
  • ...

La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangé.

Corpus parallèles et corpus comparables

Corpus parallèles

On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau paragraphes, phrases et mots) pour disposer d'un jeu de donnée bilingue, en particulier dans des domaines spécialisé où le vocabulaire et l'usage des mots et des expressions évolue rapidement.

À titre d'exemple, au 26 octobre 2006, les versions françaises et anglaise des articles Déclin de l'Empire romain d'Occident et Decline of the Roman Empire sont des textes parallèles. Le texte source est la version anglaise, la version française est la cible, issue de la traduction.

Bien que les textes soient dits parallèles, la traduction engendre des différences structurelles entre les textes. Certaines expressions peuvent-être traduite par un nombre différent de mots. Par exemple « Theories about the decline and fall of the Roman Empire » est composé de 10 mots alors que sa traduction « Théories du déclin de l'Empire romain » n'est composé que de 7 mots. De la même façon des phrases dans le texte source sont susceptible d'être regroupé dans la traduction ou à l'inverse scindée. Le parallélisme n'est donc jamais parfait et les méthodes d'alignements doivent en tenir compte.

Les corpus de textes parallèles sont toutefois relativement rares. À titre d'exemple citons le Hansard, qui est le compte-rendu des Débats de la Chambre des communes canadienne, publié en français et en anglais.

Corpus comparable

La linguistique de corpus ayant besoin de jeux de données volumineux pour travailler, les corpus parallèles sont certes très précieux mais trop rare pour suffire à tous les usages.

Les corpus comparable sont eux largement plus répandus. Déjean & Gaussier (2002)[1] donnent la définition suivante de corpus comparable

« Deux corpus de deux langues l1 et l2 sont dits comparables s'il existe une sous-partie non négligeable du vocabulaire du corpus de langue l1, respectivement l2, dont la traduction se trouve dans le corpus de langue l2, respectivement l1. » 

Un corpus comparable est donc composé de texte dans des langues différentes mais partageant une partie du vocabulaire employé, ce qui implique généralement que les textes parlent d'un même sujet, à la même époque et dans un registre comparable. Une sélection d'articles de journaux dans différentes langues, traitant d'une même actualité internationale et à la même époque constitue un bon exemple de corpus comparable.

L'alignement ne peut donc plus s'appuyer sur la structure du texte (qui n'a pas à être identique d'une langue à l'autre) et les approches proposés cherchent plutôt à prendre en compte le contexte de chaque terme à aligner, c'est-à-dire la façon dont ils sont employés et les mots avec lesquels ils co-occurrent dans le texte.

Voir aussi

  • Le genre Corpus désigne un groupe d'insectes.

Notes & références

  1. ↑ Hervé Dejean & Éric Gaussier, une nouvelle approche à l'extraction de lexique bilingues à partir de corpus comparables, 2002 lire en ligne
Portail de la littérature – Accédez aux articles de Wikipédia concernant la littérature.
Récupérée de « http://fr.wikipedia.org../../../c/o/r/Corpus.html »

This entry is from Wikipedia, the leading user-contributed encyclopedia. It may not have been reviewed by professional editors (see full disclaimer) . Donate to wikipedia.

Licence : Wikipedia. This article is licensed under the GNU Free Documentation License.

eBay
  

CORPUS DES INSCRIPTIONS ARABES ET TURQUES DE L'ALGERIE (2.5 EUR)

Usage commercial de ce terme

2 partitions chant orgue Mozart Ave Verum Corpus Bach (2.5 EUR)

Usage commercial de ce terme

Pax Corpus Jeu PS1 complet (3.99 EUR)

Usage commercial de ce terme

CORPUS CHRISTI T1 LE SHERIF UNIJAMBISTE (6.0 EUR)

Usage commercial de ce terme

T25/Gravure 1895 SICILE Procession CORPUS DOMINI (7.5 EUR)

Usage commercial de ce terme

### PAX CORPUS SUR PLAYSTATION (PS1) RARE ### (7.5 EUR)

Usage commercial de ce terme

Achat sur eBay et aides linguistiques
Définitions et traductions accessibles en 1 double-clic !

   Publicité ▼

Usage commercial international sur eBay

White Courtesy Phone - Christi, Angel Corpus (1995)MINT (1.25 USD)

Usage commercial de ce terme

DALE McBRIDE (45 & picture sleeve) CORPUS CHRISTI WIND (1.5 USD)

Usage commercial de ce terme

SEA GULL MOTEL MATCHCOVER-CORPUS CHRISTI, TEXAS (1.7 USD)

Usage commercial de ce terme

Vintage Chrome Postcard 1st Methodist Church, Corpus TX (1.89 USD)

Usage commercial de ce terme

GREGORIAN CHANT- PENTECOST-CORPUS CHRISTI - SOLEMNES-NM (1.99 USD)

Usage commercial de ce terme

Corpus Christi Corpus Christi Corpus Christi Shot Glass (2.0 USD)

Usage commercial de ce terme

MEXICANA, CORPUS CRISTI - MONTEREY 1ST FLIGHT 1966 (2.55 USD)

Usage commercial de ce terme

Early View- "The Bluff" - Corpus Christi, Texas TX (2.75 USD)

Usage commercial de ce terme

Plastic 8 inch Crucifix Brass color Corpus NEW Catholic (2.75 USD)

Usage commercial de ce terme

1948 LOADING OIL DRUMS AT CORPUS CHRISTI TEXAS PORT (2.99 USD)

Usage commercial de ce terme

1940 North Beach Corpus Christi Texas TX Postcard PC (2.99 USD)

Usage commercial de ce terme

CORPUS CHRISTI Texas Flag bumper sticker decal 5" x 3" (3.0 USD)

Usage commercial de ce terme

Skyline of Corpus Christi, Texas (3.0 USD)

Usage commercial de ce terme

LOT Vintage Crucifix Cross Jeussu Christ IHS Corpus OLD (3.0 USD)

Usage commercial de ce terme

Samsco San Antonio Corpus Christi Austin Waco TX MB (3.37 USD)

Usage commercial de ce terme

~1940 CORPUS CHRISTI BASCULE BRIDGE, TEXAS VINTAGE PC (3.49 USD)

Usage commercial de ce terme

SEA SIDE PAVILION,c1910,Corpus Christi,TX (3.5 USD)

Usage commercial de ce terme

ENDLESS SUMMER SPOOF T-SHIRT Surfing Corpus Christi TX (3.5 USD)

Usage commercial de ce terme

1941 RR TRAIN NUECES CAUSEWAY CORPUS CHRISTI TX PC (3.55 USD)

Usage commercial de ce terme

U.S COAST GUARD AIR STATION CORPUS CHRISTI TX. PATCH (3.75 USD)

Usage commercial de ce terme

U.S COAST GUARD CORPUS CHRISTI TEXAS HONOR GUARD PATCH (3.75 USD)

Usage commercial de ce terme

got corpus christi? FUNNY Vinyl Decal Sticker PARODY (3.95 USD)

Usage commercial de ce terme

Nixon Building, Plaza Hotel, Corpus Christi, Texas 1940 (3.99 USD)

Usage commercial de ce terme

~1945 GREETINGS FROM CORPUS CHRISTI, TEXAS POSTCARD (3.99 USD)

Usage commercial de ce terme

CORPUS CHRISTI T-SHIRT LARGE 100% COTTON (3.99 USD)

Usage commercial de ce terme

TEXAS INDUSTRIAL EMERGENCY SERVICES CORPUS CHRISTI ERT (4.0 USD)

Usage commercial de ce terme

Corpus Christi Texas Police Department Patch (4.0 USD)

Usage commercial de ce terme

Corpus Christii / Thesyre - F.O.A.D. Split CD (4.0 USD)

Usage commercial de ce terme

CORPUS DELICTI Diane Wagner Murder True Crime Trial '86 (4.0 USD)

Usage commercial de ce terme

~1940 AERIAL VIEW CORPUS CHRISTI, TEXAS VINTAGE PC (4.49 USD)

Usage commercial de ce terme

CORPUS CHRISTI TEXAS LARGE LETTER POSTCARD 1940S NICE! (4.5 USD)

Usage commercial de ce terme

1980 CORPUS CHRISTI TX TELEPHONE BOOK (4.5 USD)

Usage commercial de ce terme

MANNY CORPUS 8x10 2008 STUDIO Photo - Colorado ROCKIES (4.75 USD)

Usage commercial de ce terme

1940 POSTCARD - CORPUS CHRISTI, TX - CATHEDRAL (4.95 USD)

Usage commercial de ce terme

1934 POSTCARD - CORPUS CHRISTI, TX - OCEAN CARGO SHIPS (4.95 USD)

Usage commercial de ce terme

1950s Padre Island Toll Gate CORPUS CHRISTI TX OLD CARS (4.99 USD)

Usage commercial de ce terme

Tx292 - Bluff View, Corpus Christi, Texas. (4.99 USD)

Usage commercial de ce terme

Tx321 - T-Head at Corpus Christi, Texas. (4.99 USD)

Usage commercial de ce terme

Tx326 - Harbor Bridge, Corpus Christi, Texas. (4.99 USD)

Usage commercial de ce terme

Tx327 - Harbor Bridge, Corpus Christi, Texas. (4.99 USD)

Usage commercial de ce terme