Ferienhaus Polen - Hotels - phone cards - Bad Antogast - Free Programs - Sentences and quotes - visit poland

  Vendredi 20 février 2004 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Présence de la Lorraine dans la lexicographie française de l'Ancien Régime

 Présenté par : Isabelle Turcan

     Si nous nous intéressons à la présence de la Lorraine dans les dictionnaires de langue française imprimés sous l'Ancien Régime, c'est pour tenter de comprendre pourquoi le libraire nancéien, Pierre Antoine, a choisi de rééditer en Lorraine à Nancy, en 1734 puis de 1738 à 1742 et en 1752, le Dictionnaire Universel François et Latin dit de Trévoux car il fut imprimé dans cette petite ville de la Principauté de Dombes pour la première fois en 1704.
     Après avoir étudié dans quelle mesure la Lorraine fut présente, de façon modeste, dans les dictionnaires imprimés sous l'Ancien Régime avant la naissance du Dictionnaire [...] de Trévoux, nous montrerons que c'est véritablement dans ce grand ensemble sériel imprimé à diverses reprises tout au long du XVIIIe siècle (1704-1771) que la Lorraine rayonnera, à divers titres, dans l'Europe francophone des Lumières, grâce à des rédacteurs et éditeurs qui ont osé entrer en concurrence avec le Dictionnaire de l'Académie française pour représenter l'usage réel d'une langue française enracinée dans une culture et ouverte au monde.


  Vendredi 6 février 2004 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Le fabuleux destin du lexique français en judéoespagnol (en comparaison avec les gallicismes de l'espagnol standard)

 Présenté par : Béatrice Schmid (Université de Bâle)

     Le judéo-espagnol oriental, la variété de l'espagnol parlée et écrite dans les communautés séfarades de l'Empire Ottoman, vit son apogée au début du XXe siècle. La séfardophonie atteint alors, avec plus de 200'000 locuteurs, son point culminant, et la presse et la production littéraire séfarades vivent une prospérité impressionnante.
     Il s'agit, de plus, d'une époque de bouleversement culturel. Depuis le milieu du XIXe siècle, une modernisation et une ouverture vers le monde occidental se manifestent à une vitesse vertigineuse. En raison du prestige de la culture française et grâce au réseau d'écoles francophones établi par l'Alliance Israélite Universelle, les nouvelles idées et la vie moderne entrent dans le monde des séfarades avec un accent français, ce qui, naturellement, se fait remarquer aussi dans la langue. Au début du XXe siècle, la francisation linguistique parvient à un tel degré que Haïm V. Sephiha parle de "judéo-fragnol" pour désigner ce judéo-espagnol moderne.
     L'influence française affecte tous les niveaux de la langue, pourtant c'est dans le lexique qu'elle est la plus évidente. La modernisation de la langue et l'élaboration des nouveaux registres langagiers s'accompagnent d'une occidentalisation ou "reromanisation" : non seulement le lexique français est la source principale pour l'enrichissement du vocabulaire, mais beaucoup de journalistes et d'écrivains font des efforts pour exterminer les turcismes et autres balkanismes en les remplaçant par des éléments provenant des langues occidentales "de la même mère", de préférence du français.
     La conférence vise à présenter les différents aspects de la pénétration des éléments français dans le lexique judéo-espagnol et de les comparer aux éléments que l'espagnol standard a empruntés au français au siècle des lumières.


  Vendredi 23 janvier 2004 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

L'Iconophore dans les dictionnaires français des XIXe et XXe siècles

 Présenté par : Thora van Male (Institut d'Etudes Politiques de Grenoble)

     Parallèlement au discours porté par son texte, le livre dictionnaire véhicule également un discours dans ses illustrations ornementales, qu'il s'agisse des ornements éditoriaux (tels qu'étudiés par Isabelle Turcan) ou du paratexte que constituent bandeaux, lettrines et culs de lampe dans le corps de l'ouvrage. À partir du XIXe siècle, grâce aux développements technologiques en matière de xylogravure et ensuite de lithographie, l'illustration prend une part de plus en plus active en lexicographie, sur les plans documentaire et ornemental.
     Si quelques chercheurs français (principalement François Corbin) travaillent sur l'illustration documentaire du dictionnaire moderne, l'ornement semble avoir été laissé pour compte. Or, il existe un gisement d'une richesse considérable et inexploitée dans ce domaine, particulièrement dans la période située entre 1830 et 1950. La lexicographie française de cette période a fait preuve d'une rare créativité sur le plan iconographique. Elle a produit un corpus d'illustrations que j'appelle iconophores (iconophore: image dont le premier trait pertinent est constitué par la lettre initiale du nom de son référent), sans égal dans la culture lexicographique de l'Occident moderne.
      Pour l'heure, seule à étudier systématiquement cette forme de paratexte lexicographique, il me semble souhaitable que ce vaste champ puisse être ouvert à d'autres chercheurs français et internationaux. Pour connaître les iconophores, ces illustrations lexicographiques qui me passionnent, consulter Le Monde2 du mois d'octobre.
     Extrait visible sur http://www-sciences-po.upmf-grenoble.fr/fr/doc/iconophore.htm


  Vendredi 9 janvier 2004 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Les structures du TLF

 Présenté par : Ruth Radermacher (Université de Strasbourg)

      Depuis quelques années, le TLF est complet, occupant plus d'un mètre sur les étagères des bibliothèques. " Un grand dictionnaire de plus " - se contentent de penser la plupart des linguistes.
      Ce projet de thèse, qui était au départ une enquête sur l'histoire du dictionnaire TLF, vise à faire ressortir les spécificités de cet ouvrage, notamment les progrès que l'équipe de Nancy a effectués dans différents domaines de la lexicographie. Une sorte d'exégèse du contenu nous paraît souhaitable, afin d'instruire les utilisateurs sur le profil particulier et les possibilités offertes par cet outil, d'éclairer les différentes options prises au sein de l'équipe et de montrer les apports et les limites de l'utilisation de l'informatique dans un projet lexicographique. On verra que le TLF se distingue nettement de ses homologues. Ce n'est donc pas un dictionnaire comme les autres.
      L'exposé s'articulera en trois parties. On commencera par une comparaison détaillée du TLF à son prédécesseur, le Dictionnaire alphabétique et analogique de la Langue Française. De toutes les caractéristiques révélées à travers cette approche, on n'approfondira que deux : la rubrique Etymologie et Histoire et les exemples.


  Vendredi 5 décembre 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Corpus électronique des plus anciens documents linguistiques de la France : le département de la Meuse

 Présenté par : Anne-Christelle Matthey (Université de Zurich/FEW)

     Cette communication présentera un travail de doctorat actuellement en cours qui s'insère dans un projet global d'édition des Plus Anciens Documents Linguistiques de la France. Ce vaste projet initié par Jacques Monfrin en 1967 a été repris par Françoise Vieillard, Olivier Guyotjeannin (tous deux Ecole Nationale des Chartes) ainsi que Martin-D. Glessgen (Université de Zürich), qui a déjà eu l'occasion de venir présenter l'avancement des travaux dans ce séminaire (cf. communication du 4 mai 2001).
L'objectif de ce projet est double : il s'agit de préparer ces documents en ancienne langue pour une édition à la fois fiable et moderne. " Fiable " c'est-à-dire s'approchant le plus possible de l'original. " Moderne " parce que alliant une version traditionnelle imprimée et une version électronique. Tous les textes ainsi édités seront accompagnés d'une analyse linguistique complète ; autrement dit une analyse des particularités grapho-phonétiques, lexicologiques, morpho-syntaxiques et également onomastiques.

Ma présentation dans ce séminaire se déroulera en trois temps :
1° Les 240 chartes du département de la Meuse (comprises entre 1226 et 1270).
2° Les derniers développements informatiques attachés au projet en général (critères d'édition, lemmatisation, interrogations linguistiques).
3° L'étude du phénomène de la préstandardisation du français, qui peut se dégager des résultats d'analyse linguistique (notamment lexicale) des chartes meusiennes.


  Vendredi 7 novembre 2003 - 10h30-12h00 Université de Nancy 2, Bâtiment B salle B10 (1° étage)
Séminaire ATILF
 Titre :

La géographie linguistique : entre régularité et histoire

 Présenté par : Marie-Guy BOUTIER (professeur à l'Université de Liège, directrice de l'Atlas linguistique de la Wallonie)

     Qu'est-ce que la géographie linguistique ?
     Il nous semble qu'on peut la définir comme la plus "facile" et la plus "parlante" des disciplines relevant de la linguistique historique. C'est du moins ce que nous tenterons de montrer en partant de notre expérience concrète de rédactrice de l'Atlas linguistique de la Wallonie.
     Après avoir brièvement rappelé les fondements de la géolinguistique et quelques concepts traditionnels de cet art, puis présenté l'Atlas linguistique de la Wallonie et le mode particulier de rédaction de cet atlas (qui tient aussi du dictionnaire historique), nous expliciterons la façon dont nous concevons le travail (ou le jeu ?) du géolinguiste.
     Le géolinguiste manipule des objets linguistiques à la fois nombreux, homogènes, explicites et strictement attribués. Il construit grâce à eux des figures hiérarchisées (types) visant à rendre compte de leur organisation (régulière ou singulière) en même temps qu'à déceler des figures plus générales pouvant expliquer d'autres configurations d'objets analogues.
     Ces quelques principes et leur application concrète seront explicités grâce à la lecture de quelques cartes de l'ALW.


  Vendredi 3 octobre 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Déja comme mot du discours

 Présenté par : Denis PAILLARD (Laboratoire LLF - UMR 7110, Université de Paris 7)

     Les descriptions de déjà portent essentiellement sur ses emplois aspecto-temporels (cf. il est déjà parti, as-tu déjà mangé du caviar ?) même si l'existence d'emplois discursifs est largement reconnue (cf. quel est ton nom déjà ? ...Déjà qu'il ne répond pas. Alors pourquoi veux-tu que....). L'exposé portera sur les emplois discursifs de déjà. Parmi les questions que soulèvent ces emplois, je discuterai en particulier des points suivants :
  - quels sont les critères qui permettent de distinguer déjà adverbe de déjà mot du discours ?
  - y a-t-il une sémantique commune à déjà adverbe et déjà mot du discours ?
  - comment définir la portée de déjà mot du discours ?
  - déjà mot du discours apparaît dans différentes positions : position initiale, position médiane, position finale. Quels sont les facteurs qui déterminent telle ou telle position ? Quels sont les effets de sens propres à telle ou telle position ?
  - déjà peut être en position détachée (à l'écrit entre virgules) ou non détachée (sans virgules), cette différence de ponctuation étant corrélée, à l'oral, à une différence intonative. On cherchera à montrer que cette différence a priori anodine, correspond en fait à une différence de portée.

La description de déjà mot du discours sera faite dans le cadre du format de description élaborée dans le cadre d'un projet russe-français, dont je présenterai les principales notions (définition "en langue" des mots du discours, mise en évidence de deux sémantiques discursives : sémantique de la pertinence et sémantique de l'adéquation, reformulation discursive, polysémie des mots du discours)
Ci-dessous on trouvera un tout premier corpus illustrant certains emplois de déjà.

  (1) Elle a d'autant moins d'excuses que déjà, en 66, juste avant Sedan, elle avait failli épouser un Hollandais, presque un Prusco.
  (2) Juin tirait à sa fin, et déjà il faisait sur Paris une chaleur accablante.
  (3) Le fioul n'a pas encore touché la première plage que déjà la machine judiciaire s'est mise en marche.
  (4) ... Les petites virent leurs parents se diriger vers la chambre, et la peur leur glaça les joues, le nez et jusqu'aux oreilles. Déjà, ils touchaient le bouton de la porte, lorsqu'ils entendirent un sanglot derrière eux. C'était Marinette qui ne pouvait plus retenir ses larmes, tant elle avait de frayeur et de remords aussi.
  (5) Antonio toucha le chêne. Il écouta dans sa main le tremblement de l'arbre. C'était un vieux chêne plus gros qu'un homme de la montagne, mais il était à la belle pointe de l'île de Geais, juste dans la venue du courant, et, déjà, la moitié de ses racines sortaient de l'eau.
  (6) Il n'acheva pas sa phrase, car, déjà, l'homme ne l'écoutait plus.
  (7) Geneviève- dit-elle - cette vilaine pensée n'est pas digne de toi. Je suis sûre que déjà tu en as honte...
  (8) ...Et puis tu vas être plongé jusqu'au cou dans la politique, tu n'auras plus une minute à toi. Déjà tu te plains de manquer de temps pour ton roman....
  (9) Allez vous en ! Déjà que vous avez perdu la guerre, vous n'allez pas nous faire tuer par dessus le marché.
  (10) C'est la première fois de ma vie que je dîne avec un comte. Vous êtes le comte comment déjà ?


  Vendredi 26 septembre 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

TILT : Réalisations actuelles

 Présenté par : Ann Pourchot et Stéphanie Biquillon

     L'objet de ce séminaire est de présenter certaines réalisations effectuées par les intervenants dans le cadre du projet TILT (Trésor Informatisé de la Langue Technique) dont le laboratoire est partie prenante.
     TILT est mené dans le cadre du Programme Technolangue dont l'objectif est le développement, l'adaptation et l'intégration des outils logiciels linguistiques afin de traiter de gros volume de données, pour répondre aux nouveaux besoins de la société en matière de recherche d'informations.
     Le projet TILT vise à construire un corpus du français technique utilisé dans les normes AFNOR et d'aligner ce corpus sur son équivalent anglais, et à fournir les ressources indispensables au développement d'applications linguistiques ( assistance à la traduction, recherche d'informations, indexation, constitution automatique de résumé, …).
     Pour mener à bien ce projet, différentes tâches ont été effectuées.
     Dans un premier temps, nous avons été amenés à apporter une solution pour convertir des fichiers PDF au format XML. Nous avons donc mis en place une application automatisant cette conversion. Puis, nous avons évalué les résultats en sortie de conversion afin de valider les fichiers XML.
     Dans un deuxième temps, nous avons recherché un étiqueteur dans le cadre d'une demande de l'AFNOR. En effet, il est très important pour eux d'étiqueter les normes afin de permettre la recherche d'informations, l'indexation, etc.
     Enfin, nous avons effectué un re-balisage du format XML-AFNOR au format XML recommandé par la TEI.


 Vendredi 5 septembre 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Coup de projecteur sur le DNPS : dictionnaire et colloque

 Présenté par : Danuta BARTOL et Henri-Claude GRÉGOIRE

     Les 13/14/15 novembre prochains aura lieu, à Nancy, un colloque international sur le thème "Langues et sociétés de l'Europe moderne" organisé conjointement par Nancy 2 (H. Cl. Grégoire/D. Bartol) et l'ATILF. Il a pour but de mettre en lumière un projet de dictionnaire des notions politiques et sociales (le dnps). Le séminaire du 5 septembre, à l'ATILF (10h30), permettra aux gens du laboratoire de faire un peu mieux connaissance avec l'équipe du dnps et son projet de dictionnaire et de colloque.


 Vendredi 13 juin 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Détection et correction des erreurs orthographiques des textes arabes non diacritisés

 Présenté par : Achit ABDELMADJID

     La détection et la correction d'erreurs orthographiques est l'un des domaines d'application du TALN traitement automatique des langues naturelles les plus intéressants et les plus attrayants, du fait de l'intérêt croissant qu'on accorde à la qualité des textes que nous utilisons et manipulons quotidiennement dans nos administrations et dans nos correspondances personnelles. Aussi, cela est du au fait que ce genre de programme intervient dans un grand nombre d'applications. A titre d'exemple, dans les logiciels de traitement de textes, dans certains services de messageries électroniques intégrée au web dont l'exemple type est la messagerie du site www.yahoo.com qui offre la possibilité d'effectuer une vérification orthographique en ligne des textes des messages à envoyer.

     Le thème de mon stage au niveau du laboratoire ATILF Analyse et Traitement Informatique de la Langue Française, concerne le développement d'un détecteur / correcteur d'erreurs orthographiques pour des textes arabes non diacritisés. La détection se fera selon deux modes distincts et la correction nécessitera la coopération de l'utilisateur. Ce genre d'application peut s'avérer utile pour la vérification et l'évaluation de la qualité des ressources linguistiques textuelles arabes(corpus de textes) ou dans le contexte de la GED (Gestion Electronique des Documents) où on peut même songer à l'incorporer comme un module dans un logiciel intégré de GED. Et dans le cadre du projet du Trésor de la Langue Arabe TLA, on peut d'ores et déjà penser à l'utiliser comme outil ad hoc pour vérifier les textes non diacritisés saisis manuellement ou bien provenant d'une numérisation de documents papiers avec OCR arabe en vue d'être intégrés dans le TLA. Sachant entre autre, que ce genre d'applications peut traiter sous certaines conditions du texte français.

     L'étude conceptuelle a permit d'établir la possibilité d'envisager deux types d'applications:

  • Application locale
  • Application Web Server basée sur les scripts CGI (Common Gateway Script) sous Apache Sever qui conviendrait à un environnement Intranet / Internet.

     Du point de vue implémentation, cela s'est concrétisé sous forme de deux applications l'une tournant en local et l'autre permettant pour le moment la détection des erreurs orthographiques en ligne au travers d'un formulaire.

     Au cours de mon exposé, j'aurais à faire une brève présentation de ce qu'est le domaine du traitement automatique des langues naturelles TALN et en particulier le domaine de la détection/correction d'erreurs orthographiques et puis en second je parlerais de la langue arabe, de ses particularités et de l'analyse morphologique du lexique arabe. Ensuite, je présenterais l'étude conceptuelle de cette application et en dernier, je terminerais ma présentation avec une démonstration.


 Vendredi 6 juin 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Les champs sémantiques multilingues unifiés

 Présenté par : Sébastien HATON

     Notre problème est la constitution de lexiques multilingues complets illustrant la non bi-univocité des correspondances lexicales entre les langues. En effet, il est rare qu’à un terme en langue source corresponde une seule traduction en langue cible. Par surcroît, le décalage interlangue grandit de manière exponentielle à chaque ajout d’une langue dans l’étude.

     Comme lexie de référence, nous avons choisi le verbe français abandonner car il semble « faiblement » polysémique alors que le nombre de ses traductions est considérable. Pour leur recensement, nous utilisons la méthode de la fusion des données [cf. PLOUX, 1997] : en plus des traductions du verbe recueillies dans la partie français-langue cible des dictionnaires bilingues, nous avons récupéré les verbes en langue cible pour lesquels abandonner est une traduction proposée. Le recensement effectué, les traductions sont organisées dans un tableau en fonction de critères discriminatoires pertinents (des constructions syntaxiques aux variations contextuelles). Nous obtenons ainsi des micro-paradigmes de traduction pour chaque « sens » de la lexie.

     Un des constats majeurs de cette étude préliminaire est qu’il existe entre les emplois de la lexie d’origine et d’autres mots de la langue source des liens qui émergent via le paradigme de traductions. Or, ces nouveaux mots possèdent leurs propres paradigmes de traductions qui créent de nouveaux liens et ainsi de suite. Ce va-et-vient incessant rend rapidement impossible une approche séquentielle du problème. Aussi, il nous paraît nécessaire de représenter conjointement tous les emplois des lexies en langue source qui sont en relation avec la lexie à traduire. Ainsi, nous constituons un paradigme lexical autour de la notion d’abandon qu’il sera possible de confronter aux paradigmes de traductions. De même, chaque traduction proposée vient généralement « se positionner » sémantiquement entre deux lexies (ou davantage) dans la langue source, comme le font apparaître les dictionnaires bilingues que nous avons consultés.

     Pour représenter nos données, nous proposons la création de champs sémantiques multilingues unifiés, dirigés par un réseau qui fait apparaître les liens sémantiques entre les lexies d’une même langue autant qu’entre celles de langues différentes. Chaque unité du réseau est porteuse de ses propres informations linguistiques, tandis que les liens font apparaître les données qu’elle partage avec les autres unités auxquelles elle est reliée au sein du graphe.

     Ces champs permettront de construire des dictionnaires bilingues ou multilingues en utilisant n’importe quelle langue présente dans le graphe comme langue source. Elle donnera également accès au champ sémantique d’abandon sur des critères élargis et motivés.


 Vendredi 16 mai 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Biconsonantisme et homonymie du lexique arabe

 Présenté par : Youssef AYACHE

     La recherche sur la bilitarité originelle du lexique arabe apporte un éclairage nouveau au problème endémique de l’homonymie des racines : dans l’hypothèse d’un état primitif de bilitarité (ou de biconsonantisme), la réductibilité des trilitères (et des quadrilitères) à des bases bilitères différentes fonctionnant comme des étymons semble constituer un critère “systématique” de séparation des homonymes.

     Je commencerai mon exposé en explicitant les notions de “racine” et de “famille de mots” dans le domaine arabo-sémitique, puis je présenterai de manière très succincte le cheminement et les résultats de la recherche sur la bilitarité, avant d’aborder, enfin, l’intérêt de ces résultats pour le traitement des homonymes en lexicographie arabe et pour l’élaboration d’une nouvelle nomenclature des racines.


 Jeudi 13 mars 2003 - 14h00-16h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Etude de graphes lexicaux à partir d'un dictionnaire électronique

 Présenté par : Bernard Victorri et l'équipe LaTTICe

 site de LaTTICe (Langues, Textes, Traitements Informatiques et Cognition) : http://www.lattice.ens.fr/


 Jeudi 13 mars 2003 - 10h00-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Extraction d'informations à partir du TLFi et modélisation d'informations lexicales

 Présenté par : ATILF

  Télécharger le projet ILF "D’un dictionnaire à une modélisation lexicale sémantique du français et au lexique sémantique correspondant" au format PDF (387 Ko)


 Mercredi 12 mars 2003 - 15h00-17h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Calcul du sens d'unités polysémiques à l'aide de FRANTEXT

 Présenté par : Bernard Victorri et l'équipe LaTTICe

 site de LaTTICe (Langues, Textes, Traitements Informatiques et Cognition) : http://www.lattice.ens.fr/


 Vendredi 7 mars 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

La vision du monde de l'homme médiéval à partir de quelques mots et contextes d'ancien et de moyen français, confrontée aux connaissances actuelles

 Présenté par : Hiltrud GERNER et Marc CHAUSSIDON

Dans une première partie, nous faisons le point sur le lexique de l'Astronomie (titre provisoire) : la motivation pour sa mise en chantier, son état actuel, son corpus, ses ressemblances et ses différences par rapport aux autres lexiques du Moyen Français avec une présentation de quelques articles relatifs aux sujets traités.

Dans la deuxième partie, nous proposons, à partir de quelques vedettes du lexique, une sélection thématique et illustrée d'exemples, que nous confrontons aux connaissances de notre époque telles qu'elles se présentent dans des ouvrages de vulgarisation scientifique et dans la base Frantext moderne.

Les thèmes abordés sont : la terre - les planètes - les étoiles - les météorites ; ce dernier thème étant un pont vers la discipline de Marc Chaussidon (Centre de Recherches Pétrographiques et Géochimiques Nancy -UPR CNRS) qui interviendra ponctuellement pour donner le point de vue actuel des sciences de l'univers.


 Vendredi 28 février 2003 - 14h30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Analyse linguistique automatique des listes dans les documents structurés

 Présenté par : Véronika Lux

Dans le TAL en analyse syntaxique, on considère classiquement la phrase comme unité privilégiée. Aussi, les listes sont-elles déroutantes pour un analyseur : souvent, ni la liste entière ni chacun de ses constituants pris séparément ne sont des phrases.
Comme le montre l'exemple ci-dessous, la séquence introductrice d'une liste peut être une proposition syntaxiquement ; les éléments de liste peuvent être compléments de cette introduction, etc.

Il vous suffit alors de :
1. placer un nouveau récipient sous le bec de la cuve,
2. procéder à un nettoyage rapide et automatique du panier.

Dans le contexte de documents structurés (e.g. XML, HTML) où les listes sont marquées avec un balisage particulier, nous avançons quelques propositions pour prendre en compte leurs particularités, afin d'en améliorer l'analyse syntaxique. Nous présentons la solution technique mise en oeuvre avec les ressources disponibles au Centre de Recherche de Xerox (langage de transformation de structures et analyseur linguistique).


 Jeudi 20 février 2003 - 14h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Base lemmatisée d'ancien français et Répertoire des formes graphiques occurrentes: histoire d'une fusion

 Présenté par : Pierre Kunstmann, professeur à l'université d'Ottawa, responsable du laboratoire de français ancien
son CV : http://www.uottawa.ca/academic/arts/lfa/chercheurs/kunstmann.html

Il s'agit de constituer une banque lexicale qui soit un répertoire, avec indice grammatical et références aux oeuvres, des mots que présentent les textes d'ancien français. Rêve naguère chimérique, le projet est réalisable de nos jours avec l'appui de l'informatique, si l'on est prêt à y consacrer les moyens et le temps nécessaires. C'est le but que s'était proposé l'équipe du LFA, qui, à partir de textes numérisés (la base TFA, sur le serveur de l'ARTFL à Chicago), d'index lemmatisés, de dictionnaires de formes et de lemmes, avait entrepris d'organiser et de construire peu à peu une Base lemmatisée d'AF (BLAF), fichier (FileMaker) des formes graphiques occurrentes regroupées par vedettes pour faciliter la recherche sur le lexique (notamment sur l'évolution du vocabulaire par genre et par région), la graphématique et la morphologie du français des 12e et 13e siècles. Pour ce faire, le LFA avait adopté une politique de lemmatisation des principaux textes d'AF, à commencer par ceux du 12e siècle. Dans la base, chaque lemme serait accompagné de ses graphies, d'un indice grammatical et de la référence au texte; la base serait mise en relation avec l'ensemble de sous-bases que constituent les index lemmatisés d'oeuvres particulières, où l'on peut trouver des informations plus détaillées. Depuis l'an dernier, le LFA s'est associé à une équipe allemande (M.-D. Glessgen, Strasbourg/Zurich; A. Stein, Stuttgart) qui avait conçu un projet voisin, à partir d'un corpus de chartes et visant à l'exploitation du corpus de textes littéraires constitué par A. Dees à Amsterdam. Les deux projets parallèles sont devenus un projet commun, dont le but est d'établir sur des fondements fermes et rigoureux un ensemble ordonné de formes lexicales, qui sera plus tard enrichi par apports successifs de façon à constituer une grande base des formes graphiques occurrentes de l'ancienne langue (à commencer par l'ancien français). Cet outil donnera une vue plus précise des masses lexicales, permettra aussi d'étudier la distribution des formes dans les textes particuliers et constituera un outil précieux pour tout futur dictionnaire alphabétique d'AF; il tracera une voie d'avenir pour la recherche sur le lexique (notamment sur l'évolution du vocabulaire par genre et par région), la graphématique et la morphologie du français antérieur à la Renaissance.
Post-scriptum :
Le site du LFA se trouve à www.uottawa.ca/academic/arts/lfa
On peut consulter le premier essai de la BLAF sur le site: direx.ca de la compagnie hulloise DIREX, qui en a conçu l'interface.


 Vendredi 7 février 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

MOSAïQUE LORRAINE
Observation des patois lorrains romans à partir de quelques cartes de l'ALLR
(Atlas linguistique et ethnographique de la Lorraine romane)

 Présenté par : Claude MICHEL

L'atlas lorrain roman est parmi les plus riches et les moins explorés des atlas régionaux, notamment du fait de la difficulté d'interprétation des données. La lecture et l'interprétation de quelques cartes phonétiques, morphologiques et lexicales issues de cet atlas permettra de montrer différents aspects de l'originalité de cette aire dialectale marginale, appuyée sur la frontière des parlers germaniques. Les influences y sont diverses et le territoire est une zone d'interpénétrations de toutes sortes, d'accueil d'innovations et de maintien d'archaïsmes permettant à cette aire de conserver une certaine originalité malgré les poussées des parlers de l'ouest, de l'est et bien sûr du français, présent depuis longtemps dans certaines parties de la région. Peut-on parler d'une aire dialectale lorraine au milieu de cette diversité et où parle-t-on le « patois lorrain » ?


 Vendredi 17 janvier 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Syntagmes à sens différentiel de la forme adjectif+nom ou nom+adjectif

 Présenté par : Fabienne BAIDER

     L'étude présentée porte sur les couples de la forme (nom+adjectif) ou (adjectif+nom) que l'on peut construire à partir des noms "homme" et "femme" et qui présentent un sens différentiel.
     Le point de départ est un corpus élaboré par Marina Yaguello contenant une dizaine de couples (nom, adjectif) tels que "femme légère"/"homme léger", "femme honnête"/"homme honnête". Marina Yaguello (1978) a constaté que de tels syntagmes avaient un sens différentiel. L'axe de symétrie des sens de ces syntagmes correspondrait majoritairement à la distinction socioculturelle établie entre les référents "homme" et "femme".
     La question creusée dans cet exposé concerne l’existence, l’origine et la formalisation éventuelle de ce sens différentiel. La méthodologie adoptée est basée sur la constitution et l'étude de corpus, essentiellement extraits de la base FRANTEXT et de dictionnaires en ligne. Les requêtes ont porté sur les noms "homme" et "femme", mais ont du être restreintes aux couples de la forme (homme+adjectif) et (femme+adjectif). La présentation se fera en cinq temps:

(a) l’établissement de l’existence effective de ce sens différentiel à partir d’un corpus d’occurrences en synchronie;
(b) l'évolution diachronique des adjectifs, constituant de ces syntagmes : une distinction semble devoir être établie entre les syntagmes pour lesquels le sens différentiel n'est apparu que progressivement (par exemple ceux formés avec l’adjectif "léger" chez Ronsard) et des syntagmes pour lesquels la différence existait déjà en latin (par exemple ceux formés avec l’adjectif public) ;
(c) le rôle de la syntaxe et notamment la question de l'ordre respectif du nom et de l'adjectif : la distinction sémantique parallèle à l'ordre de ces constituants semble avoir disparu au profit d'une distinction basée sur une distinction socioculturelle concernant le référent nominal (femme honnête/honnête femme) ;
(d) le degré de lexicalisation : aujourd'hui, la plupart des syntagmes de la forme (homme+adjectif) ou (femme+adjectif) évoqués par Marina Yaguello semblent fortement lexicalisés, une telle évolution pose la question de l'intérêt d'une modélisation dans le cadre l'approche compositionnelle du sens ;
(e) le rôle du socioculturel dans l’existence du sens différentiel constaté de ces syntagmes et sa formalisation: Rastier propose d'ajouter l'élément socioculturel de "faiblesse" dans le sémantisme du nom "femme" ; Comment une approche compositionnelle, par exemple modélisée dans le cadre du lexique génératif, pourrait tenir compte d'un tel constituant sémantique ?


 Vendredi 10 janvier 2003 - 10h30-12h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

De l’étude de la polysémie logique à un projet de recherche centré sur la sémantique lexicale et le traitement automatique des langues

 Présenté par : Evelyne JACQUEY

Le but de cette intervention est double.

1. Questions abordées durant le doctorat essentiellement et la méthodologie adoptée.
Le domaine est celui de la sémantique lexicale dans le cadre du traitement automatique des langues. Le sujet d'étude est la polysémie logique, un cas particulier d'ambiguïté lexicale.

a. Propriétés
L'ambiguïté lexicale se conçoit généralement pour des lexèmes affichant au moins deux sens "lexicaux" sémantiquement liés. Les lexèmes relevant de la polyémie logique, par exemple le mot "livre", possèdent aussi cette première propriété (le mot "livre" a au moins deux sens lexicaux : il dénote un contenu informationnel, "le dernier livre de Semprun", ou un objet physique, "le livre qui est dans mon sac"). Cette catégorie de d'ambiguïté lexicale possède deux propriétés supplémentaires. La première est la coprédication : plusieurs sens d'un lexème ambigu coopèrent dans une même phrase "j'ai le dernier livre de Semprun dans mon sac". La seconde est la variation possible dans l'interprétation de la quantification : "j'ai relié tous les livres qui était dans mon sac" ("tous les" porte sur le sens physique de "livre") ou "je n'ai traduit aucun des livres de Semprun" ("aucun des" porte sur le sens informationnel de "livre").
b. Modélisation
Les propriétés particulières des lexèmes relevant de la polysémie logique posent des questions spécifiques si l'on se place du point de vue du traitement automatique des langues : en particulier, la question du nombre d'objets désignés pour chacun des exemples quantifiés et la question de l'accès à ces objets via le contenu sémantique des lexèmes qui les désignent. Dans le cadre du doctorat, j'ai proposé une modélisation, utilisant des extensions du lambda-calcul simplement typé, pour représenter les calculs sémantiques en présence.
2. Travaux que j'aimerais mener au sein du laboratoire
Ils resteront centrés sur l'étude et la modélisation en sémantique lexicale et traitement automatique des langues, mais ils vont diversifier, tant du point de vue des questions étudiées, que de celui des méthodologies adoptées. Par souci de concision, je n'en présenterai qu'un seul : vérification des propriétés des lexèmes relevant de la polysémie logique sur la base du TLFI et de FRANTEXT. J'essayerai de répondre à quelques questions qui me semblent fondamentales :
a. comparaison des trois propriétés attestées dans la littérature linguistique avec les définitions du TLFI
b. comparaison des trois propriétés attestées dans la littérature linguistique avec des corpus extraits de FRANTEXT
c. adéquation, extensions nécessaires ou infirmation des ces propriétés
Par ailleurs, je développe avec d’autres chercheurs divers travaux liés à la sémantique lexicale et la modélisation de ce type de connaissances dans le cadre du traitement automatique des langues.
d. sémantique lexicale, morphologie dérivationnelle et modélisation : soumission d’un article avec Fiammetta Namer à la conférence internationale « Représentations du sens linguistique », Montréal, mai 2002 et soumission d’un autre article au workshop international « Second International Workshop on Generative Lexicon », Genève, Avril 2002
e. sémantique lexicale et inférence en génération automatique de textes avec Claire Gardent : Groupe de travail GENI (travail sur les définitions extraites du TLFI pour quelques verbes de construction, collaboration possible avec Gérard Reb, coopération déjà avec Josette Lecomte pour les objets du TLFI et Gilles Souvay pour le tagger de Brill), Inférence pour la génération de réponse à des questions de compréhension et modélisation en sémantique plate du contenu des questions et des textes sur lesquels les questions sont posées.
f. sémantique lexicale et résolution d’anaphore avec Susanne Alt : constitution d’un corpus d’anaphores non directes et mettant en jeu un nom prédicatif ambigu entre un sens processif et un sens résultatif, évaluation de la pertinence du contenu sémantique d’un tel type de nom prédicatif pour faciliter la résolution de l’anaphore.

 Mardi 10 décembre 2002 - 14h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Grammaire du dictionnaire / dictionnaire de la grammaire: pour une nouvelle complémentarité conceptuelle

 Présenté par : Gérard Reb (Université de Strasbourg)

Principe: «l’aspect cognitif du langage, non seulement admet mais requiert, l’interprétation au moyen d’autres codes, c’est-à-dire la traduction» (Jakobson, 1963: 84)
Fil directeur: la formalisation de la grammaire et la formalisation du dictionnaire permettent la formalisation du sens.
Le problème: il importe de valider l’hypothèse que les langues naturelles sont «compilables»; et donc de construire une grammaire non contextuelle.


 Vendredi 6 décembre 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Résumé automatique multilingue tenant compte de la thématique du texte

 Présenté par : Abderrafih LEHMAM
Pertinence Mining

http://www.pertinence.net/

La société de l'information apporte une extraordinaire abondance de textes informatisés et diffusables de manière instantanée et met à portée de tous l'accès à des données qui restaient inaccessibles, car n'étaient jamais publiées. La généralisation des micro ordinateurs dans les entreprises, dans les foyers, à l'école et à l'Université permet une formidable diffusion de connaissances. Les outils de résumé automatique de texte peuvent apporter une réponse efficace à l'acquisition et la gestion des connaissances. Nous présentons dans ce cadre, une description d'un outil de résumé appelé Pertinence qui a pour particularité de traiter six langues européennes et trois langues asiatiques tout en tenant compte de la couleur thématique du texte à résumer. Informatiquement réalisé en XML/JAVA, Pertinence se fonde exclusivement sur des techniques linguistiques (analyse du discours, morphologie, synonymie, terminologie).


 Lundi 25 novembre 2002 - 14h00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Le dictionnaire, élément pivot, assistant l’homme dans le traitement de la langue

 Présenté par : Michael Zock
Limsi-CNRS

L’objectif de mon exposé sera de montrer ce qu’on peut faire à partir d’un dictionnaire électronique bien construit. Les applications discutées vont du plus simple (ne demandant pratiquement aucun travail de recherche supplémentaire) au plus compliqué (une grande partie du travail reste à faire). Les dictionnaires électroniques ont un potentiel considérable, potentiel largement sous-exploité à l’heure actuelle. En dotant ces dictionnaires de quelques fonctionnalités supplémentaires, nous pourrions assister l’homme de diverses manières: (a) l’aider à obtenir des renseignements sur un mot donné (traduction, sens, informations grammaticales); (b) l’aider à mémoriser les mots ou les structures fondamentales d’une langue; (c) l’aider à trouver le mot qu’il a sur le bout de la langue; etc. Une grande partie de l’exposé sera consacré à ce dernier problème. Tout le monde s’est déjà trouvé dans la situation suivante : on cherche un mot (ou le nom d’une personne) que l’on connaît, sans être en mesure d’y accéder à temps. Les travaux des psychologues montrent que les personnes se trouvant dans cet état savent énormément de choses sur le mot recherché (sens, nombre de syllabes, etc.), et que le mot avec lequel ils le confondent lui ressemble étrangement (lettre ou son initial, catégorie syntaxique, champ sémantique, etc.). Par ailleurs, l’analyse des erreurs de discours spontané révèle que les mots sont stockés sous deux modes: par la forme (sons ou graphèmes) et par le sens. Ceci étant, on pourrait imaginer un programme tirant bénéfice de cet état de fait, afin d’assister un locuteur ou rédacteur à (re)trouver le mot qu’il a sur le bout de la langue. Notre argument concernant l'accès par la forme est fondé sur l'hypothèse suivante : ce qui empêche d'accéder au mot recherché est une certaine ressemblance formelle (graphème ou phonème) avec le mot cible. Etant donné que celle-ci est souvent due à une confusion ou inversion de graphème(s) ou phonème(s), nous pouvons nous servir du même mécanisme en l'inversant pour (re)-trouver le mot que le producteur avait sur le bout de la langue : nous permutons des phonèmes ou des syllabes, puis nous sélectionnons les candidats vraisemblables. Tout en ayant quelques caractéristiques propres, la méthode utilisée est proche de celle utilisée pour la correction orthographique. Notre argument concernant l’accès par le sens est fondé sur l’idée que le dictionnaire mental est un vaste réseau dont les mots sont les nœuds et les liens les associations activées en les entendant (ou en les voyant). Retrouver un mot consisterait donc à entrer dans ce réseau, puis suivre les liens. Si l’accès par la forme est implémenté, l’accès par le sens reste à construire. Cependant, avant de se lancer il serait bon de trouver une réponse aux questions suivantes :

  • quels sont ces liens entre les mots ou concepts? Les inventaires existants sont très incomplèts.

  • parmi ces liens, lesquels sont les plus fréquemment utilisés par les êtres humains? En d’autres termes, quels liens faut-il mettre dans un dictionnaire?
  • peut-on automatiquement identifier la nature et la fréquence des liens? Autrement dit, est-il possible/raisonnable d’avoir recours à l’analyse de corpus?

 Vendredi 8 novembre 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Linguistique variationnelle historique et traitement informatique de textes: présentation d'une méthode d'analyse

 Présenté par : Harald Völker
Université de Berlin

Au cours de ces dix dernières années, la linguistique variationnelle a connu un grand succès dans le domaine de la linguistique contemporaine. Sachant qu'on a perdu non seulement une partie des sources textuelles, mais encore leurs situations d'énonciation et leurs contextes d'origine, la linguistique variationnelle doit surmonter davantage d'obstacles avant qu'elle puisse être utilisée pour l'analyse et l'interprétation de la variation typique des langues des siècles passés.

À partir d'un corpus de chartes françaises du XIIIe siècle, Harald Völker se propose de présenter une méthode d'analyse qui parvient à distinguer d'une façon nouvelle les facteurs extra-linguistiques qui sont à l'origine des variations dans ces textes historiques en question.


 Vendredi 4 octobre 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

L'anthroponymie en Lorraine

 Présenté par : Aude WIRTH
ATILF - CNRS / Université de Nancy 2

Contrairement à ce que pourrait laisser croire la multitude des publications (de qualité et d'intérêt très variables) sur le sujet, l'anthroponymie (étude des noms de personnes) est une science relativement jeune et qui n'a encore que peu retenu l'attention des linguistes.
Cette intervention se veut une introduction à cette discipline ; elle présentera de façon concrète les méthodes de travail et les différents outils de recherche sur les noms de personnes en s'appuyant sur des exemples tirés de documents originaux et inédits. A partir de ceux-ci seront ensuite esquissées les principales caractéristiques du système anthroponymique lorrain à travers le temps (noms uniques, doubles, triples, catégorisation, fixation en noms de famille, etc.) ainsi que les apports de cette science à d'autres disciplines, qu'elles soient linguistiques ou non.


 Vendredi 6 septembre 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

L'intonation du français

 Présenté par : François Lonchamp
ATILF - CNRS / Université de Nancy 2
Il est possible de prévoir de manière quasi-algorithmique 
l'intonation d'une phrase française canonique (sujet - verbe - 
complément(s) - circonstant(s) ) à valeur rhématique. Les principales 
étapes sont:
- création des mots prosodiques, composés d'un mot lexical 
(substantif, verbe, adjectif...) et du ou des mots grammaticaux qui le 
précèdent (déterminants, auxiliaire, prépositions ...).
- création des groupes prosodiques, composés d'un ou 
plusieurs mots prosodiques, et obéissant à deux contraintes principales
  1 - contrainte d'eurythmie: tous les groupes 
prosodiques doivent avoir un nombre de syllabes sensiblement égal, de l'ordre
de 7 syllabes pour un débit modéré
  2 - contrainte syntaxique: aucun groupe prosodique ne peut être constitué
exclusivement d'un 'frère droit' et de son 'oncle' sur 
l'arbre syntaxique
de la phrase
- Le dernier groupe reçoit une intonation terminale (contour de finalité),
et les groupes qui précèdent un contour de continuation majeure.
exemple : Il a décidé de passer son permis cet été mots prosodiques 
(il a décidé) (de passer) (son permis) (cet été)
groupes prosodiques: la règle d'eurythmie suggère le 
découpage
	(il a décidé de passer) (son permis cet été),
mais la règle syntaxique l'interdit car le second groupe 
est constitué
exclusivement d'un 'frère droit' (complément du verbe 
'passer') et son
'oncle, le circonstant 'en été', ce qui impose le 
découpage non eurythmique
	(il a décidé) (de passer son permis) (cet été)
Nous terminerons cet exposé par une revue rapide de quelques structures
non canoniques: dislocation à gauche et à droite, présentatif, opposition
thème-rhème.

 Vendredi 5 juillet 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Etude lexicale et modélisation de la polysémie verbale dans une perspective multilingue

 Présenté par : Sébastien Haton
ATILF

Dans un premier temps, notre recherche porte sur le recensement et l'analyse des éléments pertinents pour différencier chaque occurrence d'une unité verbale donnée en français. A la conclusion de cette étude préalable, nous proposons une relecture de la notion de polysémie qui dépasse largement le simple cadre définitoire et étymologique, afin de l'adapter à nos objectifs d'implémentation. Le but de ce travail est d'élaborer des modèles lexico-conceptuels susceptibles de faire le lien entre différentes langues (français, anglais, espagnol et italien) pour essayer d'améliorer les systèmes de traduction automatique.

La prise en compte initialement très large des facteurs jugés pertinents pour le passage d'une langue à l'autre nous oblige à réfléchir sur la nécessité de simplifier les modèles précités. Une des solutions envisagées consiste à intégrer les unités verbales dans un réseau sémantique multi-dimensionnel dont l'algorithme est essentiellement basé sur le calcul de la distance sémantique entre les mots ainsi que sur la mise en relation des traits implantés pour chacun d'entre eux. Nous montrerons comment cette méthode permet en apparence de régler le problème de non-parallélisme lexical entre les langues.


 Vendredi 7 juin 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Les expressions verbales figées dans quatre variétés du français (Belgique, France, Québec, Suisse : projet "BFQS")

 Présenté par : Jean Klein
Université de Louvain-la-Neuve

Depuis un certain nombre d'années, dans le cadre théorique du lexique-grammaire, Maurice Gross et le Laboratoire d'Automatique Documentaire et Linguistique (LADL) se sont consacrés à l'analyse syntaxique des phrases simples du français, mais aussi des phrases idiomatiques. Le corpus des phrases figées représente, de nos jours, environ 40.000 items, du moins en ce qui concerne la variété "centrale" ou "standard" du français: le projet BFQS s'attache à décrire, en outre, les variantes régionales (hors de France) des expressions verbales figées, à savoir en français de Belgique, du Québec et de Suisse. Le projet, en cours de réalisation, et qui associe des chercheurs représentant les quatre variétés de français, s'assigne un triple objectif, en partant des tables syntaxiques établies au LADL pour le seul français de France:
1° déterminer les expressions communes aux quatre variétés, soit les expressions BFQS;
2° ajouter au corpus du français "standard" les expressions inusitées en France;
3° établir des sous-catégories d'expressions communes à certaines variétés (BF, BQ, BS, FS, FQ, BQS, etc), sans oublier la variété F ("francisme") à ne pas confondre avec le français "standard".
Le but final du projet est de réaliser un dictionnaire (électronique et en version papier) des expressions verbales figées du français et d'en fournir une classification syntaxique.


 Vendredi 3 mai 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

L'édition d'un texte dialectal du XVIIIe siècle : problèmes lexicographiques

 Présenté par : Fernand Carton
Université de Nancy 2

Je termine l'édition des Vers naïfs en vray patois de Lille de Jacques Decottignies (1706-1762), qui sera publiée chez Champion (2002). C'est la première publication des oeuvres de cet auteur méconnu, fils du chansonnier lillois Brûle-Maison dont j'ai publié les oeuvres (1965), et qui a longtemps influencé la littérature dialectale du Nord. Il s'agit de l'édition diplomatique, avec glossaire, de 45 pièces (chroniques, chansons, pasquilles, stances etc...) à partir de sources dispersées : imprimés originaux, feuilles volantes, copies manuscrites inédites. Le vocabulaire en est très riche, notamment en matière de mercerie, de modes et d'ustensiles de ménage. Il est constitué de picard plus ou moins archaïque, d'argot et de poissard (parisien ?). Nous exposerons la manière dont nous avons abordé certains problèmes de signification et de datation (timbres des chansons, détails historiques...).


 Vendredi 5 avril 2002 - 10h30-12H00 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Informatiser un dictionnaire ancien, ou comment rétroconvertir un document structuralement chaotique: le cas du Dictionaire <sic> critique de la langue française de Jean-François Féraud ( Marseille, Mossy 1787-1788, 3 vol.)

 Présenté par : Philippe Caron
Université de Poitiers

Le Dictionnaire critique de la langue française est, dans la chaîne des dictionnaires français, un maillon important car il actualise vers 1780 les résultats du considérable effort critique effectué aussi bien par les lexicographes que par les remarqueurs et les grammairiens de la période classique. Actualiser, c'est-à-dire à la fois citer, corriger et compléter le travail de ses précédesseurs, y compris et surtout l'Académie française. Par rapport à ses contemporains, il se signale notamment par un souci de mise à jour de l'information linguistique tout à fait remarquable. Mais les innovations ne s'arrêtent pas là: réforme conséquente de l'orthographe, premier effort systématique de notation phonétique et prosodique, précision fine des restrictions de l'usage d'un signe, recherche d'une meilleure visualisation architecturale de l'article. Cela dit, son informatisation se heurte à un problème structural de fond: par sa genèse ( premier état en 1761 sous le titre Dictionnaire grammatical de la langue française; édition augmentée en 1768), le D.C. est une collection de remarques classées par ordre alphabétique. La composante définitionnelle n'apparaît que tardivement dans le projet, ce qui confère à ce répertoire un caractère chaotique. Toute tentative de décrire et de modéliser l'enchaînement des composants se heurte à la variété des réalisations et des syntaxes d'un composant. De plus la typographie offre notamment des cas de polysémie et d'homonymie qui empêchent la récupération optimale de l'information. Actuellement dans un état de saisie philologiquement propre au deux tiers ( la fin de l'opération de saisie-correction est prévue pour juillet 2002), le texte-machine doit ensuite subir un transcodage WPF - XML. Il sera d'abord empoigné par le logiciel PHILOLOGICA pour figurer sur le site Dictionnaires d'autrefois. Mais deux nouveautés devront être apportées à cette base pour qu'elle remplisse pleinement sa fonction: d'une part un travail de lemmatisation devrait permettre de faciliter les requêtes; d'autre part le volumineux supplément manuscrit devrait être offert à la consultation en ligne en offrant au lecteur la possibilité d'en consulter in situ une version finement scannée. C'est cette étape qui nécessite la collaboration de l'ATILF. Pour un premier tour d'horizon, consulter le premier état du site Féraud à l'adresse suivante: http://www.mshs.univ-poitiers.fr/feraud/feraud.htm Il offre notamment le renvoi au cahier de saisie et un premier état de description du dictionnaire. Fin de la proposition de séminaire


 Vendredi 8 mars 2002 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Comment enrichir l'information phraséologique du TLF ?

 Présenté par : Franz-Josef Hausmann
Université d'Erlangen

La mise à jour du TLF devrait profiter de l'information cachée dans les profondeurs du dictionnaire. Celle-ci est immense. Certes, le TLFi permet à l'utilisateur averti d'aller chercher lui-même cette information, mais cette opération est souvent délicate ou laborieuse. Elle concerne en premier lieu les collocations cachées dans les articles des collocatifs et absentes des articles-bases, ensuite les locutions dont l'information est souvent éparpillée sur plusieurs articles - ou cruellement insuffisante, et pour finir, les bases d'allusion, en nombre insuffisant, mal accessibles et souvent absentes parce que nées avant 1789. Or, il faut reconnaître que telle citation célèbre de Molière (p. ex. "Cachez ce sein que je ne saurais voir") fait partie du français actuel.


 Vendredi 11 janvier 2002 - 11h00 Salle Paul Imbs
Séminaire ATILF
 Titre :

LES GRANDS DICTIONNAIRES DE LANGUE FRANÇAIS, LE TLF ET SES CONTEMPORAINS : IMAGES, ANALYSES ET PROSPECTIVES

 Présenté par : Jean PRUVOST
Université de Cergy-Pontoise

          Resituer les seize volumes du TLF dans le paysage lexicographique et dictionnairique de la seconde moitié du XXe siècle, en partant d'un regard comparatif et contrastif, tel pourrait être un pemier objectif. On peut, au passage, prendre ainsi du recul sur les dynamiques qui étaient mises en présence, repérer plus précisément les types d'énergies privées et institutionnelles alors en œuvre dans des projets assez différents, avec des réceptions bien distinctes et des prolongements divers, voire contradictoires.
          Proposer ensuite, de manière volontairement imprudente, sans autocensure, diverses pistes pour continuer la magnifique entreprise représentée par le TLF pourrait constituer un second objectif. J'essaierai au passage de lister les attentes de tous les publics potentiels, qu'il s'agisse du dictionnaire papier, d'hier, ou du dictionnaire sur support électronique, d'aujourd'hui et de demain. Les perspectives sont ici à appréhender dans la double dimension, lexicographique et dictionnairique.
          Enfin, dans un troisième temps, en partant d'exemples concrets, je souhaiterais évoquer ce que j'ai dénommé " la triple investigation ", une sorte de preuve par neuf pour un dictionnaire de langue, et un type de mise en abyme, qui puisse permettre une exploitation encore plus efficace d'un grand dictionnaire de langue comme le TLF. Un propos un peu sibyllin que j'espère rendre clair lors de notre rencontre.

          Quelques ouvrages personnels ou dirigés qui pourront entre autres servir d'appui : Dictionnaires et nouvelles technologies (PUF, 2000) Les dictionnaires de langue française (PUF, Que sais-je ?) (à paraître en décembre) Les dictionnaires de langue française, Dictionnaires d'apprentissage, Dictionnaires spécialisés de la langue, Dictionnaires de spécialité (H. Champion, 2001)


 Vendredi 7 décembre 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Présentation de la théorie de la grammaticalisation et des recherches actuelles dans ce domaine

 Présenté par : Bernard Combettes
ATILF

- Les principales notions : réanalyse, analogie, "affaiblissement" sémantique
- Illustration par quelques exemples :
   + l'évolution des modalisateurs ("en principe", "de toutes façons")
   + l'évolution des introducteurs de topique ("pour ce qui regarde", "en ce qui concerne")


 Lundi 12 novembre 2001 - 14h00 LORIA salle A008
ILD&ISTC
 Titre :

Gestion de données terminologiques

 
14h00-15h00 Alan Melby - Formats normalisés de terminologie pour l'industrie de la localisation
15h00-15h20 discussion
15h20-15h30 Pause
15h30-16h30 Kara Warburton - Gestion des thésaurus et terminologie dans un grand groupe industriel : le cas d'IBM
16h30-17h00 Discussion

Alan Melby, professeur associé à la Brigham Young University (Provo), présentera le format TBX, adopté par l'industrie de la localisation pour la représentation de données terminologiques multilingues. Il montrera comment ce format est le fruit d'une évolution initié dans le cadre de la Text Encoding Initiative (TEI) et poursuivie au sein de l'ISO (ISO 12200, ISO 12620, ISO CD 16642). Il présentera un exemple d'utilisation de TBX ainsi que le type d'environnement nécessaire pour gérer et valider des données dans ce cadre.

Kara Warburton, terminologue à IBM (Toronto), présentera les différentes ressources terminologiques utilisées à IBM comme exemple des problèmes de gestion de données terminologiques en milieu industriel: glossaires unilingues traditionnels, bases de données terminologiques, lexiques bilingues pour la traduction , et listes de termes préscrits, parmi d'autres. Elle démontrera les stratégies possibles pour adapter une base de données terminologiques aux besoins de différents utilisateurs et elle abordera quelques problèmes de compatibilité entre les données lexicographiques et les données terminographiques.


 Vendredi 26 octobre 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

DE L'UNIVERSEL À LA LANGUE ET RETOUR PAR LES CHOSES DANS LA LEXICOGRAPHIE FRANÇAISE (1798-1890)

 Présenté par : Jacques-Philippe Saint-Gérand
ATILF

Depuis l'article de d'Alembert dans l'Encyclopédie du XVIIIe siècle , le dictionnaire de choses et le dictionnaire de langue apparaissent comme deux objets que distinguent leur choix dans la nomenclature et leur dessein, c'est-à-dire leur objectif définitoire. Mais au XIXe siècle, cette distinction de principe tend à perdre dans les faits de sa pertinence théorique - si tant est qu'elle en ait eu une - principalement en raison du retour inattendu de la notion d'universel que la lexicographie du XVIIe siècle, puis celle du XVIIIe siècle débutant, avaient pourtant largement sollicitée. Mais cette résurgence d'un semblable prédicat n'est en aucune manière reprise à l'identique de cette notion. C'est ainsi que sous l'étiquetage des signes de langue fluctuent les limites formelles et substantielles des représentations de la réalité produites par l'esprit rationnel. De même que la notion de grammaire générale qui se dessine au milieu du siècle de Girault-Duvivier, de Napoléon Landais ou de Célestin Ayer n'a plus rien en commun avec celle qu'envisageait Port-Royal en 1660, de même les dictionnaires universels qui vont se multiplier à l'époque des Bescherelle, Poitevin ou Larousse ne répondent-ils plus que partiellement aux desseins définis par leurs prédécesseurs de l'âge classique.

Les titres associent volontiers désormais les deux déterminations d'universel et de langue, dans un souci évident de brouiller cette distinction de la langue et des choses au profit de la seule exhibition de nomenclatures toutes plus exhaustives les unes que les autres, ou souhaitant tout du moins l'être… Cette distinction méthodologique, que nos collègues d'outre-Rhin résument dans l'expression de Wörter und Sachen, pose en effet la question du rapport chronologique de l'une à l'autre. La langue et les mots préexistent-ils aux choses qu'ils vont servir à définir, ou, inversement, est-ce l'existence empiriquement constatée des choses qui justifie la production d'entités lexicales spécialement conformées à leur désignation ?

Pour certains lexicographes, il s'agit d'exposer par là une ambition nominaliste, dont la finalité est celle de permettre à l'utilisateur d'embrasser la totalité du monde en projetant sur l'infini de sa diversité les rets d'un lexique qui lui soit co-extensif. Illusion, prétention, utopie, aveuglement ? peut-être… Restent les témoignages de Boiste (1800 - 1857), Rolland (1812), Gattel (1812 - 1841), Rochette (1819), Nodier et Verger (1826), Raymond (1829), de Poitevin même en 1856, jusqu'au Grand Dictionnaire universel du XIXe siècle de Pierre Larousse (1866-1876)…

Pour les autres, la précision de dictionnaire de langue française, venant appuyer en sous-titre l'intitulé Dictionnaire universel, suffit à exposer sinon à justifier l'idée selon laquelle les mots, singulièrement en français, constituent des nomenclatures capables d'épuiser la richesse du monde empirique.

Le projet présenté ici voudrait définir la place du concept d'universalité dans le dictionnaire de langue français du XIXe siècle, et son rapport au type du dictionnaire général. La langue française, par sa nature - ce que les prédécesseurs nommaient son génie - est-elle apte à embrasser toute la diversité de cet universel que les progrès du monde contemporain ne cessent d'étendre à l'infini ? Autrement dit, le dictionnaire universel est-il destiné à rassembler la langue de tous, ou est-il un outil dont la finalité est de propager un lexique unique et de délimiter un lexique unique qui exprimerait toute la langue ? L'universalisation lexicale est-elle alors conçue comme un fait de diffusion d'un lexique modélisé, ou comme le processus de fusion d'un nombre indéfini de lexiques particuliers ? Sommes-nous alors en présence d'une démultiplication ou d'une somme de lexiques ?

Voilà qui nous renvoie à la distinction jadis énoncée par Alain Rey entre fonction normative et fonction descriptive des dictionnaires. Cette répartition des fonctions jette une lumière neuve sur l'opposition théorétique de d'Alembert entre les dictionnaires de choses et les dictionnaires de langue ; mais elle ne résout pas la difficulté que constitue dans ce panorama l'irruption du prédicat universel. Bernard Quemada a d'ailleurs noté cette aporie de la description en soulignant que c'est la qualification problématique d'universel qui a justement permis à d'Alembert de formuler historiquement l'opposition qui le rendit célèbre : " introduite en France par Furetière, la dénomination de dictionnaire universel rallia le plus grand nombre d'adhésions dans la mesure où elle impliquait une nomenclature étendue. Elle fut utilisée par tous les types de contenus lexicographiques, plus particulièrement au XVIIIe siècle pour les dictionnaires de termes techniques dont le vocabulaire connaissait une extension jusque là sans exemple " (p. 165)...

On voit ici le poids accordé à la question de l'extension de la nomenclature dans la définition du dictionnaire universel. La fin du XVIIIe siècle et les premières années du XIXe, seraient-elles donc le moment d'une succession typologique définie de façon fonctionnelle, ou bien devrions-nous considérer qu'il s'agit là d'une évolution terminologique recouvrant des réalités complexes et imbriquées mettant en relation le langage, la pensée du langage et l'univers extra-linguistique ? Est-il alors pertinent de situer l'universalité du seul côté de l'extension de la nomenclature ? Et ne serait-il pas plus judicieux d'envisager plutôt la question du côté de la destination du dictionnaire et des réponses métalexicographiques qu'il propose ? La masse documentaire à traiter ici, fournie par le seul XIXe siècle saisi dans une définition extensive, est abondante et l'on commencera dans ce séminaire à en examiner les premières caractéristiques.


 Vendredi 12 octobre 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Présentation de ses orientations de recherche

 Présenté par : Susanne Alt-Salmon
ATILF

Ce séminaire sera consacré à une présentation de mes travaux et intérêts de recherche dans le but de faciliter le contact avec mes nouveaux collègues de l'ATILF. Mon exposé aura pour fil rouge le problème de l'interprétation référentielle en langue naturelle : par référence, j'entendrai la façon dont un interlocuteur identifie, à partir d'une expression linguistique (pro)nominale, l'entité extralinguistique en question. Je présenterai un modèle de la référence qui part de l'hypothèse que toute expression référentielle s'interprète dans un contexte limité - son domaine de référence - à l'intérieur duquel elle identifie son référent sur des caractéristiques propres à sa détermination (indéfini, défini, pronom...) et à la sémantique de ses composantes. A partir du travail effectué jusque là, je présenterai quelques unes des mes perspectives de recherche, en mettant l'accent sur celles susceptibles d'impliquer mes collègues de l'ATILF.


 Vendredi 5 octobre 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Du nom de famille au surnom, du surnom au lexème. Ou l'inverse. L'aventure lexicographique du projet PatRom

 Présenté par : Jean Germain
Université de Louvain-la-Neuve

Les noms de famille peuvent-ils apporter quelque chose à la lexicographie, à la parémiologie, voire à la sémantique ? Ainsi pourrait se résumer l'objet de cet exposé profitant de l'expérience récente du projet PatRom. Pour rappel, celui-ci vise à établir un dictionnaire historique et génétique de l'anthroponymie d'origine lexicale des divers pays de langues romanes. A travers quelques exemples choisis, de quelques itinéraires étymologiques vécus, on tâchera de baliser le parcours méthodologique qui vise à établir une recherche anthroponymique non plus hasardeuse mais reposant sur les bases les plus rigoureuses possibles.


 Vendredi 7 septembre 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Le Dictionnaire des gallicismes de l'espagnol et les bases de données textuelles en langue espagnole

 Présenté par : André Thibault
Université de Strasbourg

La lexicographie de langue espagnole, qui accuse un fort retard face à celle du monde francophone, dispose depuis quelques années de nouveaux instruments de recherche qui permettront à ceux qui veulent bien s'en donner la peine d'améliorer substantiellement l'état de nos connaissances sur l'histoire du lexique castillan. De nombreux cédéroms mettent aujourd'hui à notre disposition des masses considérables de textes, littéraires ou non, interrogeables grâce à des logiciels de recherche plus ou moins performants ; en outre, le site internet de la Real Academia Española met gratuitement à la disposition des chercheurs du monde entier deux banques de textes, l'une diachronique (des débuts de la langue à 1975 - CORDE) et l'autre synchronique (de 1975 à nos jours - CREA), ainsi que la totalité du texte des 21 éditions de son dictionnaire. Nous essaierons de présenter en temps réel le fonctionnement de ces nouveaux instruments informatiques, en illustrant la démarche à partir d'exemples tirés de notre futur "Dictionnaire des gallicismes de l'espagnol".


 Vendredi 29 juin 2001 - 10H00 LANDISCO, Nancy 2
DEA
 Présenté par : Christelle MILLOT
Soutenance de DEA

La négation en patois lorrains de Meurthe et Moselle et des Vosges, dimensions morpho-syntaxiques.


 Mardi 12 juin 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

La représentation du français à la lumière de la notion de "patrimoine linguistique" : le cas du Québec

 Présenté par : Claude Poirier
Trésor de la langue française au Québec

claude.poirier@lli.ulaval.ca
http://www.tlfq.ulaval.ca

Le français du Québec a une réputation d'"enfant terrible" au sein de la francophonie. Les Québécois se distinguent nettement des autres francophones quand on considère l'écart entre leur façon de parler et la norme parisienne. Pourtant, ils semblent trouver plaisir à donner mauvaise conscience à la France quand il est question de fierté de la langue, de lutte contre l'anglicisation, ou encore de féminisation.

Par ailleurs, l'apparente assurance que paraissent traduire chez les Québécois leurs productions artistiques et même lexicographiques a comme contrepartie une indécision chronique concernant les choix normatifs et une inquiétude quant à la survie de leur langue en Amérique du Nord. Cette conférence posera comme hypothèse que cette situation complexe découle d'une méconnaissance de l'histoire du français québécois, ce qui engendre une analyse erronée de la nature de cette variété. Le français du Québec est-il un rameau du français, comme on l'a proclamé, ou un rejeton? Adopter la seconde hypothèse, comme le fera le conférencier, c'est ouvrir des perspectives nouvelles pour ce qui est de la représentation qu'on peut se faire de ce français d'Amérique, et peut-être aussi quant aux orientations à privilégier pour l'avenir du français comme langue internationale.


 Vendredi 8 juin 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

Le Dictionnaire des régionalismes du français ou la fin d'un dialogue de sourds

 Présenté par : Pierre Rézeau

Dans la liste des ouvrages mis à contribution par le Dictionnaire des régionalismes de France (De Boeck/Duculot, 2001), le corpus lexicographique est d'une importance particulière : d'une part, les dictionnaires de la langue générale, d'autre part les dictionnaires, glossaires, études intéressant le français d'une région ou d'une ville.

Or la pratique et la confrontation de ces deux ensembles amènent vite à constater le manque flagrant de dialogue entre eux. Il devient non moins évident que :

la prise en compte des standards de la lexicographie générale doit être un principe de base de la lexicographie différentielle (dans le choix de la nomenclature, dans l'élaboration des définitions, dans l'indication des marques d'usage) ;

  • les dictionnaires généraux ont beaucoup à puiser dans les travaux de lexicographie différentielle pour améliorer leur description du français (définition, aire géographique, exemplification, histoire).

    À l'aide de nombreux exemples, on montrera comment le Dictionnaire des régionalismes de France, fruit d'une double pratique lexicographique (générale et différentielle), a su faire dialoguer ces deux ensembles au bénéfice d'une meilleure description du français.


 Jeudi 7 juin 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Le temps en lambda-DRT typée

 Présenté par : Pascal Amsili
TALANA, Paris 7
La DRT s'est longtemps vu reprocher de ne pas être compositionnelle, et différentes propositions se sont faites jour pour rendre le processus de construction de DRS compositionnel. La lambda-DRT proposée par (Asher, 93) répond à cet objectif, à condition toutefois qu'on munisse le calcul d'un système de types qui permette (1) de représenter certaines informations dans les DRS en pendant la construction, et (2) de contrôler les bêta-réductions (Amsili & Hathout, 98). C'est cette "lambda-DRT typée" que je présenterai pendant cet exposé, d'abord en termes généraux, et ensuite en l'appliquant à la construction de DRS temporalisées.

 Jeudi 31 mai 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Une grammaire d'unification d'arbres pour une analyse topologique de l'allemand

 Présenté par : Kim Gerdes
LATTICE, Université de Paris 7

La structure syntagmatique contient deux sortes d'information linguistique : l'information sur la sous-catégorisation et l'information sur l'ordre de mots. Dans les langues à cas, contrairement aux langues anglo-romanes, la sous-catégorisation verbale est déterminée par le marquage casuel et l'ordre de mots détient une fonction communicative. Il s'impose de séparer la sous-catégorisation et l'ordre de mots en deux niveaux d'analyse linguistique.

Je formalise un concept traditionnel en linguistique germanique, le modèle topologique, dans lequel les mots sont placés dans des séquences préfigurées de cases, qui peuvent être emboîtées les unes dans les autres. Nous appelons la structure résultante une hiérarchie de domaines topologiques. Cette structure de domaines peut être vue comme arbre syntagmatique représentant exclusivement l'ordre et le groupement de mots, fournissant ainsi des interfaces naturelles avec la structure prosodique et avec la structure communicative (travail en collaboration avec Sylvain Kahane).

Je m'intéresse à modéliser le lien entre la sous-catégorisation, que je représente dans un arbre de dépendance syntaxique, et l'arbre topologique dans un formalisme d'arbres lexicalisés. Le formalisme de grammaire d'arbres adjoints (TAG), construisant une structure syntagmatique habituelle, n'est pas suffisamment puissant pour représenter le modèle topologique. Il faudra aussi permettre, de manière restreinte, la sister adjunction et l'éclatement d'une entrée lexicale en plusieurs arbres (TAG ensembliste). Le résultat est un formalisme d'unification d'arbres qui permet facilement d'obtenir tous les ordres de mots possibles et leurs structures topologiques pour un arbre de dépendance (arbre de dérivation) donné. La complexité de l'algorithme d' analyse est d'ordre O(n3+2k), n étant le nombre de mot, et k le nombre de noeuds mis en jeux dans une configuration non-projective.


 Jeudi 17 mai 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Un modèle théorique d'inférence de structures sémantiques et discursives dans le cadre de la génération automatique de textes

 Présenté par : Laurent Roussarie
LATTICE, Université de Paris 7

 Vendredi 4 mai 2001 - 11h00-12H30 ATILF Bâtiment CNRS, salle Paul Imbs
Séminaire ATILF
 Titre :

L'édition électronique et l'analyse linguistique de sources documentaires françaises du Moyen Âge à l'aide du langage script TUSTEP

 Présenté par : Martin Glessgen
Université Marc Bloch, Strasbourg

Le projet s'appuie sur un corpus de documents non-littéraires en ancien français. Le noyau de textes actuellement à l'étude pour une édition (combinée papier et électronique, avec l'établissement d'un glossaire) est un ensemble de chartes du XIIIe siècle conservées aux A.D. de la Meurthe-et-Moselle, publiées sous forme dactylographiée par Michel Arnod en 1974. Cette édition s'inscrira dans le cadre de la collection des " Plus anciens documents linguistiques de la France " dirigée par Françoise Vieillard et Olivier Guyotjeannin et servira de modèle pour les futurs volumes de la collection. La base de données qui se constitue peu à peu, s'enrichit dès maintenant d'autres textes en ancien et moyen français, appartenant à des genres variés (scientifique, narratif ou poétique) et reproduits d'après des manuscrits.

M. Gleßgen présentera l'état d'avancement des travaux : structuration du balisage, routines d'édition et d'interrogation lexicologique (et graphématique). Par ailleurs, il essaiera de décrire les objectifs d'histoire linguistique qui ont déterminé les choix des textes et des méthodes : les chartes, textes originaux, doivent permettre d'établir, au moins en partie, le réseau des scriptoria de la France médiévale. Celui-ci pourra servir à son tour de référence pour l'étude de textes littéraires d'ancien et de moyen français : il est important d'identifier la place qu'occupe un témoin textuel dans le diasystème historique selon des paramètres d'espace, de temps, de prestige social et de fonctions communicatives.

Enfin, M. Gleßgen présentera brièvement le langage script TUSTEP à l'aide duquel les programmes sont élaborés. L'exposé conduira à une réflexion sur les problèmes méthodologiques sensibles que soulève, à l'heure actuelle, la linguistique de corpus dans l'historiographie linguistique et sur le niveau d'exigence qu'elle doit atteindre : la conservation de données à long terme, la transparence de l'encodage et l'élaboration d'une épistémologie pour cette nouvelle discipline.


 Jeudi 26 avril 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Quelle est la nature des objets lexicaux auxquels s'appliquent les opérations morphologiques ?

 Présenté par : Françoise Kerlevoux

 Jeudi 19 avril 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

 Présenté par : Alexandre Dikovsky
IRIN Université de Nantes

Le traitement des syntagmes discontinus est un problème linguistique classique qui est un des problèmes difficiles des théories syntaxiques. Un syntagme discontinu est composé des unités lexicales plus ou moins éloignées dans l'énoncé.
En Français les plus connus sont : la mise en relief : "ces poissons, le mazout les a tués tous" les clitiques pronominaux : "je l'y trouve contraire" les déplacement d'un groupe nominal : "et de cette journée il grava à jamais le souvenir dans sa mémoire" etc.
Lors de l'analyse syntaxique, la discontinuité détruit le principe de programmation dynamique qui est à la base de tous les algorithmes polynômiaux d'analyse. Elle pose aussi problème de l'interprétation sémantique car la structure syntaxique rompue n'est pas bien adaptée aux définitions récursives compositionnelles.
Il existe plusieurs solutions partielles de ce problème : une approche transformationnelle, une approche, basée sur le contrôle de la montée des groupes dans les arbres syntaxiques, une approche logique basée sur le calcul des séquents avec la commutativité ponctuelle, etc. Aucune ne donne de solution véritablement efficace en terme de complexité.
Nous proposons une nouvelle approche à ce problème en termes de dépendances syntaxiques locales et explicites, et de valences (positives pour les gouverneurs, et négatives pour les dépendants). La saturation des valences correspond à l'établissement de dépendances longues discontinues.
Nous trouvons des critères de décidabilité d'une telle saturation élégants de point de vue mathématique, simples à réaliser et qui s'accordent bien avec la complexité réelle de déplacement des constituants dans les langues naturelles.


 Jeudi 29 mars 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Synoterm : un outil d'aide a l'acquisition de relations sémantiques spécialisées a partir de ressources lexicales

 Présenté par : Thierry Hamon
Université de Villetaneuse

De nombreuses applications dans les domaines de spécialité exploitent des terminologies. Constituer ces ressources nécessite d'identifier les termes du domaine, et de les structurer en les mettant en relation. La synonymie est précieuse pour le terminologue qui doit isoler le terme vedette de ses variantes sémantiques.
Nous nous sommes intéressé à l'acquisition de cette relation sur des corpus spécialisés. Dans notre outil d'aide à la structuration de terminologie (SynoTerm), des règles exploitent des informations sémantiques extraites de ressources de nature différente pour inférer des relations entre termes complexes. Celles-ci sont ensuite validées par un terminologue. L'implémentation de ces règles soulevant des problèmes d'optimisation, nous proposons une représentation des termes dans un graphe. Des algorithmes efficaces permettent d'obtenir des temps de calcul adaptés aux contraintes de la structuration d'une terminologie.
L'exploitation de ressources lexicales dans des conditions réelles nous a permis de caractériser l'apport des ressources générales et l'intérêt de les combiner à des données très spécialisées. Nous proposons une présentation structurée des résultats pour guider le travail de validation du terminologue et des critères évaluant de multiples paramètres, les mesures de précision et de rappel reflétant imparfaitement l'avis des terminologues.


 Jeudi 22 mars 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Construire une unité lexicale : plus qu'une simple question de forme

 Présenté par : Georgette DAL
UMR 8528 " SILEX " et GDR 2220, CNRS & Un. Lille 3

Cette intervention, intitulée " Construire une unité lexicale : plus qu'une simple question de forme ", se propose de montrer que les opérations linguistiques régissant la construction des unités lexicales construites ne se limitent pas à de simples mises en relation de catégories lexicales. Dans un premier temps, je ferai en effet apparaître que les contraintes à l'¦uvre dans la construction des unités lexicales construites sont avant tout sémantiques, et que les autres types de contraintes (formelles et catégorielles) sont pour la plupart consécutives de ces contraintes sémantiques fondamentales.
Dans un second temps, j'exposerai dans ses grandes lignes le projet MorTAL mené avec Nabil Hathout, Chritian Jacquemin et Fiammetta Namer, et dont la partie émergée est une base de données constructionnelles enrichies d'informations sémantiques.
Dans un dernier temps, je montrerai comment le TAL peut tirer bénéfice d'une telle appréhension des phénomènes constructionnels.


 Mercredi 14 mars 2001 - 14h00 LORIA salle A006
ILD&ISTC
 Titre :

MAT - A Machine Aided Translation System

 Présenté par : Dr. K. Narayana Murthy
Dept. of Computer and Info. Sciences
University of Hyderabad

This talk is about a Machine Aided Translation system called MAT. MAT was developed originally for translating between English and Indian languages but the technology can be extended for other languages as well.
MAT is a parser based translating system - it works at sentence level, not word by word. MAT uses the UCSG (Universal Clause Structure Grammar) parsing system developed at the University of Hyderabad, India. A quick overview of UCSG parsing system will be included here for completeness.
MAT is intended to assist human translators in primarily two ways. Firstly, it generates raw translations quickly. Secondly, it provides many useful tools such as on-line dictionaries, thesaurus, morphological analyser and generator, and a variety of post editing tools. The talk includes a quick view of these tools using examples.


 Jeudi 8 mars 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Modélisation de la langue par une correspondance sens-textes

 Présenté par : Sylvain Kahane
Lattice
Université Paris 7

La présentation débutera par une introduction à la théorie Sens-Texte, une théorie linguistique basée sur la dépendance développée depuis 40 ans par Igor Mel'cuk. Nous comparerons la formalisation usuelle de la TST (grammaires de correspondance) avec une formalisation de type grammaire d'unification inspirée à la fois de HPSG et des grammaires de combinaison d'arbres à la TAG.
Dans une deuxième partie, nous intéresserons à la lexicalisation de la grammaire. Nous montrerons qu'une grammaire complètement lexicalisée peut facilement être obtenue par combinaison de règles non lexicales et que différentes lexicalisations sont possibles selon la façon dont on répartit les informations linguistiques entre les unités lexicales. Nous effectuerons une comparaison détaillée avec les TAG lexicalisées et la méta-grammaire de Candito.


 Jeudi 22 février 2001 - 18h00 Campus Lettres et Sciences Humaines salle B 10
CONFÉRENCE U.F.R. DE LANGUES ET LITTÉRATURES ÉTRANGÈRES
 Titre :

Übersetzung und Linguistik im engeren Sinne. Quasi una fantasia.

 Présenté par : Pr Jörn ALBRECHT

Le professeur Jörn ALBRECHT est directeur de l'Institut de Traduction et d'Interprétariat de l'Université de Heidelberg (R.F.A.). Exposé en allemand.


 Jeudi 22 février 2001 - 16h15 Campus Lettres et Sciences Humaines salle B 10
CONFÉRENCE U.F.R. DE LANGUES ET LITTÉRATURES ÉTRANGÈRES
 Titre :

La formation des traducteurs dans les instituts universitaires en Allemagne et ailleurs.

 Présenté par : Jörn ALBRECHT

Le professeur Jörn ALBRECHT est directeur de l'Institut de Traduction et d'Interprétariat de l'Université de Heidelberg (R.F.A.). Exposé en français.


 Jeudi 22 février 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Une analyse thématique fondée sur l'amorçage

 Présenté par : Olivier Ferret
CEA Saclay DTI/SIIA/GPST

L'analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues et en recherche d'information, telles que le résumé ou l'extraction d'information par exemple. Elle ne peut être réalisée pleinement sur le plan fonctionnel et avec une bonne précision qu'en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Nous proposons de résoudre ce problème par un principe d'amorçage : une première analyse thématique, fondée sur l'utilisation d'une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d'apprendre de façon incrémentale et non supervisée des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise, plus complète et plus fiable.


 Jeudi 11 janvier 2001 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Méthodologie informatique des produits de l'INaLF

 Présenté par : Jacques Dendien
ATILF (ex INaLF-Nancy)

jacques.dendien@atilf.fr
http://www.atilf.fr/

Les produits de l'INaLF sont réalisés grâce à une boîte à outils (Stella) qui offre les services suivants :
1) outils divers : gestion des expressions régulières étendues, tris par B-arbres, conjugaison et fléchissement des mots de la langue française, lemmatisation, etc.
2) Interfaces WWW : gestion automatique de la notion de session et des espaces disque serveur associés, collecte de formulaires, menus déroulants à base de technologie Java, etc.
3) Système de gestion de bases textuelles structurées : fabrication de bases à compacité optimale, fonctions d'accès aux objets atomiques (mots), fabrication d'objets textuels arbitrairement complexes et de leurs moteurs de recherche, compilateur de langage de requête et de grammaires formelles.

Compte tenu du volume de cet ensemble, seuls seront présentés les caractéristiques les plus saillantes du point 3 :
- Indexation des objets atomiques et fonctions d'accès : la méthode d'indexation présentée est mathématiquement optimale et génère des index hyper-compacts gage de hautes performances.
- Théorie des objets textuels complexes et des moteurs de recherche : cette théorie propose une formulation mathématique des objets textuels et des moteurs de recherche. En dépit de son apparente simplicité, elle débouche sur la possibilité de combiner les objets textuels entre eux pour aboutir à des objets d'une complexité arbitrairement élevé dont le moteur de recherche est automatiquement disponible.

Cette théorie débouche également sur son implémentation informatique (les différentes classes d'objets textuels) permettant de créer un univers indéfiniment extensible, par la réalisation de nouvelles classes conformes à un modèle abstrait (notion de d'objet textuel natif). Elle permet également d'introduire du " savoir linguistique " à différents niveaux (adjonction de constructeurs à des classes existantes, réalisation de " classes savantes ", mise en ¦uvre des grammaires formelles).


 Jeudi 14 décembre 2000 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Présentation des produits de l'INaLF

 Présenté par : Jacques Dendien INALF-Nancy

Présentation des produits suivants : Dictionnaire de l'Académie française, huitième édition (1935) et neuvième édition (en cours de parution). Démonstration de l'hypernavigation entre ces deux éditions. Le Trésor de la Langue Française Informatisé (TLFI) : ce grand dictionnaire en 16 volumes a été totalement structuré à l'aide de balises textuelles identifiant à la fois les différents types d'objets objets rencontrés dans le TLF (définitions, exemples, syntagmes, indicateurs de domaine technique, etc.) et la structure hiérarchique des articles. Cette structuration permet à l'utilisateur de faire des recherches mettant en jeu plusieurs objets textuels dont il peut préciser le type, le contenu textuel, ainsi que les contraintes hiérarchiques liant les objets. Les différents modes d'interrogation du TLFI seront présentés, ainsi que l'hypernavigation à l'intérieur du TLFI ou vers les dictionnaires de l'Académie. Frantext. Cette base textuelle comprend un corpus de plus d'un milliard de caractères (textes littéraires intégraux). Elle offre un certain nombre de services qui seront présentés. Le service le plus remarquable est de mettre à disposition un langage de requêtes très poussé auquel l'utilisateur peut apporter ses propres extensions (grammaires formelles), permettant ainsi d'aborder des classes de problèmes non traités par les autres systèmes de bases textuelles. Frantext catégorisé : Cette base est une sous-partie de Frantext, constitués de 501 romans prétraités par l'assignateur de catégories grammaticales réalisé à l'INaLF. Dans cette base, le langage de requêtes ainsi que les grammaires définies par l'utilisateur on reçu d'importantes extensions permettant d'interroger à la fois sur les mots et sur les catégories grammaticales.


 Mardi 12 décembre 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Le webcourrier : nouvelle messagerie sur la toile

 Présenté par : Zina Tucsnak

Rappel des concepts et protocoles d'Internet. Le fonctionnement et les protocoles du courrier électronique. Présentation générale des nouveaux concepts du serveur de courrier de notre Laboratoire accessible sur la toile, permettant ainsi un accès itinérant pour chacun d'entre nous, sans aucun paramétrage. La mise en oeuvre du nouveau serveur(l'utilisation de l'interface web) Suggestions et remarques.


 Jeudi 7 décembre 2000 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

DEPENDANCE, PRECEDENCE ET CONTRAINTES

 Présenté par : Denys Duchier de l'Université de Sarrebrück
http://www.ps.uni-sb.de/~duchier/

Les langues, comme l'Allemand, où l'ordre des mots est relativement libre posent des problèmes aux approches basées sur les grammaires syntagmatiques. Les grammaires de dépendance qui ne font pas d'hypothèse de projectivité offrent une alternative séduisante qui permet de rendre compte plus directement et simplement de ces structures syntaxiques. Néanmoins elles posent deux défis:

(1) le traitement efficace de l'analyse syntaxique
(2) l'expression des contraintes sur l'ordre des mots

Je présente une approche basée sur les contraintes qui aborde ces deux points. La première partie publiée à MOL6 formule une caractérisation axiomatique formelle des arbres syntaxiques admissibles. Cette formulation possède également une lecture en tant que programme par contraintes pour laquelle on obtient une implantation efficace basée sur la propagation des contraintes. Cette formulation ignore l'ordre des mots.

La seconde partie est un travail en cours et propose une infrastructure formelle qui permet de construire une structure arborescente semi-ordonnée parallèle à la précédente et qui impose un ordre partiel sur les mots. Ces deux structures sont mutuellement contraignantes: nous appelons la première l'arbre de dépendance (ID tree), et la seconde, l'arbre de précédence (LP tree). Elles sont duales, ont des formulation similaires, et sont traitées par les mêmes techniques de propagation des contraintes. J'illustrerai cette approche en montrant son application au traitement du complexe verbal en Allemand.

Une implantation prototype a été réalisée en collaboration avec Ralf Debusmann dans le language Oz de programmation par contraintes concurrentes.


 Mardi 28 novembre 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Lexicographie bilingue des "mots de la communication"

 Présenté par : René Métrich et Eugène Faucher, de l'Université de Nancy 2

 Jeudi  23 novembre 2000 - 14h00 LORIA salle B013
ILD&ISTC
 Titre :

Robust Extraction of Grammatical Relations

 Présenté par : John Carroll, University of Sussex

Grammatical relations constitute a level of linguistic representation - intermediate between traditional syntax and semantics - that has been found to be useful in applications such as information extraction and multilingual information retrieval. I describe a system for high coverage, accurate extraction of grammatical relations from unrestricted English text, and discuss a number of linguistic application systems (including anaphor resolution, word-sense disambiguation, and subcategorisation extraction) that I and others have recently developed that make use of these extracted relations.


 Mercredi 8 novembre 2000 - 14h00 Salle Paul Imbs
INFORMATION
 Titre :

Réunion d'information et discussion

 Présenté par : Jean-Marie PIERREL

1. Des projets dans le cadre du réseau Grand Est des Sciences Cognitives
2. Le projet ILD&ISTC du plan Etat - Région
3. le projet de CNRT en "ingénierie educative"


 Mardi 24 octobre 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

La catégorisation des textes

 Présenté par : Jacques Maucourt

 Mercredi 4 octobre 2000 - 14h30 Salle Paul Imbs
Présentation du TLFI

 Mardi 5 juillet 2000 - 13h15 Salle Paul Imbs
 Titre :

Les dictionnaires d'autrefois

 Présenté par : Chantal Finlay et Zina Tucsnak

 Mardi 20 juin 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Le féminin n'est pas neutre

 Présenté par : Marie-Josèphe Mathieu

 Mardi 16 mai 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

PatRom : une méthodologie

 Présenté par : Eva Buchi et Carole Champy

 Mardi 11 avril 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Les matériaux d'origine inconnue du FEW

 Présenté par : Jean-Paul Chauveau

 Mardi 28 mars 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Extension du féminin en français. Les incertitudes de la langue

 Présenté par : Nicole Cholewka

Nicole Cholewka nous présenter la communication qu'elle a faite dans le cadre de la table ronde : Extension du féminin en français. Les incertitudes de la langue, qui s'est tenue à l'INaLF-Paris le jeudi 16 mars

L'assassine est zinzine ; féminin et familier :
quelques aspects


 Mardi  7 mars 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Un générateur de formes flexionnelles : portée, applications

 Présenté par : Jean-René Reimen

 Mardi  29 février 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

La nouvelle présentation de l'INaLF sur la toile

 Présenté par : Gilles Souvay

Christiane Jadelot (vaguemestre du site) et Gilles Souvay (réalisation) souhaitent recueillir vos avis, avant l'ouverture officielle du site D'avance, merci pour votre participation à cette réalisation.


 Mardi  2 février 2000 - 13h15 Salle Paul Imbs
Les mardis de l'INaLF
 Titre :

Dictionnaire des formes du français classique

 Présenté par : Marc Papin

 Mercredi  12 janvier 2000 - 13h15 Salle Paul Imbs
Les mercredis de l'INaLF
 Titre :

Les travaux et les projets relatifs au Français préclassique

 Présenté par : Monique Chauvet, Marthe Paquant et Françoise Henry

 Mercredi  15 décembre 1999 - 13h15 Salle Paul Imbs
Les mercredis de l'INaLF
 Titre :

Connaissance et Rayonnement du Dictionnaire de Trévoux (1704-1771)

 Présenté par : Isabelle Leroy-Turcan

 Mercredi  8 décembre 1999 - 13h15 Salle Paul Imbs
Les mercredis de l'INaLF
 Titre :

La nouvelle philologie

 Présenté par : Bernard Cerquiglini