﻿Ressources linguistiques russes pour NOOJ
INALCO Centre de Recherches Europes-Eurasie / CERRUS 
Vincent Bénet, Laboratoire RAO (Recherche Assistée par Ordinateur)
Version Beta vérifiée mai 2012
-----------------------------------------------------------------------------------
COMPOSITION DU MODULE LINGUISITIQUE RUSSE:
(Dictionnaires, textes et grammaire)

-----------------------------------------------------------------------------------
DICTIONNAIRES:
Cette version comporte 3 dictionnaires opérationnels ( dans le dossier lexical analysis).
Ils se décomposent en 
-un dictionnaire principal (d'après le Zaliznjak) 
-et  deux dictionnaires complémentaires :

1 dictionnaire principal regroupant (les chiffres donnés sont arrondis)  :

-mots-outils,prépositions, numéraux, pronoms, adverbes etc.
680 prépositions, locutions, conjonctions, et interjections,
1600 adverbes
les numéraux cardinaux et collectifs
les pronoms personnels, démonstratifs, interrogatifs déclinables
-adjectifs
 320 adjectifs d'appartenance en ij ov,in
 3210 entrées en skij
 10028 entrées en nyj
 155 entrées en nij
 1266 entrées en ij ( kij, shij zhij)
 5119 entrées d'adjectifs invariables et yj atyj oj skoj ijsja 
-substantifs ( noms communs et quelques adjectifs substantivés courant)
6185 entrées substantifs neutres 
20200 masculins 
970 adjectifs masculins substantivés, noms masc.en a et indéclinables
661 pluralia tantum masculins
11700 féminins
380 adjectifs substantivés et pluralia tantum féminins 
5410 féminins à voyelle mobile 
-verbes
 12386 verbes réguliers en at' et at'sja
 2765 verbes réguliers en ovat' et ovat'sja
 1377 verbes  en nut' et nut'sja 
 4683 verbes réguliers en it' inf en it' conj en it
 2390 verbes réguliers en it'sja inf en it'sja conj en itsja
 635 verbes irréguliers type bejat' et infinitifs en at' ou et'conjugués en it
 1221 verbes irréguliers  type rvat', pisat', lajat'
 291 verbes irréguliers  type idti, rasti, pech', klast'
 289 verbes irrgéuliers type idto etc.. + sja
 460 verbes irréguliers type bit' kolot' myt' pet' dut' etc.
 327 verbes irréguliers type davat - jati

Au total  ( chiffres exacts) : 
reconnaissance de  3 516 346  formes.
1 277 378 / 11 007 états, 95 589  analyses differentes.


Deux dictionnaires complémentaires :

ru_p.nod noms propres 
pays et principales villes étrangères et russes, fleuves et montagnes 
prénoms russes avec diminutifs et dérivation pour les patronymes
NooJ v3.x Compiled Dictionary
recognizes 44 235 word forms.
43 777/234 states, 1 825 different analyses.

ru_as.nod  adjectifs substantivés ( Zaliznyak)
(l'utilisation de ce dictionnaire peut générer des ambiguités superflues, un même mot étant reporté comme adjectif ET comme substantif)
NooJ v3.x Compiled Dictionary
recognizes 10 082 word forms.
11 903/1 states, 750 different analyses.



En plus de ces dictionnaires, un dictionnaire de formes diverses est donné à titre d'exemple :

ex_modeles_ru.dic : le fichier dictionnaire ( une vingtaine de mots)
ex_modeles_ru.nof : le fichier de paradigmes lié
ex_modeles_ru.nod : le fichier de compilation de ces deux dictionnaires
ex_modeles_ru.txt : le résultat de la compilcation.

Afin de comprendre le focntionnement de la lemmatisation de Nooj,  il est possible d'ajouter des mots (et des paradigmes) à ce dictionnaire d'exemples

-----------------------------------------------------------------------------------
TEXTES
Six textes ( fichiers .not) ont été prétraités (dossier Project)

-Cinq textes littéraires :
"La dame au petit chien" de Tchekhov
"Le prisonnier du Caucase" de Tolstoï
"Le joueur" de Dostoevski
"Le nez" de Gogol
 et des récits de Kharms.

- un texte simple d'après un manuel scolaire avec des phrases pour vérifier les grammaires syntaxiques

l'orthographe des textes a été vérifiée

les dcitionnaires spécifiques aux textes sont en cours d'élaboration (sept 2013)
-----------------------------------------------------------------------------------
GRAMMAIRES

Quelques grammaires ( graphes) ont été réalisées afin de désambiguiser au maximum des formes simples et de faciliter des recherches (dossier syntactic analysis) :

Date_JMA_ru.nog  -->  dates ( jour mois année)
Date_Time_ru.nog -->  heures
Name_ru.nog --> tournure de je m'appelle
Poss_ru.nog --> tournure de possession
Prep_Acc_ru.nog  --> prépositions suivies de l'accusatif
Prep_Dat_ru.nog  --> prépositions suivies du datif
Prep_Gen_ru.nog  --> prépositions suivies du génitif
Prep_Ins_ru.nog  --> prépositions suivies de l'instrumental
Prep_NA_ru.nog   --> préposition NA (acc ou loc ) et particule NA
Prep_O_ru.nog --> préposition  O
Prep_POD-ZA_ru.nog  --> prépositions POD ZA 
Prep_PO_ru.nog  --> préposition PO
Prep_PRI_ru.nog  --> préposition PRI
Prep_S_ru.nog  --> préposition S
Prep_V_ru.nog  --> préposition  V
Prep_XCase_ru.nog  --> une grammaire qui regroupe toutes les prepositions ( avec sous graphes)
Verb_Dat_ru.nog --> verbes courants suivis du datif
Verb_Gen_ru.nog --> verbes courants  suivis du génitif / accusatif
Verb_Inst_ru.nog--> verbes courants suivis de l'instrumental
Verb_XCase_ru.nog --> une grammaire qui regroupe les régimes des différents verbes courants 
Verb_intrans.nog --> verbes intransitifs
Verb_Mvt.nog --> verbes de mouvement simples (imperfectifs) 
Verb_Mvt_Det.nog --> verbes de mouvement déterminés 
Verb_Mvt_Indet.nog verbes de mouvement déterminés 

Remarques: ces grammaires sont très sensibles au contexte et à l'ordre des mots de la phrase. Elles ne sont pas sans erreurs et on ne peut pas actuellement garantir l'efficacité totale de la désambiguisation automatique ou de la recherche.

Remarques importantes:
Une grande source d'erreurs réside dans la confusion de lettres cyrilliques et latines dues aux erreurs de numérisation des textes sources susceptibles d'être utilisés (en provenance de  lib.ru, par exemple).
Les mots présentant un mélange de lettres sont considérés comme "Unknown"
Les autres mots inconnus sont des mots rares ou avec des formes archaïques
Les erreurs de paradigme ont été vérifiées, mais des erreurs ou incongruités ( en mode génération surtout) sont possibles.
Merci de signaler une lacune, une erreur ou un oubli à l'auteur vincent.benet@inalco.fr.

Des étiquettes sémantiques ont été ajoutées. Elles ne sont pas hierachisées. Environ 6000 mots sont étiquetés, permettant des recherches sur les critères suivants : 

dictionnaire général
Hum = humain 4429 termes
Prof = 908
Parent= 160
Body= 319

Conc | Abstr | Org | Text |  non encore défini

Plant 99
Tree 32
Flower 37
Animal 408
Bird 48
Food 368
Liquid 27
Fruit 45
Vegetable 51
Spice 32
Arts 66
Lit 45
Music 158
Sport 79
Topo 42


Posit 25
Time 138
Color 275


dictionnaires noms propres
Forename = Prénoms 2882 termes
Topo 198 termes 
Country 182 termes
River 13 termes
City 174 termes
Mount  7 termes
Lake 5 termes
        