recherche
sous-menu
Vous êtes ici : Accueil  ❭  Forum  ❭  Langues asiatiques  ❭  Apprendre le chinois  ❭  CFDICT

CFDICT: qualité ou quantité?


» Rendez-vous sur la page officielle du projet de dictionnaire chinois gratuit CFDICT, cliquez ici
photo
Ses participations : 18
Ses discussions : 5
31/01/2012 à 17:13 - CFDICT: qualité ou quantité?
Ce message s'adresse aux contributeurs de CFDICT.

Je découvre CFDICT et je suis frappé par une chose : la base de données contient beaucoup d'entrées (le double de CEDICT!) mais il me semble que la qualité n'est pas à la hauteur de la quantité.

On voit:
- beaucoup d'entrées avec le pinyin vide,
- beaucoup d'entrées avec la forme traditionnelle vide,
- beaucoup d'entrées à l'utilisée discutable. Ne croyez pas que j'aie quelque chose contre l'Amérique centrale mais je pense qu'inclure l'expression "Armoiries de la République dominicaine" alourdit la base de données pour peu de résultat.

Encore une fois, je ne veux pas être brutal (encore moins dénigrer le travail qui est fait). Plutôt poser une interrogation sur les usages de CFDICT.

Si je peux risquer un avis, il me semble que les bases chinois->français (ou anglais ou allemand) de la famille CEDICT-CFDICT-HanDeDict sont plutôt dirigées aux utilisateurs débutants-intermédiaires. Les utilisateurs avancés ayant besoin d'un dictionnaire avec plus de nuances d'usage et d'aspects grammaticaux. Pour cette raison, je crois qu'il est plus important de se concentrer sur la qualité des entrées du vocabulaire de base plutôt que de rechercher la quantité.

Evidemment, débroussailler une base de données existante est un travail très difficile (cf. le fonctionnement actuel de CEDICT, à mon sens assez exigeant en qualité, et qui repose sur un groupe conséquent d'utilisateurs ayant un très bon niveau).

... pour lancer la discussion!
photo
Ses participations : 2898
Ses discussions : 928
Changsha
01/02/2012 à 01:46 - CFDICT: qualité ou quantité?
Salut,

L'idée était de mettre gratuitement à disposition toute la base de donnée du dictionnaire de Chine Informations mais je comprends très bien le point de vue.

Il ya en effet des entrées avec pinyin et / ou traditionnel vide mais la traduction pour ces mots est normalement très bonne.

Je peux toujours proposer en téléchargement une version "light" limitée aux entrées de CEDICT et HanDeDict qui ont été traduites ... Qu'en pensez-vous ?
photo
Ses participations : 2898
Ses discussions : 928
Changsha
01/02/2012 à 10:41 - CFDICT: qualité ou quantité?
Comme ce n'est pas la 1ère fois qu'on me fait la remarque, j'ai enlevé au téléchargement les définitions sans  traditionnel ou pinyin.

Ce qui fait tout de même à ce jour 123 190 entrées traduites en français.
photo
Ses participations : 18
Ses discussions : 5
01/02/2012 à 23:40 - CFDICT: qualité ou quantité?
ça allègera pas mal! Pour ma part je trouve que c'est une bonne idée.

Apparemment le fichier en ligne est encore le fichier complet.
Ce que j'essaierai de faire est une comparaison avec le lexique fréquent pour voir si des mots ont disparu au passage.
photo
Ses participations : 2898
Ses discussions : 928
Changsha
02/02/2012 à 03:25 - CFDICT: qualité ou quantité?
En effet le fichier n'est pas mis à jour en temps réel, mais seulement une fois par jour aux alentours de 00:00 (heure française).

Normalement ça a supprimé uniquement les entrées sans pinyin et/ou traditionnel.

J'ai fais un test : si l'on garde uniquement les entéres de CEDICT traduites en anglais, on est à un peu plus de 96 000.
photo
Ses participations : 1
26/05/2012 à 17:26 - Dictionnaire ou utile de traduction? Il faut avoir quelques règles.
[Ce message a le but de décrire quelques expériences que j'ai eu en essayant de traiter les information pour créer une base de donnes et pas juste pour avoir l'air de critiquer. J'apprécie toute l'ouvrage de tous les contributeurs, et le français n'est pas ma langue maternelle].

Je suis bien d'accord qu'il faut commencer par avoir un dictionnaire de qualité avant d'en avoir un de quantité. Même avec l'omission des entrées sans pinyin, etc. il reste toujours beaucoup d'entrées qui, à mon avis, ne devraient pas être incluses.

Par exemple, il y a une traduction pour chaque jour de chaque mois (9月24日, 9月25日, etc.). Ça serait bon pour une appli que traduit des textes mais pas pour un dictionnaire. Ça encombre plus que ça aide.

Il doit y avoir des règles pour l'espace pinyin entre [ et ] pour que ça soit plus facile à traiter dans une programme qui traite l'information pour créer un base de donnes. Le CC-CEDICT a réussi d'avoir seulement du pinyin avec tons, pas de ponctuation, pas de lettres, pas d'autres chiffres.

Il y a des entrées simplifiées qui manquent les premiers chiffres, par exemple, 式 97式 [97shi4] /Type 97/manque le "97" au début de la ligne. Il y en a plusieurs d'autres.

Ces entrées ne contient aucun chinois:
C C [C] /C/
CensusInfo CensusInfo [CensusInfo] /CensusInfo/
ChildInfo ChildInfo [ChildInfo] /ChildInfo/

Il me semble qu'on saisie n'importe quoi, sans règles, sans conseils et il sera dificil d'aider avec les corrections avant de mettre tout ça en place.

Encore une fois, je remercie à tous les contributeurs pour ce que nous avons aujourd'hui et j'espère que CFDICT devienne un bon dictionnaire pour les francophones qui étudient la langue chinoise.

Dernière édition : 26/05/2012 17h27

photo
Ses participations : 2898
Ses discussions : 928
Changsha
27/05/2012 à 03:54 - CFDICT: qualité ou quantité?
Bonjour RH,

J'ai tenu compte de vos remarques. J'ai donc appliqué un filtre pour éviter que ans la  base de donnée de CFDICT on trouve des entrées sans chinois ou avec le chinois traditionnel qui semble FAUX comparé à l'entrée en simplifié.

Pour les autres entrées qui vous gênent comme les dates, après c'est à vous de filtrer dans votre programme si vous ne les voulez pas... La version anglaise CEDICT propose également des dates...

Enfin pour l'entrée en pinyin, je n'ai pas  bien compris ce qui vous gêne... CFDICT.u8 est exatement basé sur le même modèle que CEDICT.u8 :
EXEMPLE:
- 中國 中国 [zhong1 guo2] /Chine/Empire du Milieu/ (CFDICT)
- 中國 中国 [Zhong1 guo2] /China/Middle Kingdom/ (CEDICT)

Cependant étant bien conscient que c'est un fichier peu facile à parser pour les programmeurs (étant moi-même programmeur), j'ai développé également une version XML de CFDICT : avec ça, ous ne devriez avoir aucun soucis... Vous trouverez les eux fichiers .u8 et .xml à télécharger gratuitement sur la page https://chine.in/mandarin/dictionnaire/CFDICT/.
La Chine 中国 (Zhongguó), pays de l'Asie orientale, est le sujet principal abordé sur CHINE INFORMATIONS (autrement appelé "CHINE INFOS") ; ce guide en ligne est mis à jour pour et par des passionnés depuis 2001. Cependant, les autres pays d'Asie du sud-est ne sont pas oubliés avec en outre le Japon, la Corée, l'Inde, le Vietnam, la Mongolie, la Malaisie, ou la Thailande.