recherche
sous-menu
Vous êtes ici : Accueil  ❭  Forum  ❭  Langues asiatiques  ❭  Apprendre le chinois  ❭  CFDICT

Normalisation des entrées du dictionnaire chinois libre


 2 pages 
» Rendez-vous sur la page officielle du projet de dictionnaire chinois gratuit CFDICT, cliquez ici
photo
Ses participations : 8
Ses discussions : 4
18/03/2011 à 17:58 - Normalisation des entrées du dictionnaire chinois libre
Tout d'abord, bonjour à tous. Je suis nouveau et content d'être là.

Le projet CFDICT est vraiment un bon projet et il m'est nécessaire.
Du coup je me suis lancé dans un programme en python qui utilise ce dictionnaire.

Le format du dictionnaire est simple est pratique. Mais j'ai plusieurs points à reprocher :

1. Le champ du pinyin comporte parfois des majuscules inutiles (comme pour l'entrée 青羊 qui a un joli [Qing1 yang2] ). C'est pourtant bien spécifié, tout en minuscule. Je ne parle pas des cas où c'est utile comme dans :
DAX指數 DAX指数 [D A X zhi3 shu4] /DAX/

2. Le champ du pinyin, soit celui entre [ ] est uniquement réservé au pinyin. Alors quelle jolie surprise quand on voit une ligne comme :
一般神经状态 [暂定] [] /neurotypique/

Ces deux soucis sont récurrents...

Bon, mais sinon je suis heureux que le projet existe !!!! C'est juste que mon parser ne marchais pas à 100% d'où ma découverte de ces erreurs...

Il est possible d'arranger ça vous croyez ?

Jiehong
photo
Ses participations : 2898
Ses discussions : 928
Changsha
19/03/2011 à 13:53 - Normalisation des entrées du dictionnaire chinois libre
Bonjour,

Merci de ces remarques. Je pense que je vais pouvoir corriger cela très rapidement !
photo
Ses participations : 2898
Ses discussions : 928
Changsha
19/03/2011 à 16:46 - Normalisation des entrées du dictionnaire chinois libre
Voilà, c'est corrigé, mais il faut attendre une 12aines d'heure avant le téléchargement pour la mise à jour du cache.
photo
Ses participations : 8
Ses discussions : 4
19/03/2011 à 18:20 - Normalisation des entrées du dictionnaire chinois libre
Vous voulez dire que toutes les entrées présentant ce problème sont résolues ?

Si tel est le cas, je dis bravo et merci !
photo
Ses participations : 1719
Ses discussions : 76
19/03/2011 à 19:27 - Bravo et bienvenue
Bravo et merci, Daweide et bienvenue à Jiehong ; pendant qu'on y est, il pourrait peut-être nous expliquer ce que signifie ces mots "python" et "parser", pour moi, c'est... du chinois


Dernière édition : 19/03/2011 19h32

photo
Ses participations : 8
Ses discussions : 4
19/03/2011 à 20:10 - Normalisation des entrées du dictionnaire chinois libre
Bonsoir,

« Python » est un langage de programmation avec lequel j'écris un programme utilisant le dictionnaire CFDICT.

« Parser » est un anglicisme signifiant « analyseur syntaxique ». En fait c'est une fonction qui permet de repérer des structures dans des textes par exemple. C'est ce que je fais avec mon programme pour séparer les champs pinyin/traductions par exemple.

C'est ainsi que je me suis rendu compte qu'il y avait des erreurs puisque j'ai trouvé des cas où la structure n'était pas respecté.

Pardon de ne pas m'être mieux exprimé dans mon premier post.
photo
Ses participations : 2898
Ses discussions : 928
Changsha
20/03/2011 à 01:28 - Normalisation des entrées du dictionnaire chinois libre
@Jiehong :

Oui, normalement, il ne devrait plus y avoir une seule trace des deux problèmes cités.
J'ai bien compris le problème en effet de parser une ligne avec deux fois des crochets "[]"...

Par contre je en connais pas Python : vous développez un programme de dictionnaire chinois pour quel système d'exploitation ?

Votre logiciel sera-t-il privé, payant, gratuit ou autre ? Et si ce n'est pas indiscret, dans quel cadre avez-vous entrepris cette démarche ?

Quoi qu'il en soit, dites-nous quand il sera terminé !
photo
Ses participations : 8
Ses discussions : 4
20/03/2011 à 11:25 - Normalisation des entrées du dictionnaire chinois libre
Mon programme est censé être multiplateforme mais je le développe sous GNU/Linux et je ne l'ai pas essayé sur d'autres systèmes pour l'instant.

C'est un projet personnel qui n'est pas encore fini et que je fais quand j'ai du temps mais il est fini à 80% environ. Je le développe en tant que logiciel libre (sous licence GPLv3) et gratuit mais j'attends d'avoir fini une première mouture pleinement utilisable avant de le partager avec le public.

La licence CC-BY-SA n'étant pas compatible avec la GPLv3, je ne distribuerai pas mon programme avec le dictionnaire mais je laisserais à l'utilisateur d'en importer un.

Bon dimanche !

photo
Ses participations : 1719
Ses discussions : 76
20/03/2011 à 12:22 - Merci
Merci de votre réponse, Jiehong, j'admire sans réserves vos capacités informatiques !
photo
Ses participations : 8
Ses discussions : 4
01/05/2011 à 12:30 - Petits soucis - suite
Me revoilà avec mon interface qui est maintenant utilisable et mis à part quelques petits bug mineurs j'en suis content. Il ne me reste plus qu'à la mettre en ligne et à lui trouver un nom avant ^^.

Sinon, je voulais pointer du doigt un autre soucis dans la base de donnée. La première entrée sur le fichier est :
上海合作组织成立宣言 [shang4 hai3 he2 zuo4 zu3 #32455;cheng2 li4 xuan1 yan2] /Déclaration portant création de l'Organisation de Shanghai pour la coopération/

On voit ici plusieurs non respects du format de CFDICT :

  • il n'y a qu'une entrée en chinois (là ou il devraity avoir celle en traditionnel et celle en simplifié)
  • la prononciation en pinyin comporte une entrée non valide : « #32455; ». Sauf erreur de ma part je sais pas lire ça moi ^^ (ni les points virgules...)
  • la présence d'une espace en début de ligne (mais pourquoi ?)


Les points 1, 2 et 3 sont récurrents aux premières lignes de la base de donnée. Le point 3 apparaît un peu partout.

J'ai également pensé à quelque chose : quand certains caractères ont plusieurs prononciation tel que 地 (de/di) ils apparaissent 2 fois (une fois pour chaque prononciation). Ne serait-il pas plus approprié de séparer les prononciation dans [] par des / ? (comme pour le cas des sens multiples en français avec le caractère « / »).

Je sais que je ne fais que des critiques négatives mais j'aime ce projet et je veux l'améliorer

Jiehong

Dernière édition : 01/05/2011 12h36

La Chine 中国 (Zhongguó), pays de l'Asie orientale, est le sujet principal abordé sur CHINE INFORMATIONS (autrement appelé "CHINE INFOS") ; ce guide en ligne est mis à jour pour et par des passionnés depuis 2001. Cependant, les autres pays d'Asie du sud-est ne sont pas oubliés avec en outre le Japon, la Corée, l'Inde, le Vietnam, la Mongolie, la Malaisie, ou la Thailande.