CFDICT au format XML

» Rendez-vous sur la page officielle du projet de dictionnaire chinois gratuit CFDICT, cliquez ici

David Houstin

Ses participations : 2898
Ses discussions : 928

28/03/2011 à 07:50 - CFDICT au format XML

Bonjour,

Pour ceux qui s'intéressent de près à l'évolution du projet de dictionnaire chinois libre, gratuit et téléchargeable CFDICT, je tenais à vous informer, qu'il est désormais possible de télécharger la base de donnée au format XML.

Plus d'infos sur la page officielle de CFDICT :
https://chine.in/mandarin/dictionnaire/CFDICT/

Andreas

Ses participations : 4
Ses discussions : 1

Message #2

01/12/2011 à 16:14 - Erreurs dans le fichier XML ?

Bonjour,

J'ai découvert CFDICT et je suis impressionné par le travail effectué. Toutes mes félicitations pour ce projet et j'espère pouvoir contribuer à mon tour

En essayant de parser le dictionnaire au format XML, j'ai découvert certaines choses étranges:

1) Il y a un "[" de trop dans les traductions. Par exemple:

<word>
<traditional>謝謝</traditional>
<simplified>谢谢</simplified>
<pinyin>"xie4xie5"</pinyin>
<translations>
<translation><![CDATA[[merci]]></translation>
<translation><![CDATA[[remercier]]></translation>
</translations>
</word>

Il faudrait avoir <![CDATA[merci]]> au lieu de <![CDATA[[merci]]>

2) A la ligne 1711230, la fermeture de l'attribut "simplified" est à la ligne suivante:

<simplified>CC-CEDICT
</simplified>

au lieu de:

<simplified>CC-CEDICT</simplified>

De plus, il y a deux entrées CC-CEDICT, et sont-elles vraiment utiles ?

3) Deux traductions font planter le parser, à cause de caractères incorrects:

<word>
<traditional>比不上</traditional>
<simplified>比不上</simplified>
<pinyin>"bi3bu4shang4"</pinyin>
<translations>
<translation><![CDATA[[ne pouvoir se comparer \u0005]]></translation>
</translations>
</word>

<word>
<traditional>米拉之家</traditional>
<simplified>米拉之家</simplified>
<pinyin>"mi3la1zhi1jia1"</pinyin>
<translations>
<translation><![CDATA[[Casa Mil \u000F]]></translation>
</translations>
</word>

J'ai remplacé les caractères problématiques par le code Unicode. Il faut les enlever pour que le parser fonctionne.

Voilà, j'espère vous avoir aidé !

David Houstin

Ses participations : 2898
Ses discussions : 928

Changsha

Message #3

03/12/2011 à 02:13 - CFDICT au format XML

Bonjour Andreas !

Merci pour ces observations et de votre contribution, je vais essayer de corriger ça !

Ce genre de remarque est toujours très utile

DISCUSSION SIMILAIRES :