Alors que la conférence mondiale de l’intelligence artificielle se termine aujourd’hui à Shanghai, chez CGTN Digital, nous avons parlé exclusivement avec Tamas Varadi, PhD, chercheur principal au Hongroian Research Center for Linguistics et invité à la conférence, sur l’approche unique de la Hongrie en matière de développement du langage de l’IA.
« La Hongrie est un petit pays avec environ 10 millions de locuteurs, et le Hongrois n’appartient pas à la famille des langues indo-européennes », a expliqué Tamas Varadi. « C’est essentiellement une île linguistique. Du point de vue d’un développeur mondial, c’est un marché de niche. »
Cela dit, la Hongrie a ses propres forces dans le développement de modèles de langue importants. Le centre a déplacé son paradigme de recherche vers des méthodes d’apprentissage en profondeur neuronales dans les années 2020, a déclaré Varadi à CGTN. La force de base réside dans les données: « Nous avons maintenant le corpus de formation organisé, nettoyé et déducteur le plus organisé pour le Hongrois. »
Varadi a révélé que le centre a mis en œuvre ses premiers modèles hongrois natifs « deux semaines avant que Chatgpt ne souffle ». Initialement, ils étaient confiants: « GPT-3 y avait le Hongrois, ce qui représente 128 millions de mots contre les 32 milliards de mots hongrois sur lesquels nous avons formé notre premier modèle. »
Cependant, les nouveaux modèles multilingues ont changé le paysage. « Lorsque des modèles multilingues sont sortis successivement, en particulier celui de Meta, nous avons constaté que l’ensemble du modèle de pré-formation était mis à l’échelle dans une certaine mesure que même si le ratio est toujours d’environ 0,006%, cette très petite données relative s’élève à 40 milliards de mots en hongrois. »
Le «rythme de développement extrêmement écrasant» a apporté de nombreux défis à l’équipe.
« Je suis assez étonné par ce que j’ai vu lors de cette conférence – ce à quoi les entreprises mondiales comme les modèles Meta et Chinois ont accès », a-t-il déclaré, ajoutant que son équipe « travaille sur une base très limitée » dans laquelle un modèle prend des mois à se développer.
Malgré cela, Varadi croit en leur approche, en disant: « Je ne pense pas que de tels modèles mondiaux aient l’expertise et l’attention » aux composants linguistiques individuels.
« Par conséquent, nous sommes fiers que notre langue organisée – qui est non seulement récoltée sur Internet mais complétée par des données de bibliothèques et de référentiels – nous donne un contrôle total sur la représentation de la culture hongroise. »
Lorsque nous avons suggéré que la préservation de la diversité linguistique devait être effectuée par la population locale, Varadi a connu de manière catégorique.
