SURCHAUFFE

News Tech - Opinion - Culture Numérique

Quand l’arroseur est arrosé - Google dénonce le clonage massif de Gemini par ses rivaux

IA
Quand l’arroseur est arrosé - Google dénonce le clonage massif de Gemini par ses rivaux

Dans l'univers impitoyable de l'intelligence artificielle, la frontière entre l'inspiration technologique et le vol pur et simple devient de plus en plus ambiguë. Ce jeudi, Google a jeté un pavé dans la mare en annonçant que des acteurs aux motivations commerciales ont tenté de « cloner » le savoir de son modèle phare, Gemini, en utilisant une méthode aussi simple qu'efficace, le prompting intensif. Selon le rapport de sécurité trimestriel de l'entreprise, une attaque spécifique a bombardé le modèle de plus de 100 000 requêtes dans diverses langues non anglaises. L'objectif présumé de cette manœuvre était de collecter suffisamment de réponses pour entraîner une copie bon marché du modèle, capable de rivaliser avec l'original sans en supporter les coûts de développement astronomiques.

Cette révélation place Google dans une posture de victime, un rôle qu'il endosse volontiers dans ses auto-évaluations de sécurité. Il qualifie cette activité illicite d'extraction de modèle et la considère comme un vol de propriété intellectuelle. C’est une position qui ne manque pas d'ironie et qui pourrait faire sourire certains observateurs, étant donné que ses propres grands modèles de langage ont été construits en aspirant des quantités phénoménales de données sur Internet, souvent sans la permission des créateurs originaux. De plus, le géant de la tech n'est pas étranger à ces pratiques de copie. En 2023, des rapports indiquaient que l'équipe derrière Google Bard avait été accusée d'utiliser celles issues de ChatGPT, via le site ShareGPT, pour entraîner son propre chatbot. Cette affaire avait même provoqué la démission de Jacob Devlin, un chercheur éminent en IA, qui avait averti sa direction que cela violait les conditions d'utilisation d'OpenAI avant de rejoindre la concurrence.

Malgré ce passé tourmenté, les conditions d'utilisation de Google interdisent formellement l'extraction de données de ses modèles. Le rapport offre une fenêtre fascinante sur le monde un peu trouble du clonage de modèles d'IA. La firme de Mountain View estime que les coupables sont principalement des entreprises privées et des chercheurs en quête d'un avantage concurrentiel rapide, notant que ces attaques proviennent du monde entier, bien qu'elle ait refusé de nommer des suspects précis.

D'un point de vue technique, l'industrie appelle cette pratique la distillation. Le processus est ingénieux, si vous souhaitez construire votre propre LLM mais que vous manquez des milliards de dollars et des années de recherche que Google a investis dans Gemini, vous pouvez utiliser un modèle existant comme raccourci. Il suffit d'alimenter l'IA cible avec des milliers de questions soigneusement choisies, de récupérer les réponses, puis d'utiliser ces paires question-réponse pour entraîner un modèle plus petit et moins coûteux. Le résultat imite le comportement du modèle parent. C’est un peu comme essayer de reconstituer les recettes secrètes d'un grand chef en commandant tous les plats du menu pour les goûter, sans jamais entrer dans sa cuisine ni voir ses fiches techniques.

Google n'est pas le seul à s'inquiéter de ce phénomène. La distillation est devenue un standard de l'industrie, parfois légitime, parfois contesté. OpenAI a accusé son rival chinois DeepSeek d'utiliser cette méthode et l'histoire récente regorge d'exemples similaires. On se souvient des chercheurs de Stanford qui, peu après la fuite du modèle LLaMA de Meta, ont créé « Alpaca » pour environ 600 dollars en utilisant les sorties de GPT-3.5. Plus ironique encore, lors du lancement de Grok par la société xAI d'Elon Musk, le chatbot a parfois refusé des demandes en citant la politique d'utilisation d'OpenAI, trahissant l'ingestion accidentelle de données générées par son concurrent.

Pourtant, la distillation n'est pas uniquement une arme de piratage. Elle est fréquemment utilisée en interne par les grandes entreprises pour créer des versions plus légères et rapides de leurs propres modèles géants. Microsoft l'a fait pour sa famille Phi-3 et OpenAI pour GPT-4o Mini. Tant qu'un modèle reste accessible au public via une interface, aucune barrière technique absolue n'empêchera un acteur déterminé de tenter de siphonner son intelligence, transformant la protection des modèles d'IA en un éternel jeu du chat et de la souris.

Commentaires