OpenAI O1 : Un nouveau paradigme dans l'IA
OpenAI a lancé un nouveau modèle phare appelé O1, qui peut "raisonner" sur lui-même, ce qui ouvre la voie à un nouveau paradigme en matière d'IA et de LLM.
OpenAI lance le modèle O1
OpenAI vient de lancer son nouveau modèle O1 qui peut "raisonner" sur lui-même avant de répondre à la requête d'un utilisateur, pulvérisant les benchmakrs sur toute la ligne pour les tâches complexes.
Le nouveau modèle d'OpenAI, également codé "strawberry/Q*" en interne, a fait l'objet de rumeurs pendant un long moment, conduisant même à des théories de conspiration telles que "Qu'est-ce qu'Ilya a vu ?" sur Twitter. Les gens soupçonnaient depuis longtemps qu'il s'agissait d'un modèle d'auto-raisonnement et d'auto-amélioration, ce qui a été révélé aujourd'hui.
🙋♀️ Comment cela fonctionne-t-il ?
OpenAI O1 ou strawberry est un modèle d'auto-raisonnement qui peut raisonner en plusieurs étapes avant de répondre à la question. Le modèle décompose une tâche complexe en plusieurs étapes et tente de la résoudre ensuite. Il est également capable de s'autocritiquer, ce qui signifie qu'il peut s'auto-corriger s'il va dans la mauvaise direction en fonction du contexte donné.
Ce fonctionnement est très similaire à celui de la chaîne de pensée (COT), mais la différence essentielle est que les étapes de la COT sont elles-mêmes entraînées par la RL, ce qui ouvre la voie à un nouveau paradigme de mise à l'échelle. D'où le retour à la dénomination "O1" à partir de GPT-4o.
Les LLM antérieurs comportaient une longue étape de pré-entraînement où une grande quantité de calcul était utilisée pour que le LLM crée un modèle mondial et capture toutes les informations. Ensuite, au moment du test (c'est-à-dire lorsque nous lui posons une question), il doit simplement répondre directement à cette question en se basant sur ce qu'il a appris. Mais maintenant, avec O1, le LLM prend plusieurs mesures pour raisonner lui-même sur l'entrée et donne ensuite une réponse. Au début, avec O1, les étapes de raisonnement sont comparativement plus petites, c'est-à-dire 10 à 20 étapes prenant 15 à 20 secondes, mais OpenAI prévoit d'étendre ce processus à des heures, des jours et des semaines ! Imaginez que vous demandiez à un LLM de formuler un remède contre le cancer et qu'il raisonne pendant des semaines avant de donner la réponse.
📊 Où se situe O1 ?
En termes de benchmarks, O1 pulvérise tous les benchmarks les plus complexes lorsqu'il est comparé à GPT-4o (et par extension Claude Sonnet 3.5). Les tâches complexes sont l'écriture d'un code, la compréhension et l'analyse d'un PRD, la lecture d'un rapport médical ou l'écriture d'un roman. En gros, tout ce qui nécessite une pensée critique.
Mais d'un autre côté, O1 plafonne sur les capacités de base et obtient parfois des résultats inférieurs à ceux de GPT-4o pour des tâches simples comme la rédaction d'un message personnel ou l'édition d'un blog.
💥 Comment tester O1 !
Venons-en maintenant à la manière d'utiliser O1 ! Actuellement, les utilisateurs de ChatGPT Plus peuvent utiliser O1 directement sur chatGPT mais avec des limites de taux très strictes.
O1-preview : 30 requêtes par semaineO1-mini : 50 requêtes par semaine
Vous pouvez également consulter O1 via Merlin Pro, avec de bien meilleures limites de taux !
😮 L'avenir
OpenAI O1 est un grand pas, ce n'est pas seulement un nouveau modèle après gpt-4o, mais c'est une nouvelle façon de former les LLM, de penser au calcul et signifie qu'il y a une longue piste pour exploiter les performances, car nous ne faisons qu'effleurer la surface avec O1-preview et il y a beaucoup plus à venir au cours de la prochaine année.
Les guerres de l'IA qui stagnaient vont reprendre de plus belle avec OpenAI qui confirme une fois de plus sa position de leader.
Experience the full potential of ChatGPT with Merlin
Bhavesh Chaudhari
Programmeur. Donner vie aux idées. Développeur Web Full Stack.