La Gemma de Google ya actúa como Gemini—Alguien hizo que también pensara como Claude Opus

Si has estado siguiendo la escena local de IA, probablemente conozcas Qwopus—el modelo de código abierto que intentó destilar el razonamiento de Claude Opus 4.6 en Qwen de Alibaba, para que pudieras ejecutar algo parecido a Opus en tu propio hardware de forma gratuita. Funcionó sorprendentemente bien. La obvia pega: Qwen es un modelo chino, y no todos se sienten cómodos con eso. Jackrong, el mismo desarrollador con seudónimo detrás de ese proyecto, escuchó los comentarios. Su respuesta es Gemopus—una nueva familia de fine-tunes estilo Claude Opus construidos completamente sobre Gemma 4, de código abierto de Google. ADN estadounidense, misma idea: razonamiento de frontera, ejecutándose localmente en hardware que ya posees. La familia viene en dos versiones. Gemopus-4-26B-A4B es la opción más pesada—un modelo de Mezcla de Expertos que tiene 26 mil millones de parámetros en total, pero solo activa alrededor de 4 mil millones durante la inferencia, lo que significa que supera con creces su peso en hardware limitado.

Los parámetros son lo que determina la capacidad de una IA para aprender, razonar y almacenar información. Tener 26 mil millones de parámetros totales le da al modelo un conocimiento amplio. Pero al solo “despertar” los 4 mil millones de parámetros relevantes para tu solicitud específica, entrega resultados de alta calidad de una IA masiva, manteniéndose lo suficientemente liviano para funcionar sin problemas en hardware cotidiano. La otra es Gemopus-4-E4B, un modelo de 4 mil millones de parámetros diseñado para funcionar cómodamente en un iPhone moderno o un MacBook delgado y ligero—sin necesidad de GPU.  La elección del modelo base importa aquí. Gemma 4 de Google, lanzado el 2 de abril, está construido directamente con la misma investigación y tecnología que Gemini 3—la compañía lo dijo explícitamente en el lanzamiento. Eso significa que Gemopus lleva algo que ninguna fine-tune basada en Qwen puede reclamar: el ADN del modelo cerrado de última generación de Google bajo el capó, envuelto en el estilo de pensamiento de Anthropic. Lo mejor de ambos mundos, más o menos.

Lo que hace a Gemopus diferente de la ola de otros fine-tunes de Gemma que inundan Hugging Face en este momento es la filosofía detrás de él. Jackrong eligió deliberadamente no forzar las trazas de razonamiento en cadena de Claude en los pesos de Gemma—una solución rápida que toman la mayoría de los lanzamientos competidores. Su argumento, respaldado por investigaciones recientes, es que llenar un modelo estudiantil con texto de razonamiento superficial de un maestro no transfiere realmente la capacidad de razonar. Enseña imitación, no lógica. “No hay necesidad de imaginación excesiva ni de replicación supersticiosa de la cadena de pensamiento al estilo Claude,” dice la ficha del modelo. En cambio, se centró en la calidad de las respuestas, la claridad estructural y la naturalidad conversacional—corrigiendo el tono rígido de Wikipedia de Gemma y su tendencia a dar lecciones sobre cosas que no preguntaste. El ingeniero de infraestructura de IA Kyle Hessling realizó benchmarks independientes y publicó los resultados directamente en la ficha del modelo. Su veredicto sobre la variante de 26B fue bastante favorable. “Contento de haber probado esta bastante duro y es un fine-tune excelente de un modelo ya excepcional,” escribió en X. “Funciona de maravilla en solicitudes de una sola vez sobre contextos largos, y corre increíblemente rápido gracias a la arquitectura MOE (mezcla de expertos).”

¡Gemopus-4-26B-A4B de Jackrong ESTÁ EN VIVO!

Contento de haber probado esta bastante duro (ver mis benchmarks en la ficha del modelo) y es un fine-tune excelente de un modelo ya excepcional! ¡Mi amigo Jackrong siempre está cocinando lo mejor!

Funciona de maravilla en solicitudes de una sola vez sobre contextos largos…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

La variante E4B más pequeña pasó todas las 14 pruebas de competencia básica—seguimiento de instrucciones, codificación, matemáticas, razonamiento en múltiples pasos, traducción, seguridad, caché—y superó todas las 12 pruebas de contexto largo a 30K y 60K tokens. En búsquedas de aguja en pajar, pasó 13 de 13 pruebas, incluyendo una prueba de estiramiento a un millón de tokens con escalado YaRN 8× RoPE.

El modelo de 26B extiende nativamente a 131K de contexto y hasta 524K con YaRN, que Hessling también sometió a prueba de estrés: “¡También aplastó mis pruebas simples de aguja en pajar hasta un contexto extendido de 524k!” En hardware de borde, la E4B es realmente rápida. Jackrong reporta 45–60 tokens por segundo en iPhone 17 Pro Max, y 90–120 tokens por segundo en MacBook Air M3/M4 vía MLX. La arquitectura MoE de 26B significa que se descarga de manera eficiente en sistemas de memoria unificada o GPUs con menos de 10GB de VRAM. Hessling la recomienda como su opción diaria para configuraciones con poca VRAM.

Ambos modelos están disponibles en formato GGUF, lo que significa que puedes integrarlos directamente en LM Studio o llama.cpp sin configuración adicional. El código completo de entrenamiento y una guía paso a paso para el fine-tuning están en el GitHub de Jackrong—el mismo pipeline que usó para Qwopus, misma configuración de Unsloth y LoRA, reproducible en Colab. Gemopus no está exento de sus aristas ásperas. La llamada a herramientas sigue rota en toda la serie Gemma 4 en llama.cpp y LM Studio—fallos en llamadas, desajustes de formato, bucles—así que si tu flujo de trabajo depende de agentes que usan herramientas externas, este todavía no es tu modelo. El mismo Jackrong lo llama “una referencia de exploración de ingeniería más que una solución lista para producción,” y recomienda su serie Qwopus 3.5 para quienes necesitan algo más estable para cargas de trabajo reales. Y dado que Jackrong evitó deliberadamente la distilación agresiva del razonamiento en cadena al estilo Claude, no esperes que tenga un cerebro tan profundo como Opus, eso fue una decisión consciente para la estabilidad, no un descuido.

Sí, la filosofía en este fue priorizar la estabilidad, entiendo que los modelos Gemma tienden a volverse inestables si se les fuerza muchas trazas de pensamiento de Claude, como se puede ver en muchas otras fine-tunes Opus Gemma en hugging face.

Jackrong intentó un…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

Para quienes quieran profundizar en el fine-tuning de Gemma específicamente para razonamiento, también hay un proyecto comunitario separado que vale la pena seguir: Ornstein, de un desarrollador seudónimo DJLougen, que toma la misma base Gemma 4 de 26B y se enfoca en mejorar sus cadenas de razonamiento sin depender de la lógica o estilo de ningún modelo externo. Una advertencia honesta: la dinámica de entrenamiento de Gemma es más caótica que la de Qwen para los fine-tuners—fluctuaciones de pérdida más amplias, mayor sensibilidad a hiperparámetros. Lo dice el propio Jackrong. Si necesitas un modelo local más probado para flujos de trabajo de producción, su serie Qwopus 3.5 sigue siendo más robusta y validada. Pero si quieres un modelo estadounidense con pulido estilo Opus, Gemopus es actualmente tu mejor opción. Una variante más densa de 31B Gemopus también está en camino, y Hessling la ha calificado como “una bomba seguro.” Si quieres probar modelos locales en tu propio hardware, consulta nuestra guía sobre cómo comenzar con IA local.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado