Microsoft ha presentado el modelo de lenguaje pequeño “Orca 2”Letra y voz libre

Agencias, Ciudad de México.- Microsoft ha presentado Orca 2 un modelo de lenguaje pequeño que alcanza capacidades de razonamiento comparables a los de los modelos grandes, resultado de un entrenamiento estratégico con datos sintéticos personalizados.

La compañía tecnológica trabaja en la forma de enseñar a razonar a los modelos de lenguaje más pequeños, aquellos que tienen 10,000 millones de parámetros o menos. Primero lo hizo con Orca, un modelo de 13,000 millones de parámetros presentado en junio que imitaba el proceso de razonamiento de los modelos de gran tamaño.

Ahora lo hace con la siguiente iteración, Orca 2, que está disponible con 7,000 millones de parámetros o 13,000 millones. Se basa en el modelo base de Llama 2 –que Microsoft ha desarrollado con Meta–, a partir de datos sintéticos personalizados.

Los modelos grandes, como GPT-4 o PaLm, muestran su capacidad de razonar “respondiendo preguntas complejas, generando explicaciones e incluso resolviendo problemas que requieren un razonamiento de varios pasos“; capacidad que, según Microsoft, “no se ha observado en modelos de lenguaje más pequeños”, como recoge en su blog de investigación.

On Teaching Small Language Models How to Reason: Orca 2 ⁦@MSFTResearch⁩ https://t.co/RaBYnjogUf

— Eric Horvitz (@erichorvitz) November 22, 2023

La compañía tecnológica ha entrenado Orca 2 bajo el enfoque de que las estrategias de solución empleadas por los modelos grandes pueden no ser la mejor opción para uno más pequeño. Por ello, ha utilizado un conjunto de datos sintéticos “cuidadosamente filtrados” con el que enseñaba a Orca 2 varias técnicas de razonamiento y diferentes estrategias para resolver diferentes tareas.

Tras evaluar el rendimiento de este modelo en tareas complejas, Microsoft afirma que “Orca 2 supera significativamente a los modelos de tamaño similar (incluido el modelo Orca original) y alcanza niveles de rendimiento similares o mejores que los modelos entre cinco y diez veces más grandes”.

“A medida que los modelos más grandes continúan sobresaliendo, nuestro trabajo con Orca 2 marca un paso significativo en la diversificación de las aplicaciones y opciones de implementación de los modelos de lenguaje“, concluye.

La investigación de Microsoft sobre el modelo Orca 2 ha arrojado importantes conocimientos para mejorar las capacidades de razonamiento de modelos de lenguaje más pequeños. Al entrenar estratégicamente estos modelos con datos sintéticos personalizados, hemos logrado niveles de rendimiento que rivalizan o superan a los de modelos más grandes, particularmente en tareas de razonamiento de cero disparos.

El éxito de Orca 2 radica en la aplicación de diversas técnicas de razonamiento y la identificación de soluciones óptimas para diversas tareas. Si bien tiene varias limitaciones, incluidas limitaciones heredadas de sus modelos base y comunes a otros modelos de lenguaje, el potencial de Orca 2 para avances futuros es evidente, especialmente en la mejora del razonamiento, la especialización, el control y la seguridad de los modelos más pequeños. El uso de datos sintéticos cuidadosamente filtrados para la posformación surge como una estrategia clave en estas mejoras.

Sus hallazgos subrayan el valor de los modelos más pequeños en escenarios donde es necesario equilibrar la eficiencia y la capacidad. A medida que los modelos más grandes continúan sobresaliendo, nuestro trabajo con Orca 2 marca un paso significativo en la diversificación de las aplicaciones y opciones de implementación de los modelos de lenguaje.

Microsoft’s Orca 2 paper and 7B/13B models released yesterday. They are Llama2 fine tunes trained on gpt4 output with benchmarks beating Llama1 70B. However Mistral 7B tunes still beat everything other than Llama2 70B tunes for local models. https://t.co/ebjygLKJy2 https://t.co/TllBTBxkxT

— Richard Johnson (@richinseattle) November 22, 2023