La evolución del comportamiento de los modelos de lenguaje como ChatGPT
El reciente paper de Chen, Zaharia y Zou de Stanford y Berkeley analiza cómo ha cambiado el comportamiento de modelos de lenguaje como ChatGPT a lo largo del tiempo. Los autores evaluaron el desempeño de GPT-3.5 y GPT-4 en una variedad de tareas entre Marzo y Junio de 2023.
Principales hallazgos
- El desempeño de GPT-4 en tareas como resolver problemas matemáticos decayó dramáticamente de 97.6% de precisión a sólo 2.4%.
- GPT-3.5 mostró una mejora en su desempeño en resolver problemas matemáticos, pasando de 7.4% a 86.8% de precisión.
- La habilidad de GPT-4 y GPT-3.5 para generar código ejecutable directamente también decayó significativamente de Marzo a Junio.
- Ambos modelos se volvieron más concisos y evasivos en sus respuestas a preguntas sensibles.
Implicaciones
Estos hallazgos tienen varias implicaciones importantes:
- El desempeño de los modelos de lenguaje puede variar impredeciblemente a lo largo del tiempo. Esto complica su despliegue en aplicaciones del mundo real.
- Los cambios en las respuestas a preguntas sensibles sugieren que los modelos han sido ajustados para volverse más seguros, pero también son menos transparentes.
- La reducida habilidad para generar código ejecutable puede dificultar su integración en flujos de trabajo de desarrollo de software.
- Se requiere monitoreo y testing continuo para detectar drifts en el comportamiento de los modelos desplegados.
Opinión
Este estudio resalta los desafíos en el despliegue responsable de la IA. Los proveedores deben ser transparentes sobre los cambios en los modelos y colaborar con investigadores para entender las causas subyacentes. También se necesitan marcos éticos y regulatorios para guiar el desarrollo y uso de estas tecnologías emergentes.
Conclusión
El comportamiento de los modelos de lenguaje sigue evolucionando rápidamente. Se necesita más investigación para entender estas dinámicas y desarrollar enfoques robustos para evaluar y mejorar la seguridad, transparencia y estabilidad de los modelos de IA conversacional a lo largo del tiempo.
Si quieres saber más, mira en Comportamiento cambiante de ChatGPT a lo largo del tiempo