https://www.rafaelmourad.com/ Análisis de la Fiabilidad de los LLM y la 'Crisis de Evaluación - Rafael Mourad

Análisis de la Fiabilidad de los LLM y la ‘Crisis de Evaluación

¿Tu IA te miente el 90% de las veces? La Inquietante Advertencia de Andrej Karpathy sobre las ‘Alucinaciones’

Desde que ChatGPT irrumpió en la conversación global, hemos aprendido una palabra clave: «alucinación». Es el término elegante que usamos cuando un modelo de Inteligencia Artificial de Lenguaje Grande (LLM) inventa información, cita fuentes inexistentes o simplemente se equivoca con total convicción.

Recientemente, ha circulado una declaración explosiva atribuida a Andrej Karpathy (cofundador de OpenAI y exdirector de IA en Tesla): que los modelos de IA alucinan en un 90% de las veces, pero no nos damos cuenta. Si bien la cifra exacta del 90% no es una cita verificada, la idea detrás de ella es profundamente inquietante y fundamental para entender cómo funciona la IA.

¿Es una exageración o estamos utilizando «máquinas de soñar» sin supervisión? Analicemos la visión de Karpathy y por qué la fiabilidad de los LLM está en una «crisis de evaluación».

La Tesis de Karpathy: ¿Un Bug o una Característica?

Para Andrej Karpathy, la alucinación no es un fallo que se deba arreglar, sino una característica inherente al diseño de estos modelos.

Su perspectiva se resume en una cita clave: «Todo son ‘alucinaciones’, pero solo le damos ese nombre cuando nos damos cuenta de que son erróneas.»

  • Los LLM son Máquinas de Soñar: El modelo no almacena hechos como una base de datos. En su lugar, aprende a predecir la siguiente palabra con la mayor probabilidad estadística, basándose en los vastos documentos de entrenamiento. Karpathy los describe como «máquinas de soñar» a las que dirigimos el sueño con nuestras peticiones (prompts).
  • Creatividad y Riesgo: Un motor de búsqueda es 0% «soñador» y tiene un «problema de creatividad» (solo te devuelve lo que existe). Un LLM es 100% «soñador». Esta capacidad de generar contenido nuevo y coherente es su mayor fortaleza, pero su inevitable contraparte es el riesgo constante de salirse de la realidad, es decir, de alucinar.

La razón por la que el supuesto 90% pasaría desapercibido es que, dado lo buenos que son los modelos para generar texto plausible y gramaticalmente correcto, la invención parece cierta la mayoría de las veces.

La Crisis de Evaluación: Cuando la Precisión no es Fiabilidad

La preocupación de Karpathy no termina en la naturaleza de la alucinación; se extiende a cómo la industria mide el rendimiento de estos modelos. Él advierte que estamos viviendo una «crisis de evaluación».

«Los modelos pueden ser superhumanos en ciertos dominios de resolución de problemas y luego fallar en algo que ningún humano se equivocaría.» – Andrej Karpathy.

En pruebas estandarizadas (como SuperGLUE o MMLU), los modelos a menudo alcanzan más del 90% de precisión. Sin embargo, en entornos de la vida real, como la programación o el razonamiento lógico complejo, la fiabilidad es más importante que la precisión.

  • El Dilema de la Puntuación: Los modelos son recompensados por la precisión en los puntos que conocen, pero no son penalizados lo suficiente por la incertidumbre. Esto les incentiva a «adivinar» en lugar de admitir que no tienen la respuesta, aumentando la tasa de errores o alucinaciones.
  • La Fragilidad del Conocimiento: Un error común es que los LLM fallan en tareas triviales de lógica o hechos simples (como insistir en que 9.11 es mayor que 9.9), un fenómeno que Karpathy llama «inteligencia dentada» (jagged intelligence).

¿Cómo Gestionar las Alucinaciones en el Uso Diario?

Si aceptamos que los modelos de IA son fundamentalmente «máquinas de soñar» que alucinarán, nuestra estrategia debe cambiar de «eliminar el error» a «verificar el sueño».

  • Verificación Externa (RAG): El futuro inmediato de la IA se centra en el RAG (Retrieval-Augmented Generation). Este método permite que el LLM utilice una base de conocimiento verificada (como una búsqueda en Google o una base de datos interna) para fundamentar su respuesta antes de generarla, reduciendo la dependencia en su «sueño» interno.
  • Uso de Herramientas (Tool Use): Capacitar a los modelos para que utilicen código Python para resolver problemas matemáticos o lógicos (donde son débiles) o para realizar búsquedas. Esto compensa sus déficits cognitivos con la ayuda de herramientas fiables.
  • Pensamiento Crítico Constante: Como usuarios, debemos tratar el resultado de un LLM no como un hecho, sino como una hipótesis convincente que requiere verificación, especialmente en temas sensibles como salud, finanzas o derecho.

Ideas Finales

La advertencia de Andrej Karpathy no es solo un dato técnico, sino una filosofía fundamental sobre la naturaleza de la IA. Aunque el número del 90% sea más una hipérbole para generar conciencia, encapsula la realidad de que la mayoría de las salidas de un LLM son predicciones estadísticas y no hechos verificados.

El principal reto de la IA ya no es hacerla más inteligente, sino hacerla más honesta sobre lo que no sabe y más fiable en el mundo real. Mientras tanto, la responsabilidad de verificar el «sueño» recae en el usuario.

Deja tu opinión: ¿Crees que la alucinación de la IA es un peligro o simplemente un costo de la creatividad? ¡Comenta abajo!

Si quieres saber más, mira en Análisis de la Fiabilidad de los LLM y la ‘Crisis de Evaluación