Imagen: Depositphotos.
- OpenAI creó un chatbot de IA para detectar alucinaciones en GPT-4.
- CriticGPT ayuda a detectar errores generados por ChatGPT, aunque de momento solo se enfoca en sus capacidades de codificación.
- Aunque efectivo en identificar errores, CriticGPT presenta limitaciones para respuestas más largas y complejas.
Uno de los mayores problemas que enfrentan actualmente los chatbots de inteligencia artificial —incluso los más avanzados como ChatGPT de OpenAI o
Gemini de Google— son las llamadas «alucinaciones», que es cuando un modelo de IA da resultados incorrectos o engañosos.Estos errores pueden deberse a una variedad de factores, incluidos datos de entrenamiento insuficientes, suposiciones incorrectas hechas por el modelo de IA o sesgos en los datos utilizados para entrenarlo.Para hacer frente a esto, OpenAI construyó un modelo de IA llamado
CriticGPT que intenta encontrar fallas en las respuestas de GPT-4; sin embargo, este funciona nada menos que con el propio GPT-4.Seguro te preguntarás: ¿cómo puede un modelo de IA detectar sus propios errores y alucinaciones? Bueno, CriticGPT fue desarrollado para ser un experto detectando mentiras. Para ello, los investigadores de OpenAI alimentaron al modelo con información falsa y luego le mostraron cómo responder con críticas detalladas.
OpenAI utiliza CriticGPT para captar las alucinaciones de GPT-4
CriticGPT escribe críticas de las respuestas de ChatGPT para ayudar a los entrenadores humanos a detectar errores durante el proceso de Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (o RLHF, por sus siglas en inglés). Las críticas de CriticGPT se destacan por su capacidad para evitar «minucias» y alucinaciones, proporcionando así una retroalimentación más valiosa a los entrenadores humanos.Por ahora, OpenAI solo utiliza CriticGPT para evaluar las capacidades de codificación de GPT-4, ya que las respuestas son sencillas. CriticGPT logró detectar 85% de los errores de codificación, mientras que los humanos entrenados solo encontraron 25% de ellos. Sin embargo, la mejor opción resultó ser emparejar humanos con CriticGPT, quienes en conjunto se desempeñaron 60% mejor.Sin embargo, CriticGPT tiene limitaciones, incluyendo su incapacidad de analizar respuestas más complejas. El desarrollo futuro del modelo tiene como objetivo abordar estas limitaciones mediante la mejora de la comprensión de tareas más largas.OpenAI no es la única organización que trabaja en una manera de solucionar las alucinaciones en chatbots.Recientemente investigadores de la Universidad de Oxford
presentaron un algoritmo que, según dicen, puede detectar alucinaciones de IA 79% de las veces. Esto es aproximadamente 10% mejor que los métodos actuales más eficientes; sin embargo, este algoritmo utiliza aproximadamente 10 veces más energía que una interacción típica de chatbot.