Mientras un estudio pone en evidencia que ChatGPT ha venido perdiendo facultades tras cada actualización, otras investigaciones encontraron que el chatbot es más útil y preciso en tareas médicas que de programación.
***
- Un estudio encontró diferencias sustanciales entre GPT-3.5 y GPT-4
- La versión posterior es menos precisa que su antecesora a la hora de dar respuestas
- En tareas de programación, ChatGPT mostró un rendimiento por debajo del 50%
- Pero en preguntas médicas, tuvo una tasa de éxito del 73%
- El grado de acierto de ChatGPT depende principalmente del contenido disponible del cual se basa
Así lo ponen en evidencia ciertos estudios realizados por varias universidades, los cuales cuestionan las habilidades generales de ChatGPT tras la implementación de la versión GPT-4, así como su destreza para el desarrollo de ciertas solicitudes en áreas de conocimiento particulares.
¿ChatGPT se está haciendo más tonto? Partiendo primero desde una visión más general, un estudio realizado por científicos de la Universidad de Standford, citado por el medio Futurism, apunta a que ChatGPT podría estarse volviendo “más tonto” tras las nuevas actualizaciones, esto dado que existen diferencias importantes entre el desempeño de GPT-3.5 y GPT-4, encontrando menos precisión en las respuestas que arroja la versión más reciente.
La evaluación hecha por los científicos contempló varios aspectos entre ambas versiones, como por ejemplo su pericia para realizar cálculos matemáticos, análisis ante determinadas solicitudes, y su capacidad para generar código aplicable al desarrollo de software. Aparentemente la versión con GPT-3.5 tiene una mayor precisión y éxito que la posterior, lo que da la impresión que el chatbot ha perdido facultades en lugar de optimizarse.
Según indica el reporte, esta misma impresión la han tenido muchos usuarios que usan al chatbot, los cuales alegan que tanto GPT-3.5 como GPT-4 han venido cambiado significativamente su comportamiento, resultando menos precisos y con respuestas carentes de la calidad vista en versiones previas.
La expectativa es mejorarlo Frente a estos señalamientos, el vicepresidente de producto de OpenAI, Peter Welinder, rechazó la tesis de que las versiones posteriores de GPT sean “menos inteligentes”, alegando que la expectativa es que supere a sus predecesoras.
Al respecto, Welinder aclaró que los cambios en la experiencia de los usuarios “podrían deberse al uso continuo”, especificando que probablemente “cuando usas [ChatGPT] más intensamente, comienzas a notar problemas que no veías antes”.
Mejor doctor que programador Pero dejando atrás los debates sobre la inteligencia global de ChatGPT, otro de los aspectos que generó cierto interés entre los interesados es la pericia del chatbot para atender solicitudes en determinadas áreas de conocimiento. Bajo esta premisa, dos estudios realizados por reputadas universidades encontraron que al bot de IA le va mejor haciendo exámenes médicos que escribiendo código para programar.
Por un lado está el estudio realizado por la Universidad de Purdue, el cual encontró que al responder solicitudes de programación en la comunidad de programación Stack Overflow, “el 52% de las respuestas generadas por ChatGPT son incorrectas, aunque el 77% de las mismas fueron muy detalladas”.
Por el otro lado está un estudio realizado por UCLA y la Universidad Pepperdine de Malibu, el cual puso a prueba la pericia de ChatGPT para responder inquietudes difíciles sobre exámenes médicos. Acá abordó unas 850 preguntas de opción múltiple sobre nefrología, en las cuales tuvo un 73% de éxito, puntuando muy parecido al promedio de los médicos humanos que atendieron al mismo cuestionario.
Sobre esto último, el equipo de UCLA escribió:
La capacidad superior demostrada actual de GPT-4 para responder con precisión preguntas de opción múltiple en Nefrología apunta a la utilidad de modelos de IA similares y más capaces en futuras aplicaciones médicas.Todo depende de la disponibilidad de la información Si bien es notorio que ChatGPT tuvo un mejor desempeño en temas médicos que en las áreas de programación, la razón detrás de esto bien podría obedecer a la disponibilidad de la información en la que se basa el chatbot para responder a las solicitudes.
Al respecto, el científico informático del MIT, Lex Fridman, expuso que ChatGPT toma la información disponible públicamente para abordar las dudas planteadas por los usuarios, por lo que es posible que los modelos nutridos con datos que quizás sean de manejo más privado tengan mejores posibilidades.
También destacó que una IA no puede actuar adecuadamente fuera de los parámetros para los que fue entrenada, y en caso de hacerlo, incurre en una práctica denominada “alucinación”, cuyo grado de acierto muy probablemente no sea tan alto y detallado como cuando se trata de alguna solicitud sobre la cual hay información precisa disponible.
Por ende, es mucho más fácil para una IA como ChatGPT poder acceder a contenidos médicos de amplia difusión en Internet, en lugar de repositorios que no sean de código abierto sobre programación. De aquí está la explicación tentativa sobre sus buenas facultades en el área de la salud frente a las deficiencias para aspectos inherentes a la codificación.
En todo caso, tanto ChatGPT como otras IA del mercado siguen en proceso de aprendizaje y desarrollo, por lo que es posible que futuras versiones proporcionen muchos más datos para abordar preguntas y solicitudes más complejas.
Artículo de Angel Di Matteo / DiarioBitcoin
Imagen de Unsplash