Study finds AI like ChatGPT performs poorly in real medical conversations despite scoring well on tests. El estudio encuentra que la IA como ChatGPT funciona mal en conversaciones médicas reales a pesar de anotar bien en las pruebas.
Researchers from Harvard Medical School and Stanford University found that while AI models like ChatGPT perform well on standardized medical tests, their effectiveness in real-world medical conversations is limited. Investigadores de la Escuela de Medicina de Harvard y la Universidad de Stanford encontraron que mientras que los modelos de IA como ChatGPT funcionan bien en pruebas médicas estandarizadas, su efectividad en conversaciones médicas del mundo real es limitada. The study used a new evaluation framework called CRAFT-MD, which simulates real-world clinical interactions. El estudio utilizó un nuevo marco de evaluación llamado CRAFT-MD, que simula las interacciones clínicas del mundo real. The AI models struggled with collecting patient information and making accurate diagnoses, highlighting the need for more realistic testing methods before these tools are used in clinical settings. Los modelos de IA tuvieron dificultades para recopilar información de los pacientes y realizar diagnósticos precisos, destacando la necesidad de métodos de prueba más realistas antes de que estas herramientas se utilicen en entornos clínicos.