DiagnosUs, una aplicación móvil, utiliza la inteligencia colectiva de estudiantes y profesionales de medicina para etiquetar y evaluar datos médicos. Este proceso, gamificado con premios en efectivo por diagnósticos precisos, ayuda a las empresas de inteligencia artificial médica a mejorar sus algoritmos. El enfoque de Centaur ofrece resultados confiables, a menudo igualando o superando los diagnósticos de expertos. Duhaime prevé un futuro en el que su empresa supervise continuamente los modelos de IA, creando una experiencia humana integrada y un ecosistema de IA.
La plataforma de ex alumnos del MIT aprovecha la sabiduría de las multitudes para etiquetar los datos médicos para las empresas de IA.
Centaur Labs creó una aplicación que los expertos usan para ordenar datos médicos a cambio de pequeños premios en efectivo. Estas opiniones se utilizan para entrenar y mejorar los modelos de IA que salvan vidas.
Cuando Erik Duhaime PhD ’19 estaba trabajando en su tesis en el Centro de Inteligencia Colectiva del MIT, notó que su esposa, entonces estudiante de medicina, pasaba horas estudiando en aplicaciones que ofrecían tarjetas didácticas y cuestionarios. Su investigación había demostrado que, como grupo, los estudiantes de medicina podían clasificar las lesiones cutáneas con mayor precisión que los dermatólogos profesionales; el truco consistía en medir continuamente el desempeño de cada estudiante en casos con respuestas conocidas, descartar las opiniones de las personas que no eran buenas en la tarea y agrupar hábilmente las opiniones de las personas que eran buenas.
Combinando los hábitos de estudio de su esposa con su investigación, Duhaime fundó Centaur Labs, una empresa que creó una aplicación móvil llamada DiagnosUs para recopilar las opiniones de expertos médicos sobre datos científicos y biomédicos del mundo real. A través de la aplicación, los usuarios revisan cualquier cosa, desde imágenes de lesiones cutáneas potencialmente cancerosas o clips de audio de sonidos cardíacos y pulmonares que podrían indicar un problema. Si los usuarios son precisos, Centaur usa sus opiniones y les otorga pequeños premios en efectivo. Estas opiniones, a su vez, ayudan a las empresas de IA médica a entrenar y mejorar sus algoritmos.
Los cofundadores de Centaur Labs (de izquierda a derecha) Tom Gellatly, Erik Duhaime PhD ’19 y Zach Rausnitz. Crédito: Cortesía de los investigadores.
El enfoque combina el deseo de los expertos médicos de mejorar sus habilidades con la necesidad desesperada de datos médicos bien etiquetados por parte de las empresas que utilizan IA para la biotecnología, el desarrollo farmacéutico o la comercialización de dispositivos médicos.
“Me di cuenta de que los estudios de mi esposa podrían ser un trabajo productivo para los desarrolladores de IA”, recuerda Duhaime. “Hoy tenemos decenas de miles de personas que usan nuestra aplicación, y aproximadamente la mitad son estudiantes de medicina que están encantados de ganar dinero mientras estudian. Así que tenemos esta plataforma gamificada donde las personas compiten entre sí para entrenar datos y ganar dinero si son buenos y mejoran sus habilidades al mismo tiempo, y al hacerlo, están etiquetando datos para equipos que construyen IA que salva vidas.
Gamificando el etiquetado médico
Duhaime completó su doctorado bajo la dirección de Thomas Malone, profesor de administración Patrick J. McGovern y director fundador del Centro de Inteligencia Colectiva.
“Lo que me interesó fue la sabiduría del fenómeno de las multitudes”, dice Duhaime. “Pregunte a un grupo de personas cuántos caramelos hay en un frasco y la respuesta promedio de todos es bastante parecida. Me interesaba saber cómo maneja este problema en una tarea que requiere habilidad o experiencia. Obviamente, no solo desea preguntarle a un grupo de personas al azar si tienen cáncer, pero al mismo tiempo, sabemos que una segunda opinión en el cuidado de la salud puede ser extremadamente valiosa. Puede pensar en nuestra plataforma como una forma sobrealimentada de obtener una segunda opinión”.
Duhaime comenzó a explorar formas de aprovechar la inteligencia colectiva para mejorar los diagnósticos médicos. En un experimento, entrenó a grupos de legos y estudiantes de medicina que describe como «semiexpertos» para clasificar las afecciones de la piel y descubrió que al combinar las opiniones de los mejores profesionales, podía superar a los dermatólogos profesionales. También descubrió que al combinar algoritmos entrenados para detectar el cáncer de piel con las opiniones de los expertos, podía superar cualquier método por sí mismo.
“La idea principal fue que haces dos cosas”, explica Duhaime. “Lo primero es medir el desempeño de las personas, lo que parece obvio, pero incluso en el campo de la medicina esto rara vez se hace. Si le preguntas a un dermatólogo si es bueno, te dirá: ‘Sí, claro, soy dermatólogo’. No necesariamente saben qué tan buenos son en tareas específicas. Lo segundo es que cuando recibes múltiples opiniones, necesitas identificar complementariedades entre diferentes personas. Tienes que reconocer que el conocimiento es multidimensional, por lo que es un poco más como armar el equipo de trivia ideal que juntar a las cinco personas que son mejores en lo mismo. Por ejemplo, un dermatólogo puede ser mejor para identificar el melanoma, mientras que otro puede ser mejor para clasificar la gravedad de la psoriasis”.
Mientras aún cursaba su doctorado, Duhaime fundó Centaur y comenzó a utilizar el ecosistema empresarial del MIT para desarrollar aún más la idea. Recibió fondos del Sandbox Innovation Fund del MIT en 2017 y participó en el acelerador de inicio delta v administrado por el Martin Trust Center for MIT Entrepreneurship en el verano de 2018. La experiencia lo ayudó a ingresar al prestigioso acelerador Y Combinator ese mismo año.
La aplicación DiagnosUs, desarrollada por Duhaime con los cofundadores de Centaur, Zach Rausnitz y Tom Gellatly, está diseñada para ayudar a los usuarios a probar y mejorar sus habilidades. Duhaime dice que aproximadamente la mitad de los usuarios son estudiantes de medicina y la otra mitad son principalmente médicos, enfermeras y otros profesionales médicos.
“Es mejor que estudiar para los exámenes, en los que podrías tener preguntas de opción múltiple”, dice Duhaime. “Pueden ver casos reales y practicar”.
Centaur recopila millones de opiniones cada semana de decenas de miles de personas en todo el mundo. Duhaime dice que la mayoría de la gente gana dinero con el café, aunque la persona que más ha ganado de la plataforma es un médico de Europa del Este que ha ganado alrededor de 10.000 dólares.
“La gente puede hacerlo en el sofá, puede hacerlo en la T”, dice Duhaime. “No se siente como un trabajo, es divertido”.
El enfoque contrasta marcadamente con el etiquetado de datos tradicional y la moderación de contenido de IA, que generalmente se subcontratan a países con pocos recursos.
El enfoque de Centauro también produce resultados precisos. En un artículo con investigadores del Hospital Brigham and Women’s, el Hospital General de Massachusetts (MGH) y la Universidad Tecnológica de Eindhoven, Centaur mostró que sus opiniones colectivas etiquetaron los ultrasonidos pulmonares con la misma fiabilidad que los expertos. Otro estudio con investigadores de Memorial Sloan Kettering mostró que el etiquetado colaborativo de imágenes dermatoscópicas era más preciso que el de dermatólogos altamente experimentados. Además de imágenes, la plataforma de Centaur también funciona con video, audio, texto de fuentes como trabajos de investigación o conversaciones anónimas entre médicos y pacientes, y formas de onda de electroencefalogramas (EEG) y electrocardiógrafos (ECG).
Encontrar a los expertos
Centaur ha descubierto que los mejores artistas provienen de lugares sorprendentes. En 2021, para recopilar opiniones de expertos sobre patrones de EEG, los investigadores realizaron un concurso a través de la aplicación DiagnosUs en una conferencia con alrededor de 50 epileptólogos, cada uno con más de 10 años de experiencia. Los organizadores hicieron una camiseta personalizada para obsequiar al ganador del concurso, que se suponía que asistiría a la conferencia.
Pero cuando llegaron los resultados, un par de estudiantes de medicina ghaneses, Jeffery Danquah y Andrews Gyabaah, habían vencido a todos los asistentes. El participante de la conferencia con la calificación más alta ocupó el noveno lugar.
“Empecé haciéndolo por el dinero, pero me di cuenta de que en realidad empezó a ayudarme mucho”, dijo Gyabaah al equipo de Centaur más tarde. “Hubo momentos en la clínica en los que me di cuenta de que me estaba yendo mejor que los demás gracias a lo que aprendí en la aplicación DiagnosUs”.
A medida que la IA continúa cambiando la naturaleza del trabajo, Duhaime cree que Centaur Labs se utilizará como un control continuo de los modelos de IA.
“En este momento, estamos principalmente ayudando a las personas a entrenar algoritmos, pero creo que cada vez más seremos utilizados para monitorear algoritmos y, en conjunto con algoritmos, básicamente sirviendo como humanos en el circuito para una serie de tareas”, dice Duhaime. «Puede pensar en nosotros menos como una forma de entrenar la IA y más como parte del ciclo de vida completo en el que proporcionamos comentarios sobre los resultados del modelo o monitoreamos el modelo».
Duhaime ve que el trabajo de los humanos y los algoritmos de IA se integran cada vez más, y cree que Centaur Labs tiene un papel importante que desempeñar en ese futuro.
“No se trata solo de entrenar un algoritmo, implementar un algoritmo”, dice Duhaime. “En cambio, habrá estas líneas de montaje digitales en toda la economía, y se necesita un juicio humano experto bajo demanda infundido en diferentes lugares a lo largo de la cadena de valor”.