GPT-4o: y las máquinas hablaron

Veintiséis minutos y doce segundos bastaron. Ese es el tiempo que duró el vídeo de presentación de GPT-4o (la 'o' es de 'omni'), el nuevo modelo de inteligencia artificial de OpenAI. Por si no lo habéis visto, os dejo el vídeo:
Yo os recomiendo verlo en plan un episodio de 'Friends'. Podéis ver también las distintas demos publicadas en el canal de YouTube de OpenAI, o mejor aún, podéis echar un vistazo a ese artículo titulado "Hola GPT-4o" publicado en el blog de OpenAI, y que explica aún mejor todo lo que han hecho con este proyecto.
Que es mucho, pero sorprendentemente no donde muchos pensábamos. Esto no es un GPT-5, y de hecho la precisión del modelo, al menos en mis pruebas, es la misma que la de GPT-4. Se le nota algo más rápido y fluido, sí, pero sigue inventando alguna cosilla y cometiendo errores. Lo importante de GPT-4o no es eso.
Lo importante es que GPT-4o ha aprendido a hablar.
Pero a hablar de verdad. De forma totalmente natural, con cambios de entonación, con pausas humanas —mmm, eeeh—, con una soltura espectacular y, además, con otra cosa: una latencia mínima. Aquí no hay que esperar dos segundos a que te responda: lo hace enseguida, y puedes cortarle en medio de la frase —fantástico para yoístas— para decir cualquier otra cosa que se te ocurra. A la máquina le dará igual: ella siempre pondrá la otra mejilla y, obediente, te contestará siguiendo tus instrucciones. Lo contaba hace un ratito en Xataka.
Hay muchas demos que son reveladoras de lo que ha logrado OpenAI. Las tenéis todas especialmente fáciles de "consumir" en un hilo oficial en Twitter, pero a mí me han impresionado especialmente dos.
La primera, esa de debajo con el creador de Khan Academy usando ChatGPT en un iPad para ejercer de profesor particular de matemáticas para su hijo (dudo que lo necesite). El vídeo de tres minutos —por favor, vedlo— es espectacular, porque ese profesor virtual actúa de forma ejemplar: sin revelar demasiados datos, tratando de ayudar a pensar, animando y celebrando la solución. Las explicaciones e instrucciones son claras, y me pregunto quién necesitará un profesor particular de mates (como de otras muchas cosas) a partir de ahora. Esto pinta a revolución en la enseñanza, como también comentaba en Xataka hoy.
La segunda, igualmente brutal, es la que hacía que ChatGPT con GPT-4o se convirtiese en un lazarillo virtual para un ciego. La capacidad del nuevo modelo de describir aquello que capta la cámara del (en este caso) iPhone es aparentemente espectacular, y hace que las personas ciegas o con problemas serios en la vista tengan ante sí una herramienta fantástica para su día a día. Para los demás también es una opción de lo más jugosa, y aquí por ejemplo veo en peligro —entre otros— a los guías turísticos ("ChatGPT, cuéntame cosas curiosas sobre ese edificio que estoy mirando").
En ambos vídeos lo importante no es ya el hecho de que sea capaz de enseñar a un niño o de guiar a un ciego: lo importante, por si no lo habéis notado, es que ChatGPT habla casi como lo haría un ser humano. Con esa entonación, esa comprensión y esa coherencia que hacen de este modelo un verdadero candidato a que la voz al fin se convierta en sustituta del teclado y el ratón en nuestros ordenadores o los toques y gestos en la pantallas de nuestros móviles y tabletas.
Para mí esa es la gran revolución potencial de este modelo. En las demos se veía una y otra vez eso: gente hablándole a las máquinas, y máquinas hablándole a la gente. Es alucinante e inquietante al mismo tiempo, porque aunque ChatGPT no ha mejorado mucho en cosas importantes —insisto, sigue inventando y cometiendo errores—, lo ha hecho en algo clave: su usabilidad.
Es cierto que ya podíamos hablar con nuestros dispositivos: Alexa, Siri y el asistente de Google lo vienen demostrado desde hace años, pero al menos en mi caso jamás me he sentido cómodo con ellos. Me daba vergüenza hablarle a mi smartphone. Sus opciones siempre han sido limitadas, y la interacción estaba condenada a decirnos el tiempo, ponernos alguna canción o respondernos alguna curiosidad de cuando en cuando. Que yo sepa, su uso siempre ha sido anecdótico para la inmensa mayoría de la gente.
Lo que promete GPT-4o es distinto, sobre todo por esa capacidad brutal de entenderlo todo y de contestar casi instantáneamente, como si fuera una persona. Aquí la capacidad de simular empatía y hasta de captar emociones —según OpenAI, ChatGPT ahora "siente" si estás enfadado, triste o alegre, por ejemplo— es además crucial para otro campo aún más inquietante.
El de los robots que simulaban amar a las personas.
Hablé de eso hace diez años, tras ver Her, y comenté que "espero que la IA nunca llegue a ese punto en el que una persona no sepa –o más bien, no quiera– diferenciar algo real de algo artificial". Parece mentira, pero esa situación ya es una realidad desde hace tiempo con Replika, esa plataforma que te ofrece un amigo/amante virtual ideal. Uno que siempre escucha, que no desfallece y que se ajusta a tus deseos. Con GPT-4o ambas opciones se potencian, sobre todo por esa capacidad de hablar de forma tan natural. Los avatares de Replika, que ya eran convincentes para quienes los usaban —recordad, la gente se enamoró de ellos— ahora serán aún más creíbles y perfectos. Si unimos esto a su impepinable inclusión en dipositivos hardware (primero el móvil, luego unas gafas, luego quién sabe), nuestra concepción del mundo podría cambiar de forma importante.
Y entonces me preguntaré otra cosa. Una más chunga. No ya quién necesitará un profe particular o un ilustrador o un redactor o un músico o un abogado o un programador.
Me preguntaré quién necesitará un amigo, e incluso quién necesitará una persona a quien amar.
Miedo.
Imagen | JaviPas con Midjourney