Auge y caída de los asistentes de voz

Todos nos veíamos en plan Joaquin Phoenix. Ya sabéis, hablando con una máquina. Igual no enamorándonos de ella, pero sí hablando con ella como si tal cosa. Era 2013 y el auge de los asistentes de voz estaba en ciernes.

De hecho existía una clara apuesta por esa tecnología. Siri debutó en 2011, Google Now en 2012 (se convertiría en un mucho más potente Google Assistant en 2016), Cortana en 2013 y Alexa en 2014. Habría otros (cof, Bixby, cof), y lo que parecía un elemento simpático para interactuar con el ordenador se convirtió en un elemento aún más simpático para interactuar con el móvil.

Y de repente fue más allá. De algo accesorio se convirtió en el argumento para crear una nueva división de dispositivos: los altavoces inteligentes. Como todo lo que suele llevar ese calificativo, de inteligentes esos altavoces tenían (y tienen) poco. Aún así, los asistentes de voz iban mejorando y puliéndose. Iban haciendo cada vez más cosas y mejor hechas. Bueno, menos Siri, que iba a lo suyo.

Pero Alexa y Google Assistant, desde luego, nos asombraban cada poco tiempo. El primero, por su modularidad: la posibilidad de crear y usar "Skills" para adaptar su uso a ciertas situaciones era una chulada, mientras que Google iba aún más allá con un asistente que no solo conversaba cada vez mejor, sino que era capaz de adoptar rasgos del habla humana.

De repente, todo empezó a incluir soporte para asistentes de voz. No eran ya solo los altavoces, los ordenadores, los móviles y tabletas o los relojes. Eran las bombillas, los enchufes, los robots aspiradores, las neveras, las Smart TVs, y los dongles HDMI tipo Chromecast o Fire TV. Qué maravilla: podíamos hablarle a todos ellos.

Pero... ¿lo hacemos? No.

Esa es la triste conclusión. No hablamos con nuestros asistentes de voz. Como mucho les preguntamos el tiempo y les decimos que nos pongan una canción. Todo el esfuerzo de las Amazon y Google del mundo se ha quedado limitado a peticiones súper básicas que distan mucho de ese futuro utópico que nos pintan las películas. Uno en los que hablamos con las máquinas para cualquier cosa porque pulsar botones está sobrevalorado.

Pues resulta que no. Preferimos pulsar botones. Fïsicos o virtuales, da igual. O teclas, claro. Lo de usar la voz con las máquinas no es de momento lo nuestro, y esa apuesta le está saliendo muy mal a quienes la han hecho.

Lo confirmaba Amazon recientemente, que calificaba a Alexa de un "fallo colosal" con el que perderían 10.000 millones de dólares este año. Se dice pronto. La crisis de esa división de Amazon es terrible y tal y como están las cosas en la economía, perder esa cantidad de pasta (o cualquier otra) no es ya asumible. ¿Qué ocurrirá entonces? Pues que por lo visto Amazon se cargará la división (o gran parte de ella).

Eso plantea un futuro muy negro para los dispositivos de la familia Echo. No tengo claro que dentro de 5 o 10 años esos altavoces tan monos puedan funcionar como lo hacen hoy en día, porque si Amazon está tan cansada del tema puede que acabe desactivando los servidores que se usaban para las funciones de Alexa, a saber. Me imagino la conversación:

- Alexa, ¿qué tiempo va a hacer hoy?

-Error 500.

Y así con todo. O quizás no. Google no parece haber movido ficha, pero Microsoft ya mató Cortana al no poder competir -probablemente estén aliviados ahora mismo- y Apple nunca se ha esforzado demasiado con Siri. Ni siquiera han invertido demasiado en sus HomePod con ese asistente de voz, quizás porque detectaron que nadie usaba demasiado su asistente.

Yo quería creer en los asistentes de voz, pero ya decía en 2015 que me daba vergüenza hablarle a mi smartphone. Y lo mismo me pasa con los altavoces inteligentes que tengo en casa: parece que estoy enfadado con el Amazon Echo de 4ª generación y el Nest Mini, pero no es así. Simplemente, no los uso. Los compré casi como experimento, pero siempre los tengo con el micrófono desactivado por mi particular paranoia con la privacidad y me cuesta un horror activarlo y decirles algo.

Sé positivamente que hay gente que los usa. Que se pone la música, las noticias, la radio o un podcast mientras cocina. O que le grita a la tele para que reproduzca una serie. Pero diría que son la minoría, y no estoy seguro de que las nuevas generaciones estén cambiando ese hábito. Es cierto que mis hijos se llevan algo mejor con el Amazon Echo, por ejemplo, pero es más porque de cuando en cuando lo usan en plan juguete -"Alexa, cuéntame un chiste"-.

Aún así, el problema para las empresas como Amazon está en que no había forma fácil de monetizar un asistente de voz. Lo de recolectar tu voz para según qué cosas era impensable -ya hubo polémica al respecto-, y no parece tener sentido que el altavoz nos interrumpa cada tres por cuatro y nos salte de buenas a primeras con un anuncio que no hemos pedido. Amazon confesaba que ni gana ni pierde dinero con estos dispositivos, y sin servicios asociados que den retorno, la idea tiene (parece) poco recorrido a largo plazo. Sin rentabilidad, los proyectos mueren.

Diría que uno de los grandes fracasos de esta tecnología es la de no entender el lenguaje natural. Somos nosotros los que tenemos que aprender cómo hablar con los asistentes, y aunque la cosa no es complicada, eso es un obstáculo. No tenemos esa costumbre ni esa cultura, pero sí la del botón. Con esa sí nos sentimos seguros y cómodos. Con esa sabemos interactuar.

Quizás falte solo eso. Tiempo. De momento lo cierto es que ese futuro que nos pintaban los asistentes, tan peliculero, tan estupendo, está muy lejos de hacerse realidad. No diré que los asistentes están muertos, desde luego, pero la expectación e interés que generaban hace un tiempo se ha difuminado lenta pero inexorablemente.

O eso parece. Veremos.

Vaya, acabo de ver que publiqué una reflexión muy parecida el año pasado. Maldición, empiezo a repetirme.