La IA pronto podría convertirse en un aliado en la búsqueda de desterrar las palabras de activación de los asistentes de voz. Los investigadores de la Universidad Carnegie Mellon han desarrollado un modelo de aprendizaje automático que estima la dirección de la que proviene una voz, lo que indica su intención sin la necesidad de una frase o gesto especial. El enfoque se basa en las propiedades inherentes del sonido cuando rebota en una habitación.

El sistema reconoce que el primer sonido, el más alto y claro es siempre el que se dirige directamente a un sujeto determinado. Cualquier otra cosa tiende a ser más tranquila, retrasada y amortiguada. El modelo también es consciente de que las frecuencias del habla humana varían según la dirección a la que se mire. Las frecuencias más bajas tienden a ser más omnidireccionales.

Este método es «ligero», está basado en software y no requiere el envío de datos de audio a la nube, agregaron los investigadores.

Podría pasar un tiempo antes de que vea la tecnología en uso, aunque el equipo ha publicado código y datos para ayudar a otros a desarrollar su trabajo. Es fácil ver a dónde podría conducir esto, al menos. Podrías decirle a un altavoz inteligente que reproduzca música sin usar una palabra de activación o sin activar una horda de otros dispositivos conectados. También podría ayudar con la privacidad al requerir su presencia física y evitar la necesidad de cámaras que detecten la mirada. En otras palabras, estaría más cerca de eso Star Trek visión de asistentes de voz que siempre saben cuándo les está hablando.

Leer también  El chip M1 de Apple llega al MacBook Pro de 13 pulgadas