Tecnologías de voz que están cambiando nuestras vidas 1a parte

Tecnologías de voz que están cambiando nuestras vidas

(1ª Parte)

La tecnología de reconocimiento de voz permite el control de manos libres en teléfonos inteligentes, asistentes e incluso vehículos, en una amplia variedad de idiomas. Es un desarrollo imaginado y trabajado durante décadas. El objetivo es, sencillamente, hacer la vida más fácil y segura.

En esta ocasión vamos a dar un breve vistazo a la historia de esta tecnología, cómo funciona y los principales dispositivos que la utilizan. Luego examinaremos lo que podría estar a la vuelta de la esquina en una segunda entrada.

El reconocimiento de voz ayuda a hacer todo más rápido (es posible dictar entre 125 y 150 palabras por minuto, frente a las 40 palabras en versión escrita), la esencia de la tecnología de reconocimiento de voz es el uso del lenguaje natural para

desencadenar una acción.

Historia de la tecnología de reconocimiento de voz

Década de 1950: los laboratorios Bell desarrollaron «Audrey», un sistema capaz de reconocer los números del 1 al 9 pronunciados por una sola voz.
Década de 1960: IBM ideó un dispositivo llamado «Shoebox» que podía reconocer y diferenciar entre 16 palabras habladas en inglés.
Década de 1970: Condujo al sistema ‘Harpy’ en Carnegie Mellon que podía entender más de 1,000 palabras.
Década de 1990: la llegada de la informática personal trajo procesadores más rápidos y abrió la puerta a la tecnología de dictado. Bell volvió a hacerlo con los sistemas de reconocimiento de voz interactivos de acceso telefónico.
Década de 2000: el reconocimiento de voz logró una tasa de precisión cercana al 80%. Luego, Google Voice apareció en escena, poniendo la tecnología a disposición de millones de usuarios y permitiéndole a Google recopilar datos valiosos.
Década de 2010: Apple lanzó Siri y Amazon salió con Alexa en un intento por competir con Google.

SMART DIGITAL PLATFORM es la plataforma inteligente de negocios que automatiza tareas predecibles y repetitivas.

¿Cómo funciona el reconocimiento de voz?

Algunos sistemas de reconocimiento de voz requieren de una curva de aprendizaje,

como un niño aprendiendo a hablar: desde el primer día los padres hablan y el niño absorbe todo tipo de señales verbales: entonación, inflexión, sintaxis y pronunciación. Su cerebro tiene la tarea de identificar patrones y conexiones complejas en función de cómo sus padres usan el lenguaje. Pero mientras que los cerebros humanos están cableados para adquirir él habla, los desarrolladores de reconocimiento de voz tienen que construir ellos mismos el cableado a través de infraestructura y software.

Flujo básico de funcionamiento

Un micrófono transmite las vibraciones de la voz de una persona en una señal eléctrica similar a una onda.
Esta señal, a su vez, es convertida por el hardware del sistema (la tarjeta de sonido de una computadora, por ejemplo) en una señal digital.
El software de reconocimiento de voz analiza la señal digital para registrar fonemas, unidades de sonido que distinguen una palabra de otra en un idioma en particular.
Los fonemas se reconstruyen en palabras.
Para elegir la palabra correcta, el programa debe basarse en claves de contexto, logradas a través del análisis de trigramas.
El software de reconocimiento de voz funciona dividiendo el audio de una grabación de voz en sonidos individuales, analizando cada sonido, usando algoritmos para encontrar la palabra más probable en ese idioma y transcribiendo esos sonidos en texto.

Asistentes de voz principales

Siri de Apple

Esta surgió como el primer asistente de voz popular después de su debut en 2011, desde entonces, se ha integrado en todos sus dispositivos. Aunque Siri tuvo una gran ventaja, en un inicio muchos usuarios expresaron su frustración por su aparente incapacidad para comprender e interpretar adecuadamente los comandos de voz, lo que los ha llevado a hacer mejoras constantes y a partir de 2021, Apple supera a sus competidores en términos de disponibilidad por país y, por lo tanto, en la comprensión de Siri de los acentos extranjeros.

Siri está disponible en más de 30 países y 21 idiomas y, en algunos casos, en varios dialectos diferentes.

Amazon Alexa

A diferencia de Apple, Amazon siempre ha creído que el asistente de voz debe contar con la mayor cantidad de «habilidades», Alexa Skills Kit (ASK) de Amazon es quizás lo que ha impulsado a Alexa como una plataforma de “buena fe”. ASK permite a los desarrolladores externos crear aplicaciones y aprovechar el poder de Alexa sin necesidad de soporte nativo.

Alexa está a la vanguardia con su integración con dispositivos domésticos, brindando a los usuarios el control absoluto de su hogar con la API Smart Home Skill de Amazon.

Dispositivos Google

Desde pedir que se traduzca una frase a otro idioma hasta convertir la cantidad de barras de mantequilla en una taza, el Asistente de voz de Google (Google Home, Nest) no solo responde correctamente, sino que también brinda un contexto adicional y cita un sitio web de origen para obtener la información. Dado que está respaldado por la poderosa tecnología de búsqueda de Google.

La integración de nuevas tecnologías como la IA y el procesamiento basado en la nube además de la recopilación de datos de voz, han mejorado consistentemente la capacidad de los sistemas para «escuchar» y comprender una variedad más amplia de palabras, idiomas y acentos.

En la segunda parte conoceremos cómo el reconocimiento de voz en la industria automotriz y los videojuegos juega un papel central en su desarrollo. También exploraremos que depara el futuro para esta tecnología.

Somos la consultora especializada en tecnologías de la información que impulsan la continuidad y crecimiento. isol.mx/contacto

Síguenos en LinkedIn

‍