Un equipo de investigadores e ingenieros eléctricos del Departamento de Ingeniería Eléctrica (DIE) de la Universidad de Chile, encabezado por el académico y doctor, Néstor Becerra Yoma, trabaja en el desarrollo de habilidades de integración, humano-robots, a través del procesamiento de voz y lenguaje hablado para poder interactuar con la próxima generación de robots e inteligencia artificial que se están creando en el mundo.
La robótica e inteligencia artificial han dado mucho que hablar últimamente. Tanto así que se ha llegado a especular que son una amenaza a la especie humana. Lo que sí es muy probable es que muchos empleos realizados por seres humanos sigan siendo reemplazados por máquinas lo que es una preocupación que deberíamos enfrentar para poder adaptarnos a estos cambios. Por lo mismo, miembros del Laboratorio de Procesamiento y Transmisión de Voz (LPTV) de la Facultad de Ciencias Físicas y Matemáticas (FCFM) están trabajando en la integración social humano-robot en ambientes colaborativos como un iniciativa para enfrentar este nuevo paradigma que se aproxima a pasos agigantados.
Al respecto el profesor Becerra se refiere a esta investigación como una herramienta necesaria para poder generar lazos de comunicación entre nosotros y las máquinas que están en nuestro entorno. “La idea es integrar a los humanos con los robots para que puedan colaborar entre sí y alcanzar objetivos en común. Por su parte, los robots son capaces de realizar funciones o ir a lugares que para el ser un humano son poco realizables o de difícil acceso. Sin embargo, no son 100% autónomos y la intervención de los operadores –los humanos– es fundamental. Esta integración colaborativa humano-robot será extremadamente importante en las próximas décadas, pero surge un problema, cómo nos comunicaremos con estas nuevas especies, actores o grupos”.
Agrega el académico, “en este escenario, el uso del lenguaje hablado juega un rol fundamental por al menos dos razones: es el modo más natural en que las personas interactúan; y permite a los operadores humanos asimilar el contexto del equipo robot en un trabajo colaborativo, por lo mismo, estamos usando técnicas de reconocimiento de voz Automatic Speech recognition (ASR) y síntesis de voz, Text To Speech (TTS) para hacer más amigable y eficiente la comunicación humano-robots , mejorando la efectividad mediante la contextualización del estado del equipo robótico. Por ejemplo, si una máquina encuentra alguna dificultad en completar una misión u operación específica, la idea es que los usuarios lo sepan con prontitud para que puedan tomar las acciones del caso”.
El profesor Becerra explica que este trabajo es posible gracias a la herramienta que se conoce como Inteligencia Artificial (IA), por sus siglas en inglés-. Así, en el Laboratorio de Procesamiento y Transmisión de Voz del DIE se realiza un uso intensivo de estas tecnologías que se pueden dividir en tres ramas. La primera, es la que corresponde a métodos que usan reglas bien definidas para razonar y tomar decisiones. El ejemplo más común pueden ser los programas para jugar ajedrez, en este contexto, estos sistemas no tienen capacidad de aprendizaje.
La segunda vertiente de la AI es la basada en aprendizaje estadístico. Estas tecnologías han sido muy efectivas en reconocimiento de voz, de rostro y de imágenes. Se crean estructuras de redes neuronales de varias capas conocidas como Deep neural networks (DNN), que se entrenan con ejemplos específicos de lo que se quiere analizar o reconocer. Tienen gran capacidad de clasificación y de predicción. Sin embargo, no tienen la capacidad de contextualizar y poseen una mínima habilidad de razonar.
Por último, la última rama de AI tiene como eje fundamental el uso de información de contexto o conocimiento previo de modo que un sistema pueda aprender a analizar o clasificar usando sólo una pequeña cantidad de ejemplos tal cual como lo hacen los seres humanos. En el caso de un sistema de reconocimiento de voz, no se necesitarían muchos ejemplos de una palabra o frase para aprender a reconocer lo que dicen los usuarios en contraste de lo que se hace en Google o Siri que usan cientos de miles, sí no millones, de horas de voces de personas en todo el mundo. La idea es caracterizar los patrones usando atributos fáciles de asimilar o de más alto nivel.
Como se puede apreciar, la Inteligencia Artificial está teniendo un gran avance con tecnologías basadas en aprendizaje estadístico tales como Deep Learning o redes neuronales de aprendizaje profundo, pero la búsqueda métodos que usen el contexto o información previa ciertamente dominará la investigación en los próximos años o décadas.
El Ciudadano