Los programas de síntesis de voz y los programas de reconocimiento de voz agregan al análisis lingüístico el nivel fonético, que no está presente en el resto de las aplicaciones mencionadas.
Las utilidades de estos programas son múltiples. Los programas de síntesis de voz (que tienen como finalidad la transmisión por voz del contenido de archivos de texto) tienen utilidades en el aprendizaje de lenguas extranjeras (junto con la herramienta emparentada de deletreo de palabras) o para ayudar a mejorar la pronunciación de sonidos y palabras a personas disléxicas o con otros defectos de habla. Se utilizan también en los sistemas de telefonía celular (convierten un mensaje de texto en un mensaje de voz) y hay aplicaciones para el doblaje de películas y para la simulación de canciones. Por su parte, los programas de reconocimiento de voz (que transcriben textos orales) sirven para dar órdenes orales a la máquina, hacer transcripciones de grabaciones o construir sistemas de seguridad avanzados.
Este tipo de programas tiene una utilidad particular entre personas con discapacidades: sordos y ciegos pueden utilizarlos para comunicarse mejor a través de su computadora a un costo relativamente accesible. Los sordos utilizan programas de reconocimiento de voz, que transforman el sonido en texto escrito al que pueden acceder en la pantalla de la computadora. Los programas de síntesis de voz son utilizados por personas ciegas o con baja visión para acceder a la información visualizada en pantalla; su objetivo es la lectura de información de la computadora al usuario mediante mensajes que suelen ser emitidos con voces total o parcialmente sintéticas (en algunas ocasiones se emplean voces naturales grabadas).
Los programas de reconocimiento del habla se encuentran ante serias dificultades; una de las más importantes es que la onda acústica -el sonido- es absolutamente continua. Además, para poder hablar rápido a menudo no llegamos a efectuar los movimientos articulatorios completos, los dejamos a medias para encadenarlos con otros. Todo ello implica que no existen fronteras entre los diferentes sonidos desde el punto de vista acústico, sino que las determina nuestro cerebro.
Los programas de reconocimiento de voz incluyen dos tipos de programas: los de aproximación estadística y los de aproximación lingüística. Los de aproximación estadística son los que tienen más éxito y, de hecho, son los programas que se encuentran actualmente en el mercado. Los sistemas de aproximación lingüística no sólo realizan un análisis fonético, sino que también tienen en cuenta aspectos gramaticales como la morfología o la sintaxis. De este modo, el programa actúa de modo similar a nuestro cerebro: cuando oímos una palabra no sólo reconocemos la secuencia de fonemas (está demostrado que, si se ha pronunciado mal alguno de los sonidos, lo sustituimos inmediatamente de forma inconsciente), sino que le asignamos automáticamente una interpretación, puesto que en la percepción y comprensión intervienen todos los niveles lingüísticos.
También los programas de síntesis de voz (que, como se ha dicho, están mucho más avanzados que los de reconocimiento) deberían tener en cuenta factores gramaticales y sintácticos para reproducir adecuadamente la prosodia o entonación. Para que la voz sintetizada se parezca a la humana, la máquina no sólo debe emitir una palabra tras otra, sino que tiene que unir las palabras y reconocer frases.
En ambos casos los programas de punta trabajan con difonemas (esto es, segmentos que incluyen la segunda mitad de un fonema y la primera mitad del siguiente), de modo de incluir la transición entre dos sonidos. Los actuales programas de reconocimiento de voz que hay en el mercado informático son variados en prestaciones y precios (muy pocos disponibles en castellano) pero todos son mayoritariamente de habla discreta. Esto quiere decir que requieren que se hagan pausas entre palabra y palabra.
Acerca de educ.ar | Ministerio de Educación de la Nación Argentina