En el pasado me había interesado por los software de reconocimiento de voz vistos como un medio para materializar las potencias comunicativas de los transeúntes.
Esto hace parte de la tecnología RAH (reconocimiento automático de habla), que tiene como problemática principal hacer cooperar un conjunto de información recopilada de diversas fuentes a pesar de las ambigüedades, incertidumbres y errores, para llegar a obtener un mensaje aceptable de lo recibido.
El diseño de estos software comprende varias ramificaciones, tales como:
Aprendizaje: el software recibe conocimiento y comandos humanos, pero al mismo tiempo se desarrolla a partir de su uso continuo.
Decodificar: En esta etapa la voz se convierte en un parámetro entendible.
Modelo de lenguaje: Se utiliza un lenguaje supremamente sintetizado con un gran archivo de palabras y fonemas relacionados entre si.
Sin embargo la tecnología de reconocimiento de voz aun pasa por varias dificultades que desembocan en resultados arbitrarios de traducción, tales como:
Ambigüedad: en cuanto al léxico se puede dar que una sola palabra tenga muchos significados y que lo “escuchado” se salga de las reglas normales de gramática normal. En cuanto a lo referencial esta la dificultad de ligar entidades lingüísticas y posteriores para darle un sentido general a la transcripción. A nivel pragmático se presenta la imposibilidad de entender los sentidos alternos en una oración. En ese sentido la ironía seria una utopia para este software.
Existen otros problemas en cuanto a lo recibido, tales como el ruido del entorno del que habla y el hecho de que la mayoría de personas no hablan con puntuación o separación entre palabras.
——————————————————————————————-
This slideshow requires JavaScript.
Estos son bocetos de lo que pretendo realizar en cuanto a lo instalativo. hay 2 maneras que, aunque varían en el dispositivo de salida de las palabras, tienen el común el sistema de reconocimiento (computador+software+ micrófono):
1. Varios televisores dispuestos en todo el espacio donde van a ser capturados los sonidos y las palabras.
2. Una o dos proyecciones de video beam puestas a lo largo del espacio transitado por las personas que generan las palabras y/o los ruidos que las generan.