Reconocimiento automático del habla
El reconocimiento automático del habla o de la voz es una técnica de ordenador que analiza la voz humana capturada por un micrófono para transcribir en la forma de un texto legible por una máquina.
El reconocimiento de voz, así como la síntesis de voz, la identificación del hablante y la verificación del hablante, que forma parte de las técnicas de procesamiento del habla. Estas técnicas incluyen la fabricación de interfaces hombre-máquina (HMI), donde parte de la interacción es el «interfaces de voz».
Entre las muchas aplicaciones, las aplicaciones de dictado de voz incluyen equipo donde la dificultad es el tamaño del vocabulario y la sentencia longitud, pero también telefonear aplicaciones de tipo IVR donde la dificultad se encuentra más bien en la necesidad para reconocer cualquier voz en mayor o menor frecuencia y las condiciones acústicas ruidosas (teléfonos móviles en lugares públicos).
En Word y el diálogo hombre-máquina, explicar que el reconocimiento automático del habla es un área compleja, porque hay una diferencia significativa entre el lenguaje formal que se entiende y se utiliza por las máquinas, y lenguaje natural que utilizan los seres humanos. El lenguaje formal está estructurado por estrictas reglas de sintaxis y sin ambigüedades. Por el contrario, en el lenguaje natural, palabras o frases pueden tener diferentes significados según el tono del hablante o el contexto, por ejemplo.
Campo de investigación
El reconocimiento de voz puede estar vinculado a muchos niveles de la ciencia: el procesamiento del lenguaje natural, la lingüística, la teoría de la información, procesamiento de señales, redes neuronales, inteligencia artificial, etc.
Principios reconocimientos de voz
Una frase grabada se escanea y se le da el reconocimiento de voz automático (ASR). En el formalismo RAP (ASR en Inglés), la estructura funcional es el siguiente:
Tratamiento acústico se utiliza principalmente para extraer la señal de imagen de sonido compacta la voz en forma de vectores acústicos correspondientes a incrementos de 20 a 30 ms de señal sin 10ms (Hamming técnica de ventanas). La señal se digitaliza y configura por una técnica de análisis de frecuencia utilizando la transformada de Fourier.
El aprendizaje automático realiza una asociación entre los segmentos elementales de expresión y de elementos léxicos. Esta asociación utiliza modelos estadísticos entre otros por modelos ocultos de Markov y / o por redes neuronales artificiales.
La decodificación mediante la concatenación de los modelos elementales aprendido anteriormente reconstruye el discurso más probable. Así que este es un tiempo de coincidencia de patrones, a menudo realizado por el algoritmo de distorsión de tiempo dinámico.
Clasificación reconocimiento del habla
Los sistemas de reconocimiento de voz se pueden clasificar a lo largo de varias líneas:
El tipo de señal: señal con ruido o una señal no ruidosa, la señal del teléfono (fijo o móvil), o de banda ancha, la señal comprimida o no. (por ejemplo el micrófono auriculares con reducción de ruido.)
El tipo de modelo acústico: Altavoz-modelo (por ejemplo dictado de voz.), modelo independiente del hablante.
La naturaleza de los registros: dictado de texto, control de voz, el diálogo hombre-máquina, los mensajes de teléfono, radio, televisión, podcasts, etc.
La lengua.
El tamaño y la complejidad del modelo del vocabulario están directamente relacionados con la lengua y la naturaleza de los datos a procesar, unas pocas docenas de palabras para expresar controlar unos pocos cientos de miles de palabras para cubrir un idioma.