Reconocimiento de voz

El reconocimiento por voz es una tecnología biométrica que utiliza la voz de un individuo para lograr su identificación. Este tipo de soluciones biométricas son bastantes populares, dada la cantidad de dispositivos que pueden usarse para tomar las muestras de voz y su facilidad de integración. Hay que tener en cuenta que el reconocimiento por voz difiere de la llamada tecnología del reconocimiento de discurso, que reconoce las palabras a medida que el individuo habla, y que no es una tecnología biométrica.

Características biométricas de la voz

El proceso de la identificación de personas a través del reconocimiento de voz depende de diversas características del individuo: por un lado está la estructura física del tracto vocal; por otro se encuentran ciertas características de comportamiento. En el momento del proceso de identificación se ha de tener muy en cuenta la variabilidad que posee la señal de voz, pues el individuo no puede repetir de forma completamente exacta una misma palabra o frase.

Existen dos formas principales de realizar el reconocimiento por voz, dependiendo de si el sistema es dependiente de un texto (una contraseña o una fase programada dentro del sistema), o es independiente de este.

De las muestras de voz obtenidas se analiza el contenido de la frecuencia del discurso, comparando las características de calidad, duración, dinámica, intensidad y tono de la señal. Tras el procesado de la muestra obtenida se realiza la comparación con aquellas almacenadas en la base de datos. En este caso el sistema determinará un ratio de similitud, debido a la variabilidad que caracteriza a la señal de voz.

Entrenamiento del sistema de reconocimiento de voz

Para el correcto funcionamiento del sistema de reconocimiento de voz es necesaria una fase previa a la fase de funcionamiento. En esta fase, denominada de training o entrenamiento, se obtienen los patrones de características de cada uno de los locutores que van a poder identificarse inicialmente en el sistema, siendo almacenados en una base de datos de patrones y referencias biométricas.

La necesidad de esta fase no excluye que, una vez puesto el sistema en la fase de funcionamiento haya posibilidad de nuevas inscripciones donde se puedan incorporar patrones biométricos de voz de nuevos individuos que posibiliten su identificación a través del mismo.

Funcionamiento del sistema

Una vez se ha obtenido la señal de voz, esta se ha de procesar para obtener de forma eficiente la información presente en la señal acústica.  Esta información es almacenada en un vector de características biométricas.

Tras la obtención del vector de características biométricas, se realiza una comparación de 1:N con aquellos almacenados en la base de datos para obtener la similitud entre el vector obtenido en ese momento y cada uno de los vectores almacenados. Esta comparación se realiza en el llamado Módulo de Cálculo de Similitudes, y proporciona como resultado una matriz de coincidencias.

La última fase del proceso de reconocimiento de voz, aquella que corresponde con la toma de decisiones, es la de mayor criticidad dentro del sistema. Con la matriz de coincidencias debe decidir sobre la identidad del individuo que ha generado la señal de voz.

Debilidades del sistema

Aunque el reconocimiento por voz puede ser una buena opción para resolver problemas de identificación debido sobre todo a su fácil implementación, se ha de tener en cuenta la posible susceptibilidad al canal de transmisión y a las variaciones del micrófono o del ruido que se pueda generar dentro del canal de transmisión, que puede dar lugar a un aumento de la tasa de falsos negativos.

Contactanos