MODELOS OCULTOS DE MARKOV (HMMs)

 

1. Introducción.

2. Procesos discretos de Markov.

3. Modelos Ocultos de Markov.

4. HMMs para el reconocimiento de la voz.

 


1. Introducción.

    Existen diferentes enfoques desde los cuales típicamente se ha abordado el problema del reconocimiento o clasificación de patrones en el campo del reconocimiento de la voz, en este TFC se han utilizado unas herramientas matemáticas, los HMM, pertenecientes al enfoque estadístico. Otros métodos de reconocimiento de voz pueden usar técnicas estadísticas, como los basados en plantillas (para crear patrones de referencia por ejemplo), pero estos métodos no dependen explícitamente de las características estadísticas de la señal de voz. Por tanto, aquí se consideran enfoques puramente estadísticos basados en procesos estocásticos, específicamente en procesos de Markov. Estos enfoques estadísticos pertenecen en gran medida a la teoría de decisión estadística, la cual proporciona la estructura necesaria para modelizar estadísticamente los patrones, y para formalizar el proceso de toma de decisiones de forma que la pérdida media de precisión por decisión sea lo más pequeña posible.

    Ni la teoría de los HMM, ni su aplicación al campo de la voz es nueva. La teoría básica se publicó en una serie de documentos clásicos de Baum y sus colegas a finales de los años 60 y principio de los 70, y fue implementada por primera vez en aplicaciones de procesamiento de voz por Baker de la CMU, y por Jelinek y sus colegas de IBM en los años 70. Sin embargo, la verdadera expansión de los HMM como herramientas de reconocimiento de voz no ha ocurrido hasta principio de los años 90. La principal causa de esto ha sido que en un principio la teoría de los HMM sólo era conocida en entornos estrictamente matemáticos y no era accesible a los investigadores que trabajaban en reconocimiento de voz. Los primeros tutoriales sobre la aplicación de los HMM al reconocimiento de voz vieron la luz a finales de los años 80.

    Los procesos del mundo real producen señales que pueden ser puras (generadas por una sola fuente) o compuestas (resultantes de la combinación de varias fuentes), como es el caso de la señal de voz. Un modelo de señal tiene la capacidad de representar una señal del mundo real por medio de métodos matemáticos. Esta característica convierte a los modelos de señal en herramientas de gran utilidad en el campo del análisis de señales, puesto que permiten observar el comportamiento de las mismas cada vez que sea necesario, sin necesidad de recurrir a la verdadera fuente de la señal. La simulación por medio de un modelo puede significar en algunos casos un ahorro significativo de los recursos disponibles.

    Existen dos tipo de modelos de señal: deterministas y estadísticos. Los modelos deterministas explotan propiedades bien conocidas de la señal, por ejemplo, una señal descrita mediante una función seno. Esto posibilita que sólo se requieran valores para los parámetros de la función que describe la señal. Por otra parte, los modelos estadísticos intentan caracterizar las propiedades estadísticas de la señal. Algunos ejemplos de este tipo de modelos son los procesos Gaussianos, procesos de Poison, procesos de Markov, y procesos ocultos de Markov entre otros.

    Dada la naturaleza de la señal de voz, los modelos de señal que mejor la caracterizan son obviamente los estadísticos. En estos modelos se establece la suposición de que la señal puede ser bien caracterizada como un proceso aleatorio paramétrico, y que los parámetros del proceso estocástico se pueden estimar de una manera precisa y bien definida. Los tipos de modelo estocástico de la señal más utilizado en reconocimiento de voz son los HMM, descritos en la literatura de telecomunicaciones como fuentes de Markov o funciones probabilísticas de cadenas de Markov.

    Las propiedades de los HMM los hacen muy apropiados para dar solución a algunos de los problemas que se plantean en el reconocimiento de la voz, de hecho, desde que se conoció su teoría en el ámbito de este campo se han utilizado extensamente. El éxito de los HMM, que ha propiciado su extensa utilización, se debe fundamentalmente a dos características propias de estos modelos: en primer lugar, se apoyan sobre una fuerte base matemática, lo que redunda en una mayor flexibilidad y versatilidad de utilización; en segundo lugar, las estructuras matemáticas que conforman el modelo funcionan realmente bien en la práctica, habiéndose demostrado en muchas aplicaciones importantes. La clave de su buen funcionamiento se halla, como se comentó ya en el capítulo1, en que los HMM son capaces de modelizar las dos fuentes de incertidumbre que constituyen la esencia del problema del reconocimiento de voz: las variabilidades temporales y espectrales de la señal que representan.

    Una decisión importante que se debe tomar antes de ponerse a trabajar con los HMM es si éstos van a ser de naturaleza continua o discreta. En el caso de los HMM discretos es necesario reducir los vectores reales de características, obtenidos a partir de la señal de voz, en símbolos discretos. Esto se realiza mediante un proceso denominado cuantificación de vectores (detallado en el punto 5.5). Indudablemente este proceso de cuantificación sacrifica en parte el rendimiento del sistema. Debido a esto se introdujeron los HMM continuos, conocidos como CDHMMs (Continuous Density Hidden Markov Models), que modelizan la distribución de salida del modelo como mezclas de funciones de densidad gaussianas (en lugar de la función de distribución utilizada en el caso de los HMM discretos).

    Aunque era de esperar que el rendimiento de los modelos continuos fuera mayor que el de los discretos, en algunos casos los HMM discretos parece que funcionan tan bien, o incluso mejor, que los CDHMM. Los cuales trabajan mejor dependiendo en gran medida del tipo de datos y la clase de tarea encomendada. Algunos autores arguyen que esto se debe a que si bien los CDHMM no son objeto de errores de cuantificación, sí se ven afectados por errores introducidos al hacer suposiciones sobre los datos, que son invariablemente falsas debido a que el conjunto de datos de entrenamiento es finito. En vista de esto se han propuesto algoritmos de entrenamiento alternativos que mejoran considerablemente la precisión de los CDHMM pero que introducen una carga computacional adicional grande. Teniendo en cuenta que la disminución del rendimiento al utilizar HMMs discretos en vez de CDHMMs es muy pequeña; que los algoritmos utilizados en los modelos discretos son mucho más eficientes (en tiempo y en utilización de memoria); y que el reconocedor de voz que se pretende desarrollar en este TFC debe dar respuestas en tiempo real, se ha decidido utilizar HMMs discretos para la implementación del módulo de reconocimiento de voz.

    Para una mejor comprensión de los HMM conviene estudiar la estructuras de las que derivan: los cadenas o procesos de Markov.

 

2. Procesos discretos de Markov.

    Un proceso discreto o cadena de Markov consiste en un conjunto de estados y un conjunto de transiciones entre los mismos. A cada estado le corresponde un símbolo, y a cada transición se le asocia una probabilidad. Los símbolos se producen como la salida del modelo de Markov según la probabilidad de realizar la transición de un estado a otro (por el "transicionamiento probabilístico"). Es decir, en cada instante t el sistema se encuentra en un estado determinado, y a intervalos regulares de tiempo pasa de un estado a otro según indiquen las transiciones, quedando determinada de este modo una secuencia de símbolos (correspondientes a los estados recorridos). En la figura 5-1 se representa una cadena de Markov de tres estados que ayudará a comprender mejor su funcionamiento:

Figura 5-1. Cadena de Markov de tres estados.

    Los parámetros aij representan la probabilidad asociada a cada transición. Es decir, la probabilidad de que estando en el estado i en el instante t se pase al estado j en el instante siguiente (t + 1). El proceso representado en la figura corresponde a un modelo ergódico, nombre que se da a los modelos totalmente interconectados, donde se pueden alcanzar todos los estados desde cualquier otro estado con una sola transición. Si el proceso discreto de Markov es de primer orden, la probabilidad de pasar de un estado a otro sólo depende del estado en que se estuviese en el instante anterior (esta restricción se conoce como suposición de Markov):

Siendo St el estado activo en el instante t. Esta probabilidad es independiente del tiempo, lo que permite definir el concepto de coeficientes de probabilidad de transición entre estados:

 

Por supuesto los coeficientes aij cumplen con los axiomas de la probabilidad:

Siendo N el número de estados y cumpliéndose que 1 £ i, j £ N.

 

    En el modelo que se está presentando la salida que ofrece el sistema es la propia secuencia de estados por los que se transita, representando cada uno de ellos un suceso particular observable. Para caracterizar un proceso discreto de Markov se introduce un nuevo parámetro: p i que representa la probabilidad de que en el instante inicial (t = 1) el sistema se encuentre en el estado i. Utilizando este nuevo componente y los parámetros vistos anteriormente, un modelo quedaría caracterizado por el número de estados N, un vector de probabilidades iniciales de tamaño N, y una matriz de coeficientes de transición de dimensión NxN.

    Los proceso discretos de Markov se pueden utilizar para estudiar fenómenos en los que los símbolos deterministas observados se disponen en series temporales. De cualquier modo, tales modelos no son adecuados para estudiar problemas complejos como los asociados con el reconocimiento de voz. Para este propósito es necesario extender el modelo para que sea capaz de tratar el caso en el cual la generación de las observaciones se haga de acuerdo a funciones probabilísticas. El resultado de esta extensión son los modelos ocultos de Markov que se describen en el siguiente apartado.

 

3. Modelos Ocultos de Markov.

    Un HMM es similar a una cadena de Markov, excepto que los símbolos de salida son probabilísticos. Es decir, en lugar de asociar a cada estado un suceso fijo determinado que se cumple siempre que se llega a dicho estado, se asocia una observación que forma parte de una función probabilística. En realidad, todos los símbolos son posibles en cada estado, cada uno con su propia probabilidad. Por lo tanto, para cada estado se asocia una distribución de probabilidad de todos los símbolos posibles. En otras palabras, un HMM está compuesto por un proceso no observable, "oculto", (una cadena de Markov), y un proceso de observación, el cual enlaza los vectores acústicos extraídos de la señal de voz con los estados del proceso oculto. En este sentido, a un HMM, se le llama proceso doblemente estocástico, que tiene por una parte una serie de coeficientes de probabilidad de transición que determinan la secuencia de estados que seguirá el modelo, y por otra parte unas funciones de probabilidad asociadas con cada estado en particular que determinan la salida que se observará en ese estado.

 

    Como se ha explicado en el apartado anterior, un HMM es el resultado de una ampliación de los procesos discretos de Markov con el objetivo de que puedan manejar la generación de símbolos de acuerdo a una función de distribución. Para algunos autores esto conduce a una formulación doble: las observaciones de la voz se pueden generar a partir de estados o a partir de transiciones. En el caso de este TFC se considera que las observaciones se generan siempre en las transiciones, lo que simplifica la implementación del modelo. Se sustituye la generación de observaciones a partir de estados por la generación de esas mismas observaciones durante transiciones recurrentes sobre el mismo estado. Esta forma de describir los HMM es totalmente equivalente a la anterior, con la ventaja de que se trata de un enfoque más homogéneo. Es decir, se asocia una función de distribución a cada transición que caracterice la generación de observaciones en la misma, en lugar de tener que asociar funciones de distribución a las transiciones y a los estados. De esta forma la generación de símbolos que antes se realizaba en cada estado, ahora se efectúa durante una transición recurrente sobre el mismo estado.

 

    Teniendo en cuenta la estructura de un HMM se puede reparar en que ahora la salida del modelo no constará simplemente de una secuencia de estados en el tiempo, sino que se añadirán las observaciones producidas en cada una de las transiciones por las que se pase. Como en principio cualquier observación se puede producir en cualquier transición, no se puede determinar en función de las observaciones generadas cual ha sido la secuencia de estados que las ha producido, o dicho de otro modo, la secuencia de estados permanece oculta.

En la figura 5-2 se representa un HMM sencillo con dos estados y dos símbolos de salida: A y B.

Figura 5-2. HMM de 2 estados y 2 símbolos de salida.

Observando la figura 5-2 se puede apreciar que ahora no basta con los coeficientes de probabilidad entre estados aij para caracterizar el modelo, puesto que se han añadido a las transiciones probabilidades de generación de símbolos. Es decir un segundo proceso estocástico asociado al anterior. Para representar estas funciones de distribución se introducen los coeficientes bij. Utilizando una variable aleatoria Y para representar la función probabilística de una cadena de Markov X se definen los coeficientes aij y bij para un HMM como:

Donde Xt = j significa que la cadena de Markov estaba en el estado j en el instante t, y Yt = k significa que el símbolo de salida en el instante t era k. X e Y se generan a partir de un HMM, sin embargo, Y, la secuencia de salida, es directamente observable, mientras que X, la secuencia de estados, permanece oculta.

    Como los coeficientes a y b son probabilísticos deben satisfacer los axiomas de la probabilidad:

 

    Los HMM que se usan en reconocimiento de voz son de primer orden. Un HMM de primer orden se caracteriza por la afirmación de dos suposiciones: La suposición de Markov, y la suposición de independencia de salida. La suposición de Markov se expresa de la siguiente forma:

 

 

Donde Xij representa la secuencia de estados Xi, Xi+1, Xi+2,..., Xj. El significado de la expresión (5-7) es que la probabilidad de que la cadena de Markov esté en un estado particular en el instante t+1 depende sólo del estado de la cadena de Markov en el instante t, y es condicionalmente independiente del pasado.

 

    La suposición de independencia de salida queda definida por la siguiente ecuación:

 

 

Donde Yij representa la secuencia de salida Yi, Yi+1, Yi+2,..., Yj. Como indica (5-8), la suposición de independencia de salida consiste en que la probabilidad de que un símbolo particular sea emitido en el instante t depende solamente de la transición tomada en ese instante (desde el estado xt al xt+1), y es condicionalmente independiente del pasado.

 

    Aunque estas suposiciones limitan severamente la memoria de los HMM de primer orden, reducen el número de parámetros, y como se verá más adelante hacen los algoritmos de aprendizaje y de decodificación extremadamente eficientes.

 

    Una vez que se han analizado los parámetros que definen un HMM es conveniente recapitular sobre cada uno de los componentes que forman el modelo para poder de esta manera establecer una definición formal. Un HMM queda totalmente definido a partir de los siguientes elementos:

 

    Una vez definido el modelo es conveniente especificar también cual será su salida. Ésta constará de una secuencia de observaciones denominada O, compuesta por una serie de observaciones individuales pertenecientes al conjunto V, es decir, pertenecientes al alfabeto: O = O1, O2, ..., OT. T representa la longitud de la secuencia (el número de observaciones que la componen).

 

4. HMMs para el reconocimiento de la voz.

    Los modelos ocultos de Markov son una técnica potente capaz de una modelización robusta de la voz. Un HMM, considerado como un modelo paramétrico, es particularmente adaptable para describir los eventos de la señal de voz. Los dos procesos estocásticos que caracterizan a los HMM posibilitan la modelización no sólo de los fenómenos acústicos, sino también de las distorsiones de escala temporal. Además existen algoritmos eficientes para precisar la estimación de los parámetros de un HMM. Los HMM son en definitiva una representación muy apropiada y sucinta de los eventos de la señal de voz, además requieren menos espacio que otras estrategias.

 

    Aparte de los modelos ergódicos existen otros tipos de modelos que se ajustan mejor a las aplicaciones de reconocimiento de voz. Como se explicó anteriormente, los modelos totalmente interconectados tienen la propiedad de que todos los aij > 0, sin embargo existe un modelo, llamado izquierda-derecha, que representa mejor la realidad de las observaciones acústicas de la voz. Aunque existen muchos otros tipos de modelos son los modelos izquierda-derecha los más comúnmente utilizados y los que mejores resultados ofrecen en el campo del reconocimiento de voz. En el modelo izquierda-derecha el sentido en el que se realizan las transiciones es, como su propio nombre indica, de izquierda a derecha, de forma que es imposible volver a un estado anterior por el que ya se ha pasado, excepto en el caso de que se vuelva al mismo estado otra vez. La evolución de las transiciones se puede apreciar claramente a la vista de la siguiente figura donde aparece un HMM izquierda-derecha de 5 estados que representa una unidad del habla (fonema, palabra, etc.) con las transiciones permitidas:

Figura 5-3. HMM izquierda-derecha de 5 estados.

 

   A la vista del grafo se puede observar que la propiedad fundamental que caracteriza a los modelos izquierda-derecha puede ser enunciada también del siguiente modo: el índice del estado activo en cada instante o aumenta o permanece igual al instante previo, pero en ningún caso disminuye hacia un estado anterior. Es decir, aij = 0, si j < i. Se puede advertir otra característica importante al examinar la figura anterior: los coeficientes de probabilidad de los estados iniciales son todos cero excepto en el caso del estado S1, lo cual significa que el estado inicial es único y siempre el mismo. Análogamente se observa que el estado final también es único y es siempre el de índice N.

 

    Debido a que hay fuertes restricciones temporales en la señal de voz, se utilizan generalmente los HMMs izquierda-derecha. Un HMM puede modelizar una unidad específica de la voz tal como un fonema, una palabra, o una frase completa. En sistemas de reconocimiento con un vocabulario grande, normalmente los HMM representan unidades pequeñas, tales como fonemas, para limitar la cantidad de datos de entrenamiento y el almacenamiento requerido para modelizar palabras. Por el contrario, en sistemas con vocabularios pequeños, como es el caso de este TFC, la tendencia es usar HMMs para modelizar palabras. A la hora de utilizar los modelos izquierda-derecha, y atendiendo a las propiedades de las señal física que modelizan, se añaden algunas restricciones aparte de las características propias de estos modelos. Una restricción que se suele imponer es la de evitar que se produzcan saltos demasiado largos que ignoren un número excesivo de estados. Esta condición es imprescindible para prevenir que se ignoren partes importantes de la palabra a reconocer, y se expresa matemáticamente del siguiente modo:

donde D representa el salto máximo permitido entre estados. En el HMM de la figura anterior D tiene un valor de 2.

 

    En la figura 5-4 se presenta la estructura principal de un reconocedor basado en HMMs. En primer lugar se captura la señal de voz y se le aplica un preproceso mediante el cual se obtienen los vectores de características que representan a la elocución capturada. Como los HMM que se utilizan en este TFC son de carácter discreto es necesario aplicar un proceso de cuantificación de vectores que reduzca los vectores de características a símbolos discretos. Una vez realizada la cuantificación la palabra que se está analizando pasa a ser representada por la secuencia de símbolos discretos obtenida. Esta secuencia de observaciones es la que se utiliza en los procedimientos de entrenamiento y reconocimiento, que se estudian detalladamente en el siguiente capítulo.