COCHLEAR IMPLANT SIMULATION versión 2.0
Página principal |
El programa ``Cochlear Implant Simulation'' se ha desarrollado partiendo de un modelo que representa las principales etapas del proceso mediante el cuál un paciente con implante coclear percibe el sonido. En este modelo se consideran aspectos tanto técnicos como fisiológicos que van a condicionar la percepción. Se divide en dos bloques principales: un bloque de análisis y un bloque de síntesis.
El bloque de análisis representa el proceso que sigue la señal de audio desde que es adquirida por el micrófono hasta que se transforma en impulsos eléctricos proporcionados por los distintos electrodos del implante, y éstos dan lugar a los potenciales de acción en el nervio auditivo.
La primera parte del bloque considera exclusivamente el procesamiento de señal realizado por el sistema de implante coclear y a través de esta parte es posible representar la pérdida de información asociada a la configuración del implante y la estrategia de codificación. La segunda parte del bloque de análisis representa la interacción entre la guía de electrodos y las terminaciones nerviosas y describe cómo se transforma el patrón de actividad de los electrodos del implante en el patrón de actividad en el nervio auditivo.
El bloque de síntesis proporciona una señal de audio a partir del patrón de actividad del nervio auditivo obtenido en el bloque de análisis. La señal de audio se sintetiza partiendo del patrón de actividad correspondiente a cada banda de frecuencia (asociada a cada región de la cóclea). De este modo, la información perdida debido al proceso de análisis da lugar a una pérdida de calidad en la señal sintetizada. La figura 1 representa el diagrama de bloques considerado para la simulación.
Figura 1: Diagrama de bloques del programa ``Cochlear Implant Simulation''.
Este modelo permite considerar los principales aspectos que condicionan la percepción a través del implante coclear, como son la estrategia de codificación, el diseño del banco de filtros, la tasa de estimulación, el número de canales, las dimensiones del implante coclear, la colocación de la guía de electrodos, la interacción entre los electrodos del implante y las terminaciones nerviosas, etc. Las señales sintetizadas teniendo en cuenta este modelo presentan la pérdida de información propia de la estimulación a través del implante coclear y de este modo permiten a sujetos normo-oyentes oír el sonido tal y como sería percibido por un paciente portador de implante coclear.
La figura 2 muestra el diagrama de bloques de un sistema de implante coclear convencional. La señal es adquirida por el micrófono del procesador y amplificada, pasando a un banco de filtros que la separa en distintas bandas de frecuencia. La salida de cada filtro es pasada a través de un detector de envolvente. De este modo, para cada canal se estima la energía que presenta la señal en cada banda de frecuencia y en cada instante de tiempo. El bloque de adaptación del rango dinámico sirve para transformar el rango dinámico acústico para cada canal, en el rango dinámico eléctrico que requiere cada electrodo del paciente. Esta transformación del rango dinámico es específica del paciente y diferente para cada uno de los electrodos. Finalmente, de acuerdo con la tasa de estimulación, el procesador genera los pulsos de estimulación que representan el nivel de corriente que se debe suministrar en cada electrodo en cada instante de tiempo. En estrategias pulsátiles (como estrategias CIS o n-de-m) los pulsos de estimulación se generan de modo que en cada instante de tiempo únicamente haya un electrodo activo, con objeto de evitar el fenómeno conocido como ``suma de campos''. Una vez establecido el patrón de estimulación en el procesador, éste es transmitido al implante coclear y los pulsos de corriente son generados a través de los electrodos del implante.
Figura 2: Diagrama de bloques de un sistema de implante coclear.
El programa ``Cochlear Implant Simulation'' procesa el sonido reproduciendo el análisis de la señal de audio realizado por el procesador del implante coclear de acuerdo con el conjunto de parámetros de simulación establecidos. Esto proporciona el patrón de actividad en los electrodos del implante coclear que se obtendría cuando se presenta la señal de audio en el micrófono.
A partir del patrón de actividad en los electrodos, y de acuerdo con el modelo de interacción electrodos/terminaciones nerviosas, se determina el patrón de actividad neural para los grupos de terminaciones asociados a cada porción coclear. Finalmente, partiendo de este patrón de actividad neural se sintetiza la señal de audio teniendo en cuenta la capacidad de sincronización de la actividad neuronal y las frecuencias características de las porciones cocleares estimuladas.
La tasa de estimulación representa el número de pulsos por segundo que se presentan en cada uno de los electrodos del implante coclear. Este parámetro limita la resolución temporal del implante coclear, es decir, la capacidad de apreciar cambios rápidos en las características de la señal de audio. Cuanto menor es la tasa de estimulación, peor es la calidad con que es percibido el sonido.
La resolución temporal del paciente implantado se ve limitada, además de por la tasa de estimulación, por el periodo refractario de las neuronas del nervio auditivo. El tiempo que las neuronas necesitan para repolarizarse tras una descarga se sitúa en torno a 2 ms. Por ello, es conveniente que la tasa de estimulación se sitúe por encima de 1000 pulsos por segundo.
En el programa ``Cochlear Implant Simulation'', la tasa de estimulación se ha representado submuestreando las envolventes a una frecuencia igual a la tasa de estimulación. Debe tenerse en cuenta que existen estrategias de estimulación en las que se utiliza una tasa de actualización de la envolvente inferior a la tasa de estimulación. En tal caso, el valor asignado al parámetro ``tasa'' debería ser la tasa de actualización y no la tasa de estimulación, puesto que este parámetro representa la pérdida de resolución temporal.
Debe tenerse en cuenta que para tasas de estimulación excesivamente bajas (por debajo de 800 o 700 pps) además de la pérdida de resolución temporal va a haber un efecto de sincronización de la actividad neural con los pulsos de estimulación, que va a reducir aun más la calidad de la percepción con el implante coclear. Este efecto no ha sido modelado en el programa ``Cochlear Implant Simulation'' de modo que en el caso de tasas de estimulación excesivamente bajas, en la situación real la calidad de la señal percibida sería peor que la apreciada en la simulación.
El banco de filtros utilizado para el análisis está formado por filtros equiespaciados en una escala logarítmica de frecuencia en el rango definido por fMin y fMax. Los anchos de banda de los filtros son iguales en la escala logarítmica de frecuencia, de modo que los correspondientes a frecuencias más bajas son más estrechos y los correspondientes a frecuencias más altas son más anchos.
Cada canal del implante coclear tiene asignado un filtro paso-banda. El número de canales está determinado por el parámetro ``n-insertados-ic''. Cuanto mayor es el número de canales mayor es la resolución espectral tonotópica. En el caso de estar seleccionada la opción ``Hilbert+FIR'', los filtros están diseñados como filtros de respuesta impulsiva finita (FIR) de 100 coeficientes. En el caso de seleccionarse la opción ``Rect-LP+IIR'' se utilizan filtros de respuesta impulsiva infinita de tipo Butterworth de orden 6. Los filtros FIR presentan el inconveniente de requerir mayor cantidad de cálculo. Los filtros IIR presentan los inconvenientes de ocasionar una distorsión de fase y de poder dar una respuesta inestable, particularmente en el caso de anchos de banda reducidos.
La detección de envolvente se ha realizado mediante rectificación y filtrado paso-baja (opción ``Rect-LP+IIR'') o bien mediante transformada de Hilbert (opción ``Hilbert+FIR''). Esta última opción proporciona una envolvente que representa de forma óptima la evolución temporal de la energía en la banda de frecuencia del filtro, pero tiene el inconveniente de requerir el uso de dos filtros FIR en cuadratura de fase, con el correspondiente incremento en los requerimientos de cálculo.
El parámetro ``n-de-m'' permite seleccionar estrategias CIS (cuando n es igual a m, es decir, al número de canales insertados) o estrategias n-de-m (cuando n es menor que m).
Las estrategias n-de-m funcionan activando en cada ciclo de estimulación únicamente los n canales que presentan más energía de los m disponibles. La finalidad de las estrategias n-de-m es permitir un incremento en la tasa de estimulación gracias a que al reducir el número de canales activados en cada ciclo, la duración total del ciclo de estimulación se reduce. Este incremento de la tasa de estimulación se hace a costa de una reducción de la calidad, ya que la información correspondiente a los canales no seleccionados se pierde.
Para simular el efecto de las estrategias n-de-m, en cada ciclo de estimulación se comparan las envolventes correspondientes a los distintos canales, seleccionando las n de mayor energía y anulando las envolventes para el resto de los canales. De este modo la información correspondiente a canales no seleccionados es eliminada de la señal sintetizada.
La interacción entre canales se ha modelado a través de la interfase electrodos - terminaciones nerviosas. En trabajos previos se ha estimado cual es la distribución de la densidad de corriente en un sistema eléctrico similar a una cóclea estimulada por un implante coclear. Se ha encontrado que la corriente insertada en un electrodo se dispersa en un área relativamente extensa, tanto en el caso de estimulación monopolar como en el caso de estimulación bipolar.
Cuando se estimula en un electrodo, sería deseable que únicamente las fibras nerviosas más próximas al electrodo fueran activadas. Sin embargo, los pulsos presentados en un electrodo activan tanto estas fibras como otras más alejadas. De forma análoga, un grupo de fibras va a ser activado principalmente por el electrodo más próximo, pero también va a activarse cuando se presentan estímulos en electrodos más alejados. Este fenómeno se puede modelar mediante una matriz de mezcla entre los canales del implante y los ``canales del nervio auditivo'' definiendo cada uno de estos canales como el conjunto de neuronas próximos a un electrodo. De este modo, los distintos canales del implante contribuyen a cada ``canal del nervio auditivo'', y la contribución dependerá de la distancia que separa cada electrodo de la porción coclear considerada. En este modelo se ha supuesto que la contribución se reduce de forma exponencial con la distancia, y se ha definido el coeficiente de interacción como la constante de este decaimiento exponencial. Los estudios sobre la distribución del campo de corriente en la cóclea sugieren que un valor apropiado para esta constante estaría en torno a 2 o 3 mm.
Para determinar la matriz de mezcla que da lugar a la interacción entre canales, se tiene en cuenta la separación entre los distintos electrodos del implante. Para ello se consideran las dimensiones del implante y el número de electrodos que tiene. Cuanto más próximos están los electrodos entre sí, o cuanto mayor es el coeficiente de interacción, mayor es la interacción entre canales, lo que tiene como consecuencia una pérdida de resolución espectral tonotópica. En tal caso, la resolución espectral que proporciona el implante no va a estar limitada por el número de electrodos, sino por la interacción entre canales. Puede apreciarse que para valores bajos del coeficiente de interacción, la calidad de la señal sintetizada aumenta a medida que crece el número de electrodos considerados en la simulación. Sin embargo, para valores mayores del coeficiente de interacción, la resolución espectral deja de mejorar cuando la separación entre electrodos adyacentes es inferior al coeficiente de interacción.
El bloque de síntesis de la señal responde al diagrama mostrado en la figura 3. La síntesis toma como punto de partida el patrón de actividad tras haber modelado la interacción entre canales. La envolvente en cada canal representa la energía que hay en cada instante de tiempo en cada una de las bandas de frecuencia. Por ello, para sintetizar la señal de audio, se toma una señal excitación (en principio con distribución de energía uniforme en frecuencia y en el tiempo). Esta excitación se filtra con un banco de filtros, y la señal filtrada es multiplicada por la envolvente. La salida para cada canal después de estas operaciones es una señal limitada en la banda que define el canal y cuya energía evoluciona en el tiempo de acuerdo con la envolvente considerada. Finalmente se suman las contribuciones procedentes de los distintos canales, obteniendo una señal de audio que incluye las contribuciones de todo el rango espectral procesado.
Figura 3: Diagrama del bloque de síntesis del programa ``Cochlear Implant Simulation''.
La señal excitación considerada puede ser ruido blanco gaussiano, ya que esta excitación presenta espectro plano y distribución de energía uniforme en el tiempo. Sin embargo las señales sintetizadas usando ruido blanco presentan muy mala calidad, debido a que la fase de la señal sintetizada es aleatoria, por serlo la excitación utilizada para cada canal. El resultado es una señal de audio en la que se pierde la estructura temporal, y en particular se pierde el tono fundamental que no puede ser resuelto en el dominio del tiempo. Diversos experimentos ponen de manifiesto que la mayor parte de los pacientes perciben con una calidad mejor que la que se puede conseguir sintetizando de este modo. Por ello se ha propuesto un método alternativo para la síntesis. Éste consiste en usar como señal excitación un conjunto de pulsos. Los pulsos se sitúan en los instantes de tiempo en los que la envolvente presenta un máximo local. Un pulso aislado o un conjunto de pulsos presentan un espectro plano. Para evitar que la energía de la señal sintetizada se vea condicionada por los pulsos (debe depender de las envolventes pero no de las excitaciones del bloque de síntesis) la señal excitación se normaliza para que presente una distribución de energía lo más uniforme posible en el tiempo. Para este método de síntesis, la excitación presentada para cada banda es independiente del resto de bandas y se calcula a partir de los máximos locales de la envolvente considerada en la banda correspondiente.
El uso de una excitación de tipo ruido blanco gaussiano representaría cómo percibe un paciente implantado que debido a la lesión del nervio auditivo, no presenta una buena resolución temporal. Esta situación hace que la actividad neural no se sincronice con el estímulo auditivo y no quede representado en el patrón de actividad neural el tono fundamental. Este forma de percibir se presenta en los pacientes con pérdidas auditivas de mayor duración o cuando el índice de supervivencia neuronal es menor, es decir, cuando las lesiones cocleares son más extensas.
El uso de una excitación de tipo tren de pulsos representaría cómo percibe un paciente implantado con una buena capacidad de sincronización en la actividad neural. En este caso el patrón de actividad del nervio auditivo puede seguir la evolución de la envolvente, produciéndose la mayor parte de las descargas en los instantes en los que la envolvente presenta un pico de energía. De este modo, el tono fundamental puede ser percibido a partir del patron temporal de actividad del nervio auditivo.
En un caso real, cabría esperar que el paciente tuviera una percepción con una calidad intermedia entre ambas situaciones, más próxima a la situación de ``mala sincronización'' cuando las lesiones cocleares son más importantes, más próxima a ``buena sincronización'' cuando el nervio auditivo se conserva en mejor estado. Con objeto de modelar este efecto, el software``Cochlear Implant Simulation'' calcula ambas señales de excitación (ruido blanco gaussiano y tren de pulsos) y las combina en función del parámetro de sincronización.
El banco de filtros utilizado para la síntesis está constituido por filtros paso-banda de tipo FIR, con objeto de no introducir distorsiones de fase innecesarias en el proceso de síntesis. Si la opción ``Desplazamiento de Frecuencias'' no está activada, las frecuencias centrales y frecuencias de corte de los filtros coinciden con las del banco de filtros utilizados para el bloque de análisis. Si esta opción está activada, las frecuencias y anchos de banda de los filtros de síntesis se determinan teniendo en cuenta la posición de cada electrodo y la frecuencia característica correspondiente a esta posición de acuerdo con la teoría tonotópica. A tal efecto se tienen en cuenta tanto las dimensiones de la guía de electrodos como el número de electrodos y la profundidad de inserción de la guía.
Para simular la percepción en el caso de Estimulación Electro-Acústica se separa el espectro en la parte baja (correspondiente a la estimulación acústica) y la parte alta (correspondiente a la estimulación eléctrica). Para separar ambas partes se tiene en cuenta el parámetro ``frecuencia de corte''. La parte de la estimulación acústica se obtiene filtrando paso-baja la señal original con un filtro diseñado con esta frecuencia de corte. La parte de la estimulación eléctrica se obtiene procesando la señal de acuerdo con la configuración del implante coclear, usando como rango de frecuencias el determinado por la frecuencia de corte y por fMax. La señal sintetizada se obtiene sumando la parte de estimulación acústica y la parte de estimulación eléctrica.
Para validar el procedimiento de simulación implementado en el programa ``Cochlear Implant Simulation'', se han realizado tests presentando frases a varios pacientes portadores de implante coclear. En estos tests se presentaban a cada paciente distintas frases, incluyendo frases sintetizadas y las frases originales. Se pedía al paciente que valorara la calidad con que eran percibidas las frases sintetizadas y las originales.
La hipótesis de partida para realizar la validación es que tanto la simulación como el sistema de implante coclear dan lugar a una pérdida de calidad en la audición. En el test, el paciente implantado va a percibir una frase procesada por el programa de simulación y procesada posteriormente por el propio sistema de implante coclear (en el caso de las frases sintetizadas) o bien una frase procesada únicamente por el sistema de implante coclear (en el caso de la frase original).
Cuando la simulación se realiza con una configuración que proporciona mayor calidad que los parámetros del sistema de implante coclear, la calidad de la frase sintetizada no va a verse condicionada por los parámetros de simulación. En este caso, de acuerdo con la hipótesis de partida, el paciente debería indicar que la calidad de la frase sintetizada es similar a la de la frase original. Cuando la simulación se realiza con una configuración que proporciona peor calidad que los parámetros del sistema de implante coclear, la calidad de la frase sintetizada se verá condicionada por los parámetros de la simulación. En este caso el paciente debería indicar que la frase sintetizada tiene peor calidad que la original.
De este modo, si se fijan todos los parámetros de la simulación a los valores que el paciente tiene para el sistema de implante coclear, salvo uno de ellos, que se hace variar desde un valor bueno (que proporciona mejor calidad) a otro malo (que proporciona peor calidad) y se representa gráficamente la calidad frente a este parámetro, se apreciará una curva, de modo que hacia los valores buenos del parámetro, la calidad tiende a ser buena (similar para las frases original y sintetizada) y hacia los valores malos presenta una rápida caída (la frase sintetizada es percibida como claramente peor que la frase original). Esta curva debería presentar un codo precisamente cuando el valor del parámetro de simulación coincide con el valor del parámetro en su sistema de implante coclear. Si este efecto se verifica, puede concluirse que la simulación modela adecuadamente el efecto de dicho parámetro sobre la calidad de audición.
Se han realizado tests de validación con 7 pacientes portadores de implante coclear. Todos ellos fueron implantados en el servicio de ORL del Hospital La Paz de Madrid, con un dispositivo Combi40+ fabricado por MED-EL. Los tests de validación se han centrado en 3 parámetros de simulación: la tasa de estimulación, el número de canales y el coeficiente de interacción entre canales. Para cada uno de ellos, se han sintetizado frases con distintos valores del parámetro a estudiar y se han presentado al paciente tanto las frases originales como las sintetizadas, pidiéndole que valore la calidad con que se percibe cada una de las frases en una escala entre 0 (calidad pésima) y 10 (calidad óptima).
Para el análisis de resultados, la puntuación que indica la calidad de las frases se ha normalizado dividiéndola por la puntuación asignada a la frase original correspondiente. De este modo, si una frase sintetizada presenta puntuación 1, debe interpretarse como que el paciente la percibe con la misma calidad que la frase original. Para cada parámetro estudiado, se ha representado la puntuación normalizada frente al parámetro considerado. Se ha realizado un ajuste polinómico (de orden 3) por mínimos cuadrados sobre estos datos, obteniendo la función que mejor ajusta los datos y los intervalos de confianza del 95% correspondientes.
En la figura 4 se muestran los valores de puntuación de calidad normalizada frente a la tasa de estimulación considerada en la simulación. Se muestra también el ajuste correspondiente de estos datos. Cada punto de la gráfica representa la evaluación por un paciente de una frase sintetizada. Se muestra el ajuste polinómico por mínimos cuadrados y el intervalo de confianza del 95% correspondiente. Puede observarse que para tasas de estimulación muy altas, los pacientes no aprecian pérdida de calidad en la frase sintetizada, y a medida que la tasa es menor, la calidad va disminuyendo, obteniéndose puntuaciones muy bajas para tasas por debajo de 700 pps. Se observa el efecto de codo en la gráfica correspondiente a cada paciente, y se aprecia además que la tasa en la que se produce el codo es diferente para cada paciente, siendo mayor cuando la tasa utilizada en el procesador es mayor. Este resultado valida el procedimiento de simulación con respecto a la tasa de estimulación.
Figura 4: Ajuste de la puntuación de calidad normalizada frente a la tasa de estimulación.
Para verificar la influencia de la tasa de estimulación de la simulación en relación con la que el paciente tiene programada en el procesador, se ha realizado un ajuste usando como variable independiente la tasa de estimulación normalizada, es decir, el cociente entre la tasa de estimulación usada para la simulación y la tasa utilizada en el procesador. Los resultados de este ajuste son mostrados en la figura 5. En este caso se aprecia que el codo se sitúa para un valor de tasa de estimulación normalizada próximo a la unidad, es decir, cuando la tasa de estimulación de la simulación se aproxima a la que tiene el paciente programada en el procesador.
Figura 5: Ajuste de la puntuación de calidad normalizada frente a la tasa de estimulación normalizada.
La figura 6 muestra el ajuste entre puntuación de calidad normalizada y número de canales utilizados en la simulación. Los pacientes disponían de ajustes del procesador con un número de electrodos activos situado entre 9 electrodos y 12 electrodos (2 pacientes con 9 electrodos activos, 1 con 10 electrodos, 1 con 11 electrodos y 3 con 12 electrodos).
En estas gráficas se observa el efecto de codo, siendo la calidad similar a la de la frase original para un número elevado de canales en la simulación y degradándose rápidamente la calidad cuando el número de canales usado en la simulación es inferior a 8. Resulta interesante el hecho de que el codo no está en torno al número de canales que usa cada paciente, sino en torno a 8 canales. Esto pone de manifiesto que la resolución espectral tonotópica que disfrutan estos pacientes no está condicionada por el número de electrodos sino por algún otro fenómeno. La resolución espectral tonotópica con que perciben el sonido es la equivalente a unos 8 canales, a pesar de disponer de un número superior de canales activos en sus respectivos implantes es superior. La causa probable de esta limitación en la resolución espectral tonotópica es la interacción entre canales.
Figura 6: Ajuste de la puntuación de calidad normalizada frente al número de canales.
Para valorar el efecto de la interacción entre canales se han realizado tests modificando en la simulación el coeficiente de interacción entre canales. Los resultados se muestran en la figura 7. Se observa que cuando se sintetiza la señal con un coeficiente de interacción bajo, la calidad de la frase sintetizada es similar a la de la frase original, pero a medida que aumenta este coeficiente de interacción la calidad se degrada de forma significativa. El codo en estas gráficas se sitúa alrededor de 1 o 2 mm, lo que se puede interpretar como que la interacción entre electrodos y terminaciones nerviosas se puede modelar a través del coeficiente de interacción entre canales asignando a este coeficiente un valor próximo a 1 o 2 mm. Este valor es consistente con las observaciones y estudios teóricos previos relativos a la distribución de la densidad de corriente en el sistema eléctrico implante coclear - cóclea.
Figura 7: Ajuste de la puntuación de calidad normalizada frente al coeficiente de interacción.
Los autores agradecen la colaboración prestada por el equipo de ORL del Hospital La Paz de Madrid y la prestada por los pacientes que participaron en los tests de validación.