Tesis by Antonio Candel

UNIVERSIDAD DE MURCIA MASTER EN CIENCIAS FORENSES Curso 2009 / 2010

APLICACIÓN FORENSE DE UN SISTEMA BIOINSPIRADO DE ANÁLISIS DE VOZ PARA EL RECONOCIMIENTO DE LOCUTORES

ANTONIO JOSÉ CANDEL RAMÓN

Trabajo realizado bajo la tutela de: Dr. D. JOSÉ LUIS RAMÓN GARCÍA Dr. D. MANUEL CANTERAS JORDANA

ÍNDICE

ÍNDICE CAPÍTULO 1:

RESUMEN

1. RESUMEN .................................................................................................................. 1

CAPÍTULO 2:

INTRODUCCIÓN

2. INTRODUCCIÓN ........................................................................................................ 2 2.1. LOS ANÁLISIS CIENTÍFICOS COMO MEDIO DE PRUEBA ............................................ 2 2.2. LA IDENTIFICACIÓN DE LOCUTORES, INSTRUMENTO DE INVESTIGACIÓN FORENSE .. 4

CAPÍTULO 3:

SAVIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

3. SAVIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO ...................................... 5 3.1. LA TRANSDUCCIÓN ACÚSTICO NEURONAL ............................................................ 5 3.2. EL OÍDO EXTERNO............................................................................................... 7 3.3. EL OÍDO MEDIO ................................................................................................... 8 3.4. EL ÓRGANO DE CORTI ......................................................................................... 8 3.5. LA SINAPSIS ...................................................................................................... 11 3.6. EL CONJUNTO ................................................................................................... 13

CAPÍTULO 4:

ESTIMACIÓN DEL ESPECTRO DE POTENCIA

4. ESTIMACIÓN DEL ESPECTRO DE POTENCIA ..................................................... 14 4.1. DETECCIÓN DE PERIODICIDADES OCULTAS: EL CORRELOGRAMA......................... 14 4.2. DETECCIÓN DE PERIODICIDADES OCULTAS: EL PERIODOGRAMA.......................... 14 4.3. EL PERIODOGRAMA: INTERPRETACIÓN ............................................................... 15 4.4. EL PERIODOGRAMA Y LA TRANSFORMADA DE FOURIER ....................................... 16 4.5. LA ESTIMACIÓN DEL ESPECTRO ......................................................................... 17

Índice | I

ÍNDICE

4.5.1. LA ESTIMACIÓN DEL ESPECTRO: MÉTODOS NO PARAMÉTRICOS ............. 18 4.5.2. LA ESTIMACIÓN DEL ESPECTRO: MÉTODOS PARAMÉTRICOS................... 19 4.5.3. COMPARACIÓN GRÁFICA DE LOS MÉTODOS DE ESTIMACIÓN .................. 19

CAPÍTULO 5:

CLASIFICADORES ESTADÍSTICOS

5. CLASIFICADORES ESTADÍSTICOS ....................................................................... 21 5.1. CONCEPTOS PREVIOS ....................................................................................... 21 5.2. LA VALIDEZ DE LA PRUEBA DIAGNÓSTICA: SENSIBILIDAD Y ESPECIFICIDAD ........... 22 5.3. LA SEGURIDAD DE UNA PRUEBA DIAGNÓSTICA. VALORES PREDICTIVOS ............... 23 5.4. LA INFLUENCIA DE LA PREVALENCIA ................................................................... 24 5.5. RAZONES DE PROBABILIDAD .............................................................................. 26

CAPÍTULO 6:

CURVAS ROC

6. CURVAS ROC .......................................................................................................... 29 6.1. ESPACIO ROC .................................................................................................. 29 6.2. CURVAS ROC .................................................................................................. 32

CAPÍTULO 7:

ANTECEDENTES Y OBJETIVOS

7. ANTECEDENTES Y OBJETIVOS ............................................................................ 39

CAPÍTULO 8:

MATERIAL

8. MATERIAL ................................................................................................................ 40

CAPÍTULO 9:

MÉTODOS

9. MÉTODOS................................................................................................................ 42

Índice | II

ÍNDICE

9.1. OBTENCIÓN DE LAS SEÑALES TEMPORALES ....................................................... 42 9.2. OBTENCIÓN DEL COCLEOGRAMA ....................................................................... 42 9.3. APLICACIÓN DE DIFERENTES MÉTODOS DE ESTIMACIÓN ESPECTRAL ................... 43 9.4. CÁLCULO DE CORRELACIONES ESPECTRALES .................................................... 45 9.5. ESTUDIO DE LA VALIDEZ DE LAS ESTIMACIONES ESPECTRALES REALIZADAS PARA EL RECONOCIMIENTO DE LOCUTORES MEDIANTE CURVAS ROC ................................. 45

CAPÍTULO 10:

RESULTADOS

10. RESULTADOS ....................................................................................................... 46 10.1.SEÑALES TEMPORALES OBTENIDAS ................................................................... 46 10.2.COCLEOGRAMA OBTENIDOS .............................................................................. 46 10.3.ESTIMACIONES ESPECTRALES OBTENIDAS ......................................................... 47 10.4.CORRELACIONES ESPECTRALES OBTENIDAS ...................................................... 49 10.5.VALIDEZ

LAS

ESTIMACIONES

ESPECTRALES

REALIZADAS

PARA

RECONOCIMIENTO DE LOCUTORES MEDIANTE CURVAS ROC ................................. 50

CAPÍTULO 11:

CONCLUSIONES Y LÍNEAS FUTURAS

11. CONCLUSIONES Y LÍNEAS FUTURAS ................................................................ 56 11.1.CONCLUSIONES ................................................................................................ 56 11.2.LÍNEAS FUTURAS DE INVESTIGACIÓN ................................................................. 57

CAPÍTULO 12:

BIBLIOGRAFÍA

12. BIBLIOGRAFÍA ....................................................................................................... 58

Índice | III

CAPÍTULO 1: RESUMEN

RESUMEN

Capítulo 1

CAPÍTULO 1: RESUMEN Las llamadas tecnologías bioinspiradas nacen de la aplicación de conceptos de inspiración biológica al diseño de sistemas analíticos. El objetivo, en suma, es comprender e imitar la forma en que los sistemas biológicos aprenden y evolucionan. Para diseñar estos sistemas, además de utilizar la computación tradicional numéricosimbólica, se usan otras metodologías tales como las redes neuronales artificiales, la lógica difusa y la computación evolutiva. Por ello, este intento de emulación del funcionamiento de los seres vivos se debe apoyar en un entorno multidisciplinar que agrupa físicos, informáticos, electrónicos, microelectrónicos y áreas de la ingeniería, como la biomédica o la neuromórfica, y aspira a conseguir auténticos sistemas electrónicos dotados de sentidos artificiales que permitan facilitar un sinfín de tareas y resolver problemas hasta ahora no resueltos. Cuando la relación señal/ruido es pobre, las características del habla están más claramente representadas en el nervio auditivo de una persona con audición normal que en el propio estímulo acústico. Un Sistema Bioinspirado de Análisis de Voz es un algoritmo computacional que funciona tal y como lo hace el oído humano, analizando las características de la voz tal y como se ven representadas en el nervio auditivo humano. Un procesador de voz bioinsipirado en formato software debe ser capaz de simular la respuesta del nervio auditivo humano frente a estímulos acústicos arbitrarios. Utilizando esta simulación pretendemos detectar periodicidades propias y únicas en el habla de cada locutor que permitan su caracterización. Este hecho posibilitaría la realización de estudios forenses a fin de identificar a personas a través de su voz.

1.1 Resumen | 1

CAPÍTULO 2: INTRODUCCIÓN

INTRODUCCIÓN

Capítulo 2

CAPÍTULO 2: INTRODUCCIÓN 2.1 Los análisis científicos como medio de prueba. En la gran mayoría de los casos, el experto forense es llamado a declarar en una vista oral para explicar en detalle las conclusiones y procedimientos relacionados con su estudio pericial. Y es, principalmente en este acto, donde sus análisis de laboratorio adquieren una trascendencia real de cara a la Justicia. Desde la perspectiva del científico forense se observa con cierta extrañeza la notoriedad que los órganos jurisdiccionales conceden a la declaración testifical del experto. Nuestro ordenamiento jurídico -Constitución, Ley Orgánica del Poder Judicial, Ley de Enjuiciamiento Criminal- establece y ensalza, por encima del propio valor de prueba que en sí mismos representan los informes de expertos, la importancia del testimonio oral de los peritos. La forma en que estos expresan verbalmente sus conclusiones para una mejor apreciación por parte del tribunal o jurado, se presenta como algo determinante. A primera vista puede parecer evidente la pertinencia de este proceder, pues los dominios técnicos en los que discurren muchos medios probatorios documentales son inaccesibles al entendimiento de aquellos no relacionados con tales entornos. Resulta muy complicado para un juez o miembro de un jurado llegar a conformar un grado de convicción respecto de unos resultados de análisis, cuando éstos vienen expresados en una nomenclatura o unos términos deductivos que les son total o parcialmente desconocidos. Desgraciadamente, las personas en las que descansa la responsabilidad de impartir Justicia no pueden dominar todos los campos del conocimiento científico vinculados a la amplia gama de elementos evidenciarios que ponen a su disposición los instrumentos de investigación forense. Por esta razón, y asumiendo de antemano que la labor testifical del experto ha de argumentarse en la necesidad de trasladar al román paladino los aspectos técnicos recogidos en sus informes, tampoco ha de ignorarse la componente negativa que este acto puede originar cuando deriva en una incorrecta lectura por parte de la Autoridad Judicial. El planteamiento pretende ser claro. Para un científico, la aportación al procedimiento judicial de unas conclusiones o resultados a través del correspondiente informe técnico, ya constituye en sí mismo un elemento de valoración. O dicho con mayor precisión: “el” elemento de valoración. Es cierto, que en la conciencia del perito

2.1 Los análisis científicos como medio de prueba | 2

INTRODUCCIÓN

Capítulo 2

forense siempre ha de residir un permanente ánimo de interpretación que posibilite la mejor comprensión de aquellos matices específicos propios de su especialidad. No obstante, el hecho de apartarse de lo estrictamente técnico también puede generar malas consecuencias. Por una parte, pudiéramos correr el riesgo de adentrarnos en un terreno que es competencia de las autoridades judiciales. El hecho de “interpretar” resultados ha de entenderse como “traducir” a un lenguaje entendible, y no como “deducir” conclusiones, ajenas a lo que es el entorno puramente científico. Por otro lado -en algunas ocasiones ocurre- se propicia el éxito de quienes se expresan más elocuentemente en la vista oral, a veces, en detrimento de aquellos otros que por una u otra razón carecen de tal habilidad; todo ello, con independencia de la disposición o no un criterio de experto fundamentado en el sólido conocimiento de su área de experiencia. Es decir, pudiera acontecer –de hecho acontece- que durante su testimonio oral, un excelente científico por timidez u otro motivo no supiese trasladar al tribunal o jurado, en una forma suficientemente entendible, los resultados de su estudio. Y de la misma manera, que como consecuencia de su locuacidad, un mal perito obtuviese una inmerecida credibilidad. Ante supuestos de estas características, ¿hasta qué punto podría demandarse la correspondiente responsabilidad de nuestras instituciones de justicia?. Carecería de sentido, exigir de los profesionales que integran la administración de justicia, un suficiente nivel de conocimiento sobre el conjunto de disciplinas y técnicas utilizadas por los distintos expertos en sus tareas de apoyo a la investigación judicial. Pero además, la coyuntura aquí planteada se prolonga más allá de lo que es la mera interpretación de los estudios periciales. Existen otra serie de interrogantes que encuentran perfecta cabida dentro del mismo escenario: ¿Ante qué presupuestos de análisis resultan fiables las técnicas utilizadas? ¿Qué cualificación y experiencia profesional poseen los expertos que las practican? ¿Las bases científicas que sustentan dichas técnicas están convenientemente validadas?. Desde la óptica de un científico, toda esta problemática cuando menos se manifiesta desconcertante. Es complicado comprender cómo la potestad de conferir la

2.1 Los análisis científicos como medio de prueba | 3

INTRODUCCIÓN

Capítulo 2

calidad de perito experto en un área concreta del saber, puede residir en alguien que es completamente ajeno a tal ámbito de conocimiento. Tradicionalmente, las instituciones judiciales depositan su confianza en los especialistas policiales, que dicho sea de paso, tanto por el hecho de poseer una dilatada experiencia profesional, como por el carácter absolutamente aséptico, sistemático y cotidiano de sus evaluaciones, parecen contar -a priori- con una excelente carta de presentación. No debemos olvidar, que nos encontramos en un entorno donde cualquier actuación debe cimentarse en los pilares del rigor y la responsabilidad ya que, en ciertas ocasiones, los resultados de un estudio científico pueden llegar a constituir un elemento de prueba fundamental. Por este motivo, y porque en definitiva estamos hablando de los derechos fundamentales de las personas, los tribunales de justicia han de asegurarse de estar siempre asesorados por un equipo de científicos con una clara conciencia de cuáles son los límites y referentes que circunscriben sus técnicas.

2.2 La identificación de locutores, instrumento de investigación forense. Hoy en día no puede plantearse si es, o no es posible, identificar a una persona a través de su voz. Sin necesidad de ser un experto, cualquiera de nosotros es capaz de reconocer la voz de un familiar o de una persona conocida, incluso a través del teléfono. Por otra parte, también es indiscutible que el habla, referencia biométrica de comportamiento sujeta a diferentes factores de variabilidad (producción articulatoria y fonatoria, componentes emocionales, expresivos, retóricos, etc) se revela como uno de los retos de investigación forense de mayor complejidad. A ello, no sólo contribuye el carácter multidisciplinar de las distintas perspectivas de análisis que se proyectan sobre nuestro objeto de estudio: ingeniería y física acústica, fonética, lingüística, patologías del habla, percepción, etc., sino también, las condiciones degradadas que habitualmente caracterizan las muestras de análisis utilizadas en nuestro entorno: grabaciones de transferencia telefónica con diferentes tipos de ruido, distorsión...

2.2 La identificación de locutores, instrumento de investigación forense | 4

CAPÍTULO 3: SAVBIO, SISTEMA ANÁLISIS DE VOZ BIOINSPIRADO

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

CAPÍTULO 3: SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO La habilidad innata que poseemos para identificar instrumentos, localizar voces, etc y que utilizamos inconscientemente en nuestra vida diaria exige un complicado proceso de codificación de la información sonora en forma de pulsos eléctricos, o potenciales de acción, que se transmiten al cerebro a través del nervio auditivo. Este proceso de codificación se denomina "transducción acústico-neuronal". Aunque queda todavía por desentrañar algunos de sus detalles, se conocen sus propiedades más importantes. El Sistema SAVBIO se centra en la elaboración de algoritmos matemáticos que simulan dicho proceso de transducción. Un sistema bioinspirado de análisis de voz es un procedimiento informático o electrónico capaz de simular el funcionamiento del sistema receptor auditivo y de reproducir la respuesta del nervio auditivo frente a cualquier estímulo acústico. Debe quedar claro que el oído artificial no interpreta los sonidos, ni toma decisiones sobre ellos; no cumple, por tanto, el papel del cerebro. Su función es "codificar" los sonidos en patrones de pulsos eléctricos, sirviéndose del mismo código que emplea un oído real.

3.1 La transducción acústico-neuronal El mecanismo de transducción acústico-neuronal comienza en el oído externo, que modifica las frecuencias contenidas en los sonidos (es decir, el espectro de éstos) antes de que estimulen la membrana timpánica. El movimiento del tímpano induce el movimiento del estribo (oído medio), que produce, a su vez, variaciones de presión en el fluido del interior de la cóclea (oído interno). Estas variaciones de presión generan la oscilación del órgano de Corti, que se encuentra rodeado de dicho fluido. Al oscilar el órgano de Corti, oscilan los cilios de las células ciliadas internas. Este movimiento provoca la apertura y el cierre de los canales iónicos situados en los cilios y, por tanto, variaciones del potencial eléctrico del interior de las células ciliadas. Los incrementos del potencial intracelular aumentan la probabilidad de que se liberen

3.1 La transducción acústico neuronal | 5

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

vesículas de material neurotransmisor desde la célula hacia la sinapsis con la fibra nerviosa y, en consecuencia, de que se genere un potencial de acción en la fibra.

PROCESO

TRANSDUCCION

ACUSTICO-NEURONAL.

sonido

accede al tímpano a través del pabellón auricular. La oscilación del tímpano se transmite al fluido del interior de la cóclea a través de la cadena de huesecillos del oído medio. Las oscilaciones del fluido provocan variaciones de presión que inducen el movimiento del órgano de Corti (esquema inferior). Para cuantificar la amplitud

este

movimiento

medirse

desplazamiento

suele de

membrana basilar, cuya oscilación provoca la de los cilios de las células ciliadas internas, lo que induce variaciones del potencial eléctrico del interior de la célula, origen, a su vez, de potenciales de acción en el nervio auditivo.

Simular el mecanismo de transducción constituye una tarea ardua. Para simplificarla, resulta conveniente dividir dicho mecanismo en una serie de etapas en cascada. Cada una de ellas puede considerarse un subproceso independiente, que recibe una señal de entrada variable en el tiempo (el estímulo de la etapa) y, tras operar sobre ella, produce una o múltiples señales de salida, también variables en el tiempo. Mediante un algoritmo matemático, cada etapa simula la función de un proceso fisiológico diferente. El algoritmo incorpora un conjunto de parámetros que pueden

3.1 La transducción acústico neuronal | 6

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

ajustarse hasta conseguir que la señal de salida de la etapa para un estímulo dado se aproxime a la observada experimentalmente. Siguiendo este planteamiento, nuestro oído artificial procede a través de etapas que reproducen la función de los principales subprocesos fisiológicos del mecanismo de transducción. La naturaleza del algoritmo depende de la etapa de que se trate. Así, el que simula el efecto del oído externo se basa en la función acústica de transferencia del pabellón auricular. El que simula el potencial eléctrico en el interior de la célula ciliada interna se funda, sin embargo, en el circuito eléctrico equivalente de la membrana de esta célula. Por esa misma razón, varía también la naturaleza de los parámetros empleados en cada etapa. Unos son magnitudes físicas (coeficientes de reflexión acústica, conductancias o capacitancias); otros, en cambio, pertenecen a los sistemas de procesamiento de señales (filtros o ganancias). En todos los casos, sin embargo, el resultado es que cada etapa de nuestro oído artificial reproduce los aspectos fundamentales de su correspondiente etapa fisiológica que determinan la percepción auditiva.

3.2 El oído externo ¿Para qué sirve el oído externo? ¿Por qué tiene esa forma? Aunque algunos limitan su función a evitar la entrada de cuerpos extraños en el canal auditivo, lo cierto es que genera información sobre la posición de los sonidos en el espacio. Se requiere esta información para determinar si la fuente emisora de un sonido se encuentra encima, debajo, delante o detrás de nosotros. Es crucial, además, para que el sonido se perciba en tres dimensiones, y no "lateralizado", que es lo que ocurre con los sistemas estereofónicos clásicos. El oído externo opera como un ecualizador acústico, o filtro; amplifica ciertas frecuencias del sonido y atenúa otras, generando así "picos" y "valles" en su espectro. Las frecuencias de los picos, producidos en virtud de la resonancia acústica de las cavidades de la oreja, apenas guardan relación con el lugar de procedencia del sonido. Sin embargo, las frecuencias de los valles sí dependen de la posición de la fuente del sonido con respecto a la del pabellón auricular. Dependen, sobre todo, del ángulo vertical entre ambos.

3.2 El oído externo | 7

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

Desde hace tiempo se sabe que el cerebro está capacitado para detectar el rango de frecuencias atenuadas y relacionarlas con la posición vertical de la fuente sonora. Por ello, nuestro oído artificial incluye en su primera etapa una función matemática que reproduce los valles espectrales generados por el oído externo. Esencialmente, su algoritmo expresa que la atenuación de algunas frecuencias es el resultado de interferencias destructivas a la entrada del conducto auditivo entre el sonido directo procedente de la fuente sonora y el que se refleja en las paredes de la concha (la cavidad más prominente de la oreja).

3.3 El oído medio El oído medio traslada las vibraciones de la membrana timpánica a la cóclea a través de la cadena de huesecillos. Su eficacia en esta tarea depende de la frecuencia de dichas vibraciones: transmite óptimamente las vibraciones de frecuencias medias (de 1 a 4 kilohertz), pero opone resistencia a las oscilaciones de otras frecuencias. Ese fenómeno determina, en buena medida, la característica forma en U de un audiograma normal; es decir, que la sensibilidad auditiva sea mayor para las frecuencias medias. En nuestro oído artificial, la función del oído medio se simula con un sencillo filtro lineal de paso de banda. El filtro reproduce la velocidad de oscilación del estribo en función de la presión sonora instantánea ejercida en el tímpano.

3.4 El órgano de Corti El sistema auditivo posee dos características sorprendentes y únicas entre los órganos sensoriales. En primer lugar, su extenso rango dinámico. Cualquier persona con audición normal percibe sonidos entre 0 y 120 decibelios. Semejante rango de niveles sonoros, en apariencia pequeño, equivale a variaciones de presión que oscilan entre 20 micropascal (el umbral absoluto de audición) y 20 pascal (el umbral del daño auditivo). Por increíble que parezca, el extremo superior del rango es un millón de veces mayor que su extremo inferior. La segunda característica concierne a su capacidad para discriminar entre sonidos compuestos por frecuencias muy parecidas. Esta propiedad nos permite, por ejemplo, distinguir los sonidos correspondientes a una misma nota musical tocada con

3.4 El órgano de Corti | 8

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

dos instrumentos diferentes o a la misma vocal pronunciada por dos personas distintas, ya que la frecuencia fundamental de dicha nota o dicha vocal es idéntica en ambos casos; los sonidos difieren únicamente en su contenido armónico. Dimanan, esas dos características, de la forma en la que el órgano de Corti se mueve en respuesta a los cambios de presión del fluido circundante, producidos por la vibración del estribo. Georg von Békésy, que recibió el premio Nobel de medicina y fisiología en 1961, demostró que cada uno de los segmentos en los que puede dividirse longitudinalmente el órgano de Corti responde a un rango más o menos amplio de frecuencias de estimulación, aunque sólo una de ellas, denominada frecuencia característica, produce oscilaciones de máxima amplitud.

2. TONOTOPIA COCLEAR. La membrana basilar se encuentra en el interior de la cóclea. Se extiende desde la base de la cóclea (la región más próxima al estribo) hasta

ápice

(el

extremo

opuesto). Los sonidos producen la oscilación de la membrana de una forma

tonotópica;

ordenada

espacialmente

decir, por

frecuencias. Las regiones de la membrana próximas a la base de la cóclea son más sensibles a los sonidos

frecuencias

altas,

mientras que las regiones próximas al ápice son más sensibles a los de frecuencias

bajas

son

más

sensibles a los de frecuencias bajas.

Desde un punto de vista funcional, por tanto, cada segmento del órgano de Corti se comporta como un filtro de paso de banda; el órgano de Corti, en su totalidad, como un banco de filtros dispuestos en paralelo con frecuencias características diferentes que comprenden el rango de frecuencias audibles. Este banco de filtros opera a la manera de un analizador del espectro del estímulo sonoro, lo que explica

3.4 El órgano de Corti | 9

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

nuestra capacidad para discriminar entre sonidos similares, aunque dotados de diferente contenido espectral. Al igual que otros muchos procesadores de señales acústicas, nuestro oído artificial incluye un banco de filtros para acometer la descomposición espectral del sonido. ¿En qué reside la peculiaridad de nuestro sistema? En que cada uno de sus filtros, que denominamos DRNL (Dual-Resonance NonLinear), reproduce la respuesta fisiológica de su correspondiente región del órgano de Corti. Esta propiedad del filtro DRNL reviste suma importancia, pues los filtros cocleares no son lineales. La célula ciliada interna es el verdadero transductor del oído. Transforma el movimiento mecánico de sus cilios en una señal eléctrica. La oscilación de los cilios, producida por el movimiento del órgano de Corti, provoca la apertura y el cierre de los canales iónicos situados en la membrana ciliar. La apertura de dichos canales promueve, a su vez, la entrada de potasio al interior de la célula; posibilita así que el potencial eléctrico del interior celular varíe con respecto al medido en ausencia de estímulo sonoro. De esa forma, las oscilaciones de los cilios generan oscilaciones de la misma frecuencia en el potencial intracelular de la célula ciliada interna. Este mecanismo posee características importantes que determinan la respuesta del nervio auditivo; deben, pues, ser reproducidas por el oído artificial. Entre tales propiedades destaca la naturaleza no lineal del mecanismo; con otras palabras, un aumento en la amplitud de oscilación ciliar no produce un aumento proporcional del potencial intracelular. Debido a ello, la forma de onda del potencial es una versión aproximadamente rectificada de la descrita por la amplitud de oscilación de los cilios; de donde se desprende que el potencial intra-celular consta de una componente continua y una componente alterna. Otra característica reseñable se refiere a la amplitud de la componente alterna, que se reduce en grado sumo para frecuencias sonoras superiores a 4 kilohertz. Por ello, se dice que la célula opera como un rectificador de semionda y un filtro de paso bajo. Estas propiedades determinan que las descargas del nervio auditivo se produzcan en sincronía con el aumento del potencial intracelular. Como la amplitud de la componente alterna se reduce para frecuencias altas, las descargas sincrónicas

3.4 El órgano de Corti | 10

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

ocurren sólo para frecuencias inferiores a 4 kilohertz. Para otras frecuencias, la descarga ocurre de forma aleatoria en el tiempo. En un oído artificial, podríamos imitar la función de la célula ciliada interna mediante una etapa de rectificación acompañada de un filtro lineal de paso bajo. Sin embargo, se ha optado por un algoritmo más fisiológico, basado en el circuito equivalente de la membrana de la célula diseñado por Shihab Shamma de la Universidad estadounidense de Maryland. El circuito comprende diversos elementos eléctricos (conductancias, condensadores y pilas), que describen las propiedades de la membrana celular de las porciones apical (próxima a los cilios) y basal (próxima a las sinapsis con las fibras nerviosas) de la célula. La señal de entrada a esta etapa viene indicada por la amplitud de oscilación de los cilios, que determina el valor de la conductancia apical de la célula; por señal de salida se emplea el valor del potencial intracelular. A pesar de su relativa sencillez, el modelo reproduce las principales características fisiológicas del potencial intracelular en respuesta a estímulos sonoros. Además, permite explorar y formular predicciones sobre las consecuencias funcionales de algunos tipos de daño auditivo. Se sabe, por ejemplo, que el exceso de estimulación acústica destruye los cilios de las células internas. Probablemente, esa agresión dificulte la entrada de potasio al interior de la célula. En nuestro modelo, podría simularse el daño reduciendo el parámetro que controla el flujo de potasio; con ello se podría, incluso, investigar las consecuencias del trauma acústico sobre el potencial eléctrico de la célula.

3.5 La sinapsis Una misma célula ciliada interna puede establecer sinapsis con varias fibras del nervio auditivo. Algunas fibras presentan actividad espontánea —se producen descargas en ausencia de estímulo sonoro—, pero otras no. Ante un estímulo sonoro, la actividad de todas las fibras aumenta por encima de la actividad espontánea. Sin embargo, aunque la intensidad del sonido permanezca constante, el aumento producido en el inicio del estímulo es considerablemente mayor que transcurridos unos milisegundos. Esto significa que el inicio de los sonidos se encuentra acentuado en la respuesta del nervio auditivo. Tal característica reviste especial alcance; entre otros

3.5 La sinapsis | 11

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

efectos, facilita la percepción de algunos sonidos consonánticos (como el de la 't' o la 'k'), a pesar de su brevedad. Tras el cese de un estímulo sonoro, se reduce durante varias decenas de milisegundos la actividad espontánea del nervio auditivo. Es como si durante este tiempo las fibras nerviosas estuvieran fatigadas, lo que dificulta la percepción de los sonidos breves que sigan a un sonido prolongado. Por supuesto, este efecto también determina nuestra percepción auditiva. Ambos fenómenos de adaptación se atribuyen al mecanismo de la sinapsis entre la célula ciliada interna y las fibras nerviosas. Dado que determinan nuestra percepción auditiva, conviene que el oído artificial los reproduzca. De nuevo se nos ofrecen varias opciones para simular los fenómenos de adaptación de la sinapsis. Nos hemos decidido por un modelo fisiológico. Agrandes rasgos, el algoritmo supone que en el nervio auditivo se genera un potencial de acción, siempre que la célula ciliada vierta el contenido de una vesícula, por lo menos, de material neurotransmisor en la hendidura sináptica (el espacio físico entre la célula ciliada y la neurona). Admite también que la probabilidad de tal liberación sea mayor cuanto mayor sean el potencial eléctrico en el interior de la célula ciliada y el número de vesículas disponibles. Sabemos ya que el potencial intracelular depende de la intensidad del estímulo sonoro. Para calcular el número de vesículas disponibles, se aplican un conjunto de ecuaciones diferenciales que tienen en cuenta la velocidad de formación de nuevas vesículas en la célula, la velocidad de degradación del neurotransmisor liberado y la velocidad con que la parte del mismo que reingresa en la célula se reprocesa en nuevas vesículas. El algoritmo refleja, además, que la liberación de vesículas neurotransmisoras y, por tanto, la producción de potenciales de acción, dependen de la concentración de calcio en las proximidades de la sinapsis. Este modelo imita los fenómenos de adaptación de la sinapsis. Además, reproduce el siguiente fenómeno: el rango dinámico de las fibras nerviosas que muestran una actividad espontánea escasa (o nula) es mayor que el de las que muestran una notable actividad espontánea. En el modelo, los potenciales de acción se generan de manera estocástica. Se repite, pues, la observación experimental de que

3.5 La sinapsis | 12

SAVBIO: SISTEMA DE ANÁLISIS DE VOZ BIOINSPIRADO

Capítulo 3

una fibra nerviosa no responde de un modo idéntico dos veces ante el mismo estímulo sonoro. Por último, el modelo establece una predicción aún por confirmar; a saber: los tipos de fibras (con descarga espontánea alta, media o baja) difieren en las características de la dinámica del calcio en las proximidades de sus respectivas sinapsis.

3.6 El conjunto El resultado de esta cascada de complejos algoritmos es un sistema que reproduce de manera estocástica los potenciales de acción producidos por el nervio auditivo ante cualquier estímulo sonoro. El modelo puede reproducir la actividad de una sola fibra nerviosa o la de un haz de ellas. El número y las características de las fibras son parámetros configurables por el usuario.

3.6 El conjunto | 13

CAPÍTULO 4: ESTIMACIÓN DEL ESPECTRO DE POTENCIA

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

CAPÍTULO 4: ESTIMACIÓN DEL ESPECTRO DE POTENCIA En este capítulo vamos a abordar la estimación de las características espectrales de señales. Muchos de los fenómenos que ocurren en la naturaleza se caracterizan mejor estadísticamente en términos de promedios. Por ejemplo, los fenómenos meteorológicos tales como las fluctuaciones en la temperatura y la presión del aire se caracterizan mejor estadísticamente como procesos aleatorios. Debido a las fluctuaciones aleatorias en tales señales, debemos adoptar un punto de vista estadístico, que trate con las características promedio de señales. En particular, la función de autocorrelación de un proceso es la medida estadística apropiada que se utilizará para caracterizar las señales en el dominio del tiempo, y la transformada de Fourier de la función de autocorrelación, que da el espectro de la densidad de potencia, y proporciona la transformación del dominio del tiempo al dominio de la frecuencia.

4.1 Detección de periodicidades ocultas: El correlograma. Una función periódica se repite transcurrido T (período), por lo tanto presentará la máxima correlación con el retardo T y sus múltiplos enteros. Puede demostrarse que la autocorrelación de una función periódica es periódica, del mismo período que dicha función.

4.2 Detección de periodicidades ocultas: El periodograma El periodograma se asimila a un “sintonizador” de un receptor de radio, así, la serie que observamos sería la señal emitida por una radio y el periodograma no sería más que el dial que busca en que frecuencia se “oye”

mejor la señal emitida.

4.2 Detección de periodicidades ocultas: El periodograma | 14

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

4 15

P ER D G

2 0

-2 5

-4 0

-6 20

100 120 140 160 180

200

FREC

CICLO1

Periodograma

Señal emitida

Figura 4.1 Señal emitida y su Periodograma

4.3 El periodograma: Interpretación El periodograma mide aportaciones a la varianza total de la serie de componentes periódicos de una frecuencia determinada (w). Si el periodograma presenta un “pico” en una frecuencia, indica que dicha frecuencia tiene mayor “importancia” en la serie que el resto.

Figura 4.2 Periodograma

4.3 El periodograma: Interpretación | 15

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

Figura 4.3 De izquierda a derecha aumenta la frecuencia (disminuye el período)

4.4 El periodograma y la transformada de Fourier El periodograma está basado en una herramienta matemática denominada Transformada de Fourier, según la cual una serie, que cumpla determinados requisitos, puede descomponerse como suma de un número finito o infinito de frecuencias. Del mismo modo, a partir de la representación frecuencial puede recuperarse la serie original a través de la Transformada Inversa de Fourier. En este punto, es preciso señalar las diferencias existentes entre procesos discretos periódicos, aperiódicos y estocásticos en términos frecuenciales: 

Las series periódicas presenta un periodograma discreto, es decir, solo existe "masa" espectral en aquellas frecuencias contenidas en la serie, siendo éstas un número discreto.



Las series aperiódicas presentan un periodograma continúo, es decir, existe "masa" en un "infinito" número de frecuencias.



Las series estocásticas presentan densidad espectral en un rango continúo de frecuencias.

4.4 El periodograma y la transformada de Fourier | 16

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

1.5 1.0

15 PERDG

0.5 0.0

-0.5 5

-1.0 0

-1.5 20

100 120 140 160 180 200

100

150

FREC

Serie periódica

Periodograma

12000

100

10000

PERDG

8000

6000 4000 2000

0 0

0 20

100

150

100 120 140 160 180 200 FREC

Serie periódica

Periodograma

1.4

1.2

1.0 PERDG

1 0 -1

0.8 0.6 0.4 0.2

-2

0.0 0

-3 20

100

120

140

160

180

100

150

200 FREC

Serie periódica

Periodograma

4.5 La estimación del espectro El espectro o densidad espectral se define para procesos estocásticos estacionarios como la transformada de Fourier de la función de autocovarianza (teorema de Wiener-Khintchine). Su estimador “natural” es el periodograma, antes

4.5 La estimación del espectro | 17

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

visto. Como hemos comprobado es un instrumento adecuado para la detección de procesos periódicos puros, sin embargo en el caso de procesos estocásticos presenta serias limitaciones, las más importantes son la inconsistencia y la correlación asintóticamente nula entre ordenadas del periodograma. Esto implica que no converja al verdadero “espectro” cuando la muestra se amplía y que el periodograma muestre un comportamiento errático. El periodograma tiene como ventaja la sencillez de cálculo, pero su precisión en la estimación del espectro es muy limitada, especialmente para conjuntos reducidos de datos. Existen modificaciones aplicadas al periodograma para mejorar sus prestaciones. En particular, vamos a estudiar brevemente los métodos no paramétricos y los métodos paramétricos de estimación espectral.

4.5.1 La estimación del espectro: métodos no paramétricos A fin de solucionar los problemas antes comentados se propone, en este tipo de métodos, ponderar el espectro por unos valores denominados “ventanas espectrales”. 1.4 1.2

h(w)

PERDG

1.0 0.8

0.6 0.4 0.2 0.0 0

100

150

-pi

FREC

Figura 4.4 Ventana espectral

Existe un amplio número de “ventanas espectrales”, Tukey, Parzen, Hamming, etc. Si bien la utilización de ventanas espectrales permite eliminar la inconsistencia y la irregularidad del periodograma como estimador, el que se suavicen las ordenadas del periodograma introduce la dificultad de diferenciar frecuencias próximas.

4.5 La estimación del espectro | 18

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

PERIODOGRAMA NO SUAVIZADO

PERIODGRA MA S UAVIZADO MEDIANTE UNA VENTA NA DE TUKEY-HA NNING (M=50)

3.0 2.5

DENSIDAD2

PERDG

2.0 1.5 1.0

5 0.5

0.0

FREC

Las diferencias en lo que se refiere a las prestaciones son relativamente poco significativas según el tipo de ventana aplicado. Lo importante es que el factor de calidad aumenta cuando aumenta la longitud de los datos.

4.5.2 La estimación del espectro: métodos paramétricos Los métodos paramétricos, parten de suponer “conocido” el periodograma y modelizarlo en general a través de un proceso ARMA (autoregressive moving average model), a partir del cual se puede recuperar una estimación del espectro.

4.5.3 Comparación gráfica de los métodos de estimación Serie original 8 6 4 2 0 -2 -4 -6 -8 20

100

120

140

160

180

200

4.5 La estimación del espectro | 19

ESTIMACION DEL ESPECTRO DE POTENCIA

Capítulo 4

Estimaciones del espectro

450

PARAMETRICO

NO ALISADO

ALISADO

400

350

300

250

200

1 50

1 00

4.5 La estimación del espectro | 20

CAPÍTULO 5: CLASIFICADORES ESTADÍSTICOS

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

CAPÍTULO 5: CLASIFICADORES ESTADÍSTICOS. 5.1 Conceptos previos La clasificación de los individuos de una población se realiza basándose en una característica (o varias) de la misma, que se denomina clasificador. Por clasificador o variable de predicción puede entenderse cualquier mecanismo que permite clasificar o discriminar entre los estados alternativos de los individuos de una población, a partir de la información proporcionada por ellos, e indicar sobre cuál de estos estados mutuamente excluyentes presenta cada individuo en ese momento. En general, un clasificador tiene dos propósitos: 

Proporcionar información fiable sobre el estado o condición de un individuo.



Influir en la acción apropiada para el estado pronosticado de un individuo.

Aunque puede haber más de dos estados alternativos para los individuos de la población, los problemas de mayor relevancia corresponden a estado extremos, es decir, clasificaciones dicotómicas. Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en presencia y negativos en ausencia. Por lo tanto, las condiciones que deben ser exigidas a un test son: 

Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Con que frecuencia el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.



Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad.



Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de la

5.1 Conceptos previos | 21

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la prevalencia de la patología. A su vez, es conveniente que el test sea sencillo de aplicar y aceptado la población general.

5.2 La validez de una prueba diagnóstica: Sensibilidad y especificidad El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada individuo como negativo o positivo en función de presencia o ausencia de la condición de interés. Cuando se estudia una muestra de población, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2 (matriz de confusión) como la que se muestra en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los individuos (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad. Sensibilidad Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.Cuando los datos obtenidos a partir de una muestra de población se clasifican en una tabla como la que se muestra en la Tabla 1, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Tabla 1. Matriz de confusión.

Resultado de la prueba Presencia Ausencia

Predicción del Clasificador Positivo Negativo Verdaderos Positivos Falsos Negativos (VP) (FN) Falsos Positivos Verdaderos Negativos (FP) (VN)

5.2 La validez de una prueba diagnóstica: Sensibilidad y Especificidad | 22

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

Es decir: De ahí que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”. Especificidad Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos. A partir de una tabla como la Tabla 1, la especificidad se estimaría como: De ahí que también sea denominada “fracción de verdaderos negativos (FVN)”. Resulta obvio que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para poder captar a todos los positivos. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo, la realización de mamografía en el cáncer de mama). Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en el caso del SIDA).

5.3 La seguridad de una prueba diagnóstica. Valores predictivos. Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de

5.3 La seguridad de una prueba diagnóstica.Valores predictivos | 23

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información: Valor predictivo positivo: Es la probabilidad de presencia si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de individuos con un resultado positivo en la prueba que finalmente demostraron presencia de la condición de interés. Valor predictivo negativo: Es la probabilidad de que un sujeto con un resultado negativo en la prueba demuestre ausencia de la condición de interés. Se estima dividiendo el número de verdaderos negativos entre el total de la muestra de la población con un resultado negativo en la prueba.

5.4 La influencia de la prevalencia. Hemos visto cómo los valores de sensibilidad y especificidad, a pesar de definir completamente la validez de la prueba diagnóstica, presentan la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado de la prueba. Sin embargo, tienen la ventaja adicional de que son propiedades intrínsecas a la prueba diagnóstica, y definen su validez independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica. Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presenta la limitación de que dependen en gran medida de lo frecuente que sea la enfermedad a diagnosticar en la población objeto de estudio.

5.4 La influencia de la prevalencia | 24

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

Cuando la prevalencia de la enfermedad es baja, un resultado negativo permitirá descartar la enfermedad con mayor seguridad, siendo así el valor predictivo negativo mayor. Por el contrario, un resultado positivo no permitirá confirmar el diagnóstico, resultando en un bajo valor predictivo positivo. Ilustraremos lo anterior con un sencillo ejemplo. Para el diagnóstico del VIH se emplean tests que han confirmado tener una alta validez, con valores aproximados de sensibilidad y especificidad de un 99,5%. Supongamos que se aplicase esta prueba a la totalidad de la población gallega, que se cifra en 2.800.000 habitantes. Si asumimos que en Galicia existen 6.000 pacientes VIH positivos (lo cual implicaría una prevalencia de 6000/ 2.800.000 =0,21%), el test resultaría positivo en un total de 19.940 sujetos, obteniéndose un valor predictivo positivo del 29,9% (Tabla 2). Así pues, sólo un 29,9% de los sujetos con un resultado positivo en el test resultarían estar realmente afectados, mientras que un 70,1% de los mismos no presentarían la enfermedad. Resulta obvio que en una comunidad como la gallega la utilización de esta prueba no resultaría útil, debido a la alta proporción de falsos positivos que conllevaría. Tabla 2. Resultados de la aplicación del test de VIH en una población de baja prevalencia.

Resultado del test Positivo Negativo Total

VIH+ 5.970 30 6.000

Verdadero diagnóstico VIHTotal 13.970 19.940 2.780.030 2.780.060 2.794.000 2.800.000

Veamos ahora que ocurriría si se aplicase la misma prueba a una población en la que el número de enfermos VIH+ fuese de 800.000 (resultando en una prevalencia mucho mayor de un 800.000/2.800.000=28,6%). En este caso, la predictividad de una prueba positiva aumenta de un 29,9% a un 98,7%, disminuyendo la proporción de falsos positivos a tan sólo un 1,3% (Tabla 3). Por lo tanto, si la prevalencia es alta, un

5.4 La influencia de la prevalencia | 25

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

resultado positivo tiende a confirmar la presencia de la enfermedad, mientras que si la prevalencia es baja, un resultado positivo no permitirá afirmar su existencia. Tabla 3. Resultados de la aplicación del test de VIH en una población de alta prevalencia.

Resultado del test Positivo Negativo Total

Verdadero diagnóstico VIH+ VIHTotal 796.000 10.000 806.000 4.000 1.990.000 1.994.000 800.000 2.000.000 2.800.000

5.5 Razones de probabilidad Queda claro pues cómo la prevalencia es un factor determinante en los valores predictivos de un test. Por lo tanto, éstos, no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de verosimilitudes, razón de probabilidad, o cociente de probabilidades. Estos miden cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de la condición de estudio: 

Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula dividiendo la probabilidad de un resultado positivo en presencia de la condición entre la probabilidad de un resultado positivo entre ausencia de la condición. Es, en definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad):

5.5 Razones de probabilidad | 26

CLASIFICADORES ESTADÍSTICOS



Capítulo 5

Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de la condición entre la probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad):

La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal o anormal o bien positivo y negativo. Por último, al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes pruebas para un mismo diagnóstico. Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer comparaciones entre diferentes pruebas diagnósticas. En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva de un test. Los

5.5 Razones de probabilidad | 27

CLASIFICADORES ESTADÍSTICOS

Capítulo 5

estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos.

5.5 Razones de probabilidad | 28

CAPÍTULO 6: CURVAS ROC

CURVAS ROC

Capítulo 6

CAPÍTULO 6: CURVAS ROC. La curva ROC es una representación gráfica del rendimiento de un clasificador, proporcionando una herramienta visual para examinar la relación entre la capacidad del clasificador para detectar correctamente los individuos con presencia de la condición de interés y su incapacidad para identificar los individuos del grupo de ausencia. Zhou et al. (2002) señalan las siguientes ventajas de un gráfico ROC: •

Es una representación de la exactitud de un clasificador incluyendo las medidas de sensibilidad v especificidad para lodos los posibles criterios de decisión, lo que supone una gran ventaja frente a las medidas de sensibilidad y especificidad puntuales.

•

Es independiente de la prevalencia, dado que está totalmente determinada por los pares de sensibilidad y especificidad de un clasificador, y ambas medidas de exactitud lo son.

•

Es invariante para transformaciones monótonas en la escala del clasificador, como lineal, logarítmica y raíz cuadrada.

•

Proporciona una comparación visual de dos o más clasificadores, permitiendo dicha evaluación en lodos los criterios de clasificación posibles.

En este sentido, comenzaremos viendo el espacio ROC donde se lleva a cabo la representación de estas curvas, y continuaremos con los aspectos fundamentales de las curvas ROC. Además, otra ventaja de la curva ROC es que no requiere seleccionar un punto de corte, pues consiste en una representación que los incluye a todos, mostrando una imagen del rendimiento global del clasificador. No obstante, las curvas ROC permiten desarrollar mecanismos de búsqueda y selección de puntos de corte.

6.1. Espacio ROC El espacio ROC consiste en un sistema de coordenadas donde se representa la fracción de falsos positivos (complementario de la especificidad) en el eje de

6.1 Espacio ROC | 29

CURVAS ROC

Capítulo 6

abscisas frente a la fracción de verdaderos positivos (sensibilidad) en el eje de ordenadas. Así, el espacio ROC permite visualizar el rendimiento de un clasificador (o varios) mediante representaciones bidimensionales, a partir de los puntos (1 - especificidad, sensibilidad). En general, el espacio ROC muestra las correspondencias relativas entre beneficios (verdaderos positivos) y costes (falsos positivos) de una clasificación. En particular, algunos puntos del espacio ROC se consideran de gran interés, ya que representan rendimientos extremos. Esta característica especial les confiere un estatus de referencia en el estudio de la exactitud de un clasificador mediante el análisis ROC. Por ejemplo, la Figura 6.1 representa un espacio ROC con siete tipos de clasificación, dados por sus pares {FFP, FVP). El punto (0,0) representa la tendencia en la predicción de no proporcionar respuestas positivas, por lo que no se cometen errores del tipo falsos positivos; sin embargo, tampoco se detectan los verdaderos positivos.

Figura 6.1 Representación de siete clasificadores en el espacio ROC

6.1 Espacio ROC | 30

CURVAS ROC

Capítulo 6

El vértice opuesto (1,1) representa la tendencia contraria, es decir, proporcionar incondicionalmente respuestas positivas, pero en este caso no se detectan los verdaderos negativos. Asimismo, el punto (0,1) representa la clasificación perfecta. El rendimiento de la clasificación producida por el punto A de la Figura 6.1 es perfecto, dado que no se cometen errores del tipo falsos positivos ni del tipo falsos negativos. Por consiguiente, de forma intuitiva, se considera que un punto (FFP, FVP) en el espacio ROC representa un mejor rendimiento que otro cuanto más hacia el noroeste se encuentre, o equivalentemente cuanto más próximo esté del punto A = (0,1), es decir, si la fracción de verdaderos positivos es mayor o si la fracción de falsos positivos es menor, o ambos casos. Así, un elemento de gran importancia en el espacio ROC es la diagonal positiva y = x que une los puntos (0,0) y (1,1), utilizada como línea de referencia, la cual representa la tendencia a clasificar aleatoriamente un estado de la condición. En particular, si un clasificador detecta aleatoriamente la presencia de la condición la mitad de las veces, se puede esperar que clasifique correctamente la mitad de los individuos que presentan la condición, y la mitad de los individuos que no la presentan. Esta situación se representa en el espacio ROC con el punto C = (0.5,0.5) situado en el centro de la línea de referencia y = x . Asimismo, un clasificador que supone la presencia de la condición en el 40% de los individuos, se puede esperar que clasifique correctamente el 40% de los que presentan la condición, pero también tendrá un 40% de falsos positivos, esto es, clasificará correctamente el 60% de los que no presentan la condición, representado en el espacio ROC por el punto D = (0.4,0.4). Así, un punto del espacio ROC sobre la diagonal positiva depende de la proporción con la que éste considere la presencia de la condición, según sea esta proporción mayor o menor que 0.5, se localizará más próximo al punto (1,1) o al punto (0,0). Por el contrario, cualquier punto en la región triangular inferior tendrá peor rendimiento que un clasificador aleatorio. No obstante, obsérvese que el espacio de decisión es simétrico respecto a la diagonal que separa ambas regiones triangulares.

6.1 Espacio ROC | 31

CURVAS ROC

Capítulo 6

Si se invierte el sentido de la predicción, es decir, las respuestas positivas se consideran negativas, y viceversa, entonces los errores de falsos positivos (negativos) se transforman en verdaderos positivos (negativos). Por tanto, puede invertirse la positividad o polaridad de cualquier punto del espacio ROC situado en la región triangular inferior para producir un punto en la región triangular superior. Por ello, la región triangular bajo la diagonal se presenta vacía en los gráficos ROC. Así, por ejemplo, el rendimiento del punto B = (0.85,0.1) de la Figura 3.1 se sitúa por debajo de la línea de referencia, si se invierten sus decisiones de clasificación, se obtienen las coordenadas (0.15,0.9) que corresponden al punto B' situado por encima de la línea de referencia del espacio ROC. Por lo que los puntos ROC se dibujan en la región triangular superior, y deben proporcionar alguna información adicional sobre las observaciones. De este modo, los puntos que aparecen a la izquierda en la región triangular superior del espacio ROC, y próximos a las abscisas, se consideran estrictos, cometen pocos errores de tipo falsos positivos pero también suelen presentar una baja fracción de verdaderos positivos, ya que presentan una débil tendencia a proporcionar respuestas positivas. Los puntos que se sitúan a la derecha en la región triangular superior del espacio ROC, se consideran tolerantes, clasifican a casi todos los positivos correctamente, pero también suelen tener una alta fracción de falsos positivos, ya que muestran una fuerte tendencia a proporcionar respuestas positivas. Considerando la Figura 6.1, podemos considerar que F es más estricto que G, o equivalentemente, que G es más tolerante que F.

6.2 Curva ROC En la sección anterior, se han considerado puntos del espacio ROC, donde cada uno de ellos corresponde a una clasificación particular asociada a una matriz de confusión. Por otro lado, dado un clasificador se puede seleccionar un punto de corte para producir una matriz de decisión; esto es, si la respuesta del clasificador está por

6.2 Curva ROC | 32

CURVAS ROC

Capítulo 6

encima de dicho punto de corte se etiqueta como positiva, y en caso contrario, como negativa. En este contexto, de manera sencilla se establecen ciertas analogías de interés entre las falsas clasificaciones de la matriz de decisión o confusión y las probabilidades de los errores de tipo I y II (denotadas por a y b, respectivamente) usadas en los contrastes de hipótesis estadísticos, como se observa en la Figura 6.2.

Figura 6.2 Distribuciones del clasificador según el estado de la condición

Por un lado, la probabilidad de error de tipo I (a) es la probabilidad de tomar una decisión equivocada al rechazar la hipótesis nula, es decir, de rechazar la hipótesis nula cuando en realidad es cierta. Por otro lado, la probabilidad de error de tipo II (b) es la probabilidad de tomar una decisión equivocada al aceptar (no rechazar) la hipótesis nula, es decir, de aceptar la hipótesis nula cuando en realidad la hipótesis alternativa es la verdadera. En concreto, el contraste de hipótesis viene dado por: H0 : Ausencia de la condición de interés H1 : Presencia de la condición de interés

6.2 Curva ROC | 33

CURVAS ROC

Capítulo 6

siendo el error de tipo I de este contraste análogo a la fracción de falsos positivos (FFP = 1 - especificidad), el error de tipo II se corresponde con la fracción de falsos negativos (FFN = 1 - sensibilidad), y la potencia estadística de una clasificación, dada por la probabilidad de tomar una decisión correcta al rechazar la hipótesis nula (rechazar una hipótesis nula falsa), es 1 - b = 1 - FFN = sensibilidad De esta manera, cada punto de corte del mismo clasificador produce una clasificación diferente, o equivalentemente, un punto diferente en el espacio ROC. Evidentemente, dependiendo de este criterio de decisión, se obtienen distintas probabilidades de los errores de tipo I y II, a y b, respectivamente, como se observa en la Figura 6.2. Asimismo, cada a (probabilidad de error de tipo I) tiene asociado un b (probabilidad de error de tipo II) y un punto de corte para el clasificador. En este sentido, la representación en el plano de la relación entre los porcentajes o fracciones de falsos positivos (FFP) frente a los porcentajes o fracciones de verdaderos positivos (FVP) de un clasificador, es decir, a frente a 1 - b o sea (1 especificidad, sensibilidad), recibe el nombre de curva ROC del clasificador. Así, para obtener esta curva ROC es suficiente variar el punto de corte del clasificador o variable de predicción entre los extremos inferior y superior de su soporte, registrando sus correspondientes a y b (probabilidades de tipo I y de tipo II). Es decir, la curva ROC se obtiene representando para cada posible punto de corte del clasificador, las medidas del rendimiento asociadas a la clasificación que provoca, la sensibilidad (FVP) en el eje de ordenadas y FFP (complementario de la especificidad) en el eje de abscisas; mostrando de manera gráfica la exactitud global del clasificador. Además, obsérvese que la curva ROC parte siempre del punto (0,0) y finaliza en el punto (1,1). Por ejemplo, la Figura 6.3 muestra una curva ROC con siete posibles puntos de corte. Obviamente, el punto de corte ideal corresponderá a aquel punto para el que ambas probabilidades de error sean mínimas. No obstante, como se observa en la Figura 6.2, al reducir una de estas probabilidades de error aumenta la otra; por ejemplo, disminuir a incrementa b, y viceversa.

6.2 Curva ROC | 34

CURVAS ROC

Capítulo 6

Figura 6.3 Curva ROC y posibles criterios de decisión

Consecuentemente, la búsqueda de un punto de corte óptimo o idóneo se centra en el estudio de la relación de compensación entre a = FFP y b = FVP, es decir, entre el complementario de la especificidad y la sensibilidad. Así, un punto de corte óptimo será aquel que al aumentar ligeramente la sensibilidad (1 - b = FVP) se produce un incremento significativo en términos relativos de la especificidad (a = FFP). En esta situación, la capacidad de predecir correctamente del clasificador, o equivalentemente, la capacidad para discriminar entre dos estados alternativos y mutuamente excluyentes de una condición, viene definida por el conjunto de pares (sensibilidad, especificidad), cada uno de los cuales corresponde a un criterio de decisión, es decir, el cambio de punto de corte altera la clasificación, y por consiguiente, las medidas de capacidad del clasificador (especificidad, sensibilidad, índices de exactitud y de Youden, tasas de verosimilitud...). Por otra parte, representando respecto al mismo sistema de coordenadas las dos funciones de densidad del clasificador condicionadas al estado de la condición de la Figura 3.2, se observa una región de solapamiento entre ambas. En esta región, la

6.2 Curva ROC | 35

CURVAS ROC

Capítulo 6

respuesta del clasificador puede indicar cualquiera de ambos estados (presencia y ausencia). Si el clasificador no discrimina entre ellas, es decir, el grado de solapamiento entre ambas funciones de densidad condicionadas no permite distinguirlas, entonces la exactitud del mismo será insignificante (Figura 6.4.a). En caso contrario, cuando no hay solapamiento entre estas funciones de densidad, entonces el clasificador discrimina correctamente entre ambos estados de la condición, es decir, tiene un rendimiento perfecto (Figura 6.4.b).

Figura 6.4 Situaciones extremas de solapamiento entre distribuciones

Sin embargo, estas dos situaciones no son habituales en la práctica, por lo que en general, la exactitud o rendimiento de un clasificador se encuentra entre estos dos extremos. En este contexto, una curva ROC permite la visualización del rendimiento de las clasificaciones, y por tanto, la organización y selección de las mismas. Esta curva es la representación de los tradeoffs o relaciones de compensación entre la sensibilidad y la especificidad. Por tanto, el análisis ROC estima una curva, la curva ROC, la cual describe el inherente tradeoff entre sensibilidad y especificidad de un clasificador. Cada punto, (1 - E, S) está asociado a un criterio o punto de corte específico. Obviamente, este punto varia para distintos observadores (analistas, revisores, médicos, psiquiatras...), ya que su criterio diagnóstico puede ser diferente aunque sus curvas ROC sean iguales.

6.2 Curva ROC | 36

CURVAS ROC

Capítulo 6

En este sentido, resulta de mayor interés medir las capacidades del observador para interpretar las respuestas del clasificador en vez de su criterio de decisión. En resumen, la curva ROC representa el lugar geométrico de las distintas capacidades de discriminación de los observadores, es decir, las curvas ROC explican gráficamente cómo criterios distintos para interpretar un clasificador o test suministran diferentes fracciones de falsos positivos y de verdaderos positivos de dicho test. De manera que los cambios en los criterios de decisión modifican las fracciones a lo largo de dicha curva. Así, si se opta por un criterio estricto, un punto próximo a la esquina inferior izquierda, puede ser muy baja la cantidad de falsas alarmas, pero también la cantidad de detecciones con éxito. Inversamente, si se adopta un criterio de decisión tolerante, un punto próximo a la esquina superior derecha, entonces puede obtenerse una cantidad muy alta de detecciones con éxito, pero también de falsas alarmas. En general, para situaciones que requieran una alta sensibilidad se elegirán puntos de corte de la curva en la parte superior del espacio ROC, y si se demanda una alta especificidad se seleccionarán puntos de corte a la izquierda. El punto (0,1) corresponde a un clasificador perfecto, es decir, discrimina perfectamente a los individuos con la condición presente de los que la condición se encuentra ausente. El punto (0,0) representa un clasificador que predice ausencia de la condición a todos los individuos, mientras que el punto (1,1) corresponde a un clasificador que pronostica la presencia de la condición a todos los individuos.

Figura 6.5.1 Curvas ROC con diferentes rendimientos

6.2 Curva ROC | 37

CURVAS ROC

CapĂtulo 6

Figura 6.5.2 Curvas ROC con diferentes rendimientos

6.2 Curva ROC | 38

CAPÍTULO 7: ANTECEDENTES Y OBJETIVOS

ANTECEDENTES Y OBJETIVOS

Capítulo 7

CAPÍTULO 7: ANTECEDENTES Y OBJETIVOS 7.1 Antecedentes Para la elaboración del presente trabajo se ha partido de los resultados obtenidos en el Proyecto I+D+I titulado “Sistemas Bioinspirados de Análisis de Voz”, Ref. CIT-390000-2005-4, del Ministerio de Educación y Ciencia, Programa de Fomento de

Investigación

Técnica

(PROFIT),

realizado

conjuntamente

entre

las

Universidades de Salamanca, Murcia y Politécnica de Cartagena. De él se obtuvieron, entre otros, los siguientes resultados: 

Desarrollo de un procesador de voz basado en las características del procesamiento de señales que tiene lugar en el oído humano implementado en formato software (Matlab) para extender su uso como procesador previo a las tareas de reconocimiento del habla.



SAVBIO Toolbox. Una herramienta software en formato Matlab diseñada para poder procesar un conjunto de sonidos digitales (en formato WAV) a través del modelo computacional de oído humano diseñado en el proyecto. El toolbox contiene modelos computacionales de la función del oído externo, oído medio, membrana basilar humana, y célula ciliada interna. Contiene además, numerosas funciones de apoyo y herramientas de análisis y procesamiento de señales digitales.



DUQUE. Se trata de una aplicación (en entorno Matlab) que permite procesar un sonido digital tal y como lo haría un oído humano. Acepta uno o varios archivos de sonido (en formato WAV) y produce un cocleograma, o representación de la señal acústica en el potencial receptor de las células ciliadas internas. Utiliza las herramientas y los modelos computacionales disponibles en el SAVBIO Toolbox.

7.2 Objetivos El objetivo global es desarrollar y validar un sistema de reconocimiento de locutores por la voz basado en el análisis de la representación de la voz en el nervio auditivo humano (sistema bioinspirado).

7.2 Objetivos | 39

CAPÍTULO 8: MATERIAL

MATERIAL

Capítulo 8

CAPÍTULO 8: MATERIAL Para el presente trabajo se hace uso de la base de datos “Ahumada” de la Guardia Civil, la cual consiste en grabaciones de 103 locutores masculinos españoles, concebida para ser usada para el desarrollo de sistemas de reconocimiento automático de locutores. Aunque la base de datos completa contiene tanto grabaciones con micrófono de alta calidad como grabaciones telefónicas, sólo se han utilizado, en un principio, grabaciones realizadas con micrófono. Inicialmente se ha elegido una población de 2 hablantes de la base de datos Ahumada. A cada uno de estos hablantes se les extrajo la pronunciación del dígito “uno” para obtener un total de 43 locuciones. Para el procesamiento de estas grabaciones se hace uso del modelo auditivo Duque, desarrollado por la Universidad de Salamanca, el cual consta de: 

Un modelo del oído externo, consistente en un filtro que adapta la salida del auricular a la respuesta del tímpano.



Un modelo del oído medio, con el que se obtiene la velocidad del estribo.



Un modelo no lineal de la cóclea, basado en el filtro DRNL, con el que se obtiene la velocidad de una sección concreta (canal) de la membrana basilar.



Un modelo de la célula ciliada interna, con el se obtiene su desplazamiento a partir del movimiento de la membrana basilar y el potencial intracelular como respuesta a ese desplazamiento.

Para el tratamiento de todos los datos generados por el modelo auditivo se ha hecho uso del software MATLAB, que es un lenguaje de programación que permite la creación de programas o funciones de usuario (archivos .m) y que además contiene un módulo para el Procesamiento de Señales y otro para Análisis Estadístico. Utilizando el módulo de Procesamiento de Señales que Matlab lleva implementado, se han desarrollado 9 programas que permiten realizar los análisis espectrales para cada uno de dichos cocleogramas según los métodos Burg, Peig,

8 Material | 40

MATERIAL

Capítulo 8

Covarianza, Covarianza Modificado, Periodograma, Yule-Walker, Welch, Derivación (multitaper) múltiple y MUSIC. Así mismo se han creado otros 9 programas en lenguaje MATLAB para obtener correlaciones entre pares de señales espectrales que permitan discriminar entre AUTOS (señales del mismo locutor) y CRUZADOS (señales de diferentes locutores). Por último, y para catalogar estadísticamente si el método utilizado para el reconocimiento de locutores es adecuado o no se ha hecho uso del archivo roc.m creado por Giuseppe Cardillo.

8 Material | 41

CAPÍTULO 9: MÉTODOS

METODOS

Capítulo 9

CAPÍTULO 9: MÉTODOS 9.1 Obtención de las señales temporales Partiendo de la base de datos AHUMADA se han obtenido 22 señales del primer locutor en las que pronuncia “UNO” y otras 21 señales del segundo locutor de esa base de datos en las que también pronuncia “UNO”, todas ellas procedentes de grabación microfónica.

9.2 Obtención del Cocleograma Haciendo uso del modelo auditivo Duque, ligeramente modificado para el guardado de los resultados en formato Excel (el original almacena en txt), y con los siguientes parámetros de usuario:

9.2 Obtención del Cocleograma | 42

METODOS

Capítulo 9

se obtiene un cocleograma por cada una de las señales temporales anteriormente citadas. Cada cocleograma se descompone en 30 canales, siendo las frecuencias de estos: Canal Frecuencia

(Hz) Canal Frecuencia

(Hz)

100,0

115,8

134,0

155,2

179,7

208,0

240,9

278,9

322,8

373,8

432,8

501,0

580,1

671,6

777,6

900,3

1042,3

1206,7

1397,1

1617,6

1872,8

2168,2

2510,3

2906,4

3364,9

3895,9

4510,5

5222,2

6046,1

7000,0

9.3 Aplicación de diferentes métodos de estimación espectral. Una vez obtenidos los cocleogramas que poseemos para el análisis de la PSD pasamos a aplicar los 9 programas desarrollados con los que se hallan las estimaciones espectrales, mediante diferentes métodos, de cada uno de los 30 canales de que consta cada cocleograma. 1. Método BURG De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el orden de un autorregresivo (AR) modelo de predicción para la señal (con los valores 2, 4, 8, 16 y 32) y la longitud de la FFT (con valores 256, 512, 1024 y 2048). 2. Método PEIG De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el argumento de entrada segundos p (con los valores 12) y la longitud de la FFT (con valores 256 y 512). 3. Método COVARIANZA De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el orden de un autorregresivo (AR) modelo de predicción para la señal (con los valores 2, 4, 8, 16 y 32) y la longitud de la FFT (con valores 256, 512, 1024 y 2048).

9.3 Aplicación de diferentes métodos de estimación espectral | 43

METODOS

Capítulo 9

4. Método COVARIANZA MODIFICADO De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el orden de un autorregresivo (AR) modelo de predicción para la señal (con los valores 2, 4, 8, 16 y 32) y la longitud de la FFT (con valores 256, 512, 1024 y 2048). 5. Método PERIODOGRAMA De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se ha utilizado la longitud de la FFT (con valores 256, 512, 1024 y 2048). 6. Método YULE-WALKER De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el orden de un autorregresivo (AR) modelo de predicción para la señal (con los valores 2, 4, 8, 16 y 32) y la longitud de la FFT (con valores 256, 512, 1024 y 2048). 7. Método WELCH De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el solapamiento, que especifica el número de muestras de la señal que son comunes a dos segmentos adyacentes (con los valores 128, 192, 256, 512, 1024 y 1536) y la longitud de la FFT (con valores 256, 512, 1024 y 2048). 8. Método DERIVACIÓN MÚLTIPLE De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el tiempo de ancho de banda (con los valores 2, 3, 4 y 8) y la longitud de la FFT (con valores 256, 512, 1024 y 2048). 9. Método MUSIC De los parámetros variables disponibles en Matlab para la obtención de la PSD mediante este método se han utilizado el número de sinusoides de ruido blanco (con los valores 2, 4, 8, 10, 12 y 16) y la longitud de la FFT (con valores 256, 512 1024 y 2048).

9.3 Aplicación de diferentes métodos de estimación espectral | 44

METODOS

Capítulo 9

9.4 Cálculo de correlaciones espectrales. Una vez realizadas las estimaciones espectrales pasamos a correlacionarlas mediante otros 9 programas, uno por cada método, desarrollados para ello. Se obtienen las correlaciones lineales de Pearson entre pares de señales espectrales generándose un archivo Excel que almacena, para cada uno de los 30 canales en que se divide cada cocleograma, 903 correlaciones entre pares de señales, lo que suponen 27.090 comparaciones por método y parámetros de Matlab seleccionados. Las correlaciones no se han obtenido para todos los puntos de las PSD calculadas, pues si se observan las colas finales en las imágenes anteriores queda patente que hay una amplia región en la que los valores son prácticamente ceros. Ello implicaría un aumento en la similitud de las señales.

9.5 Estudio de la validez de las estimaciones espectrales realizadas para el reconocimiento de locutores mediante curvas ROC. La validación de las citadas 903 correlaciones entre pares de señales para que nos permitan dirimir si dos señales de audio pertenecen o no al mismo locutor se ha realizado mediante la obtención de Curvas Roc para cada uno de los métodos y conjunto de parámetros de Matlab con los que se ha trabajado.

9.5 Estudio de la validez de las estimaciones espectrales realizadas | 45

CAPÍTULO 10: RESULTADOS

RESULTADOS

Capítulo 10

CAPÍTULO 10: RESULTADOS 10.1 Señales temporales obtenidas Partiendo de la base de datos AHUMADA se han obtenido 22 señales del primer locutor en las que pronuncia “UNO” y otras 21 señales del segundo locutor de esa base de datos en las que también pronuncia “UNO”, todas ellas procedentes de grabación microfónica.

10.2 Cocleogramas obtenidos La representación de la señal acústica en el potencial receptor de las células ciliadas internas, cocleograma, tiene la representación que se muestra en la Figura 10.1. Las frecuencias están relacionadas con el Canal referido en el capítulo anterior. Se puede observar, lo cual sucede en todos ellos, que hay un desfase inicial de unos 20 milisegundos debido al retraso introducido por el modelo auditivo. Este tramo es despreciado a la hora de la obtención de la PSD.

Figura 10.1 Representación de un COCLEOGRAMA para la palabra “UNO”

10.2 Cocleogramas obtenidos | 46

RESULTADOS

Capítulo 10

10.3 Estimaciones espectrales obtenidas. Las estimaciones espectrales tienen siempre la mitad de puntos que la longitud de la FFT seleccionada para su cálculo. Vamos a representar únicamente los últimos diez canales obtenidos a partir de esos mismos canales de un cocleograma, pues es estos en los que los resultados que vamos buscando se han mostrado mejores. Mostramos aquí algunas de las estimaciones espectrales que con los diferentes métodos se han obtenido para los cocleogramas:

Figura 10.2 PSD obtenida mediante el Método Burg con orden 2 y longitud de la FFT 512

Figura 10.3 PSD obtenida mediante el Método Covarianza con orden 2 y longitud de la FFT 256

10.3 Estimaciones espectrales obtenidas | 47

RESULTADOS

Capítulo 10

Figura 10.4 PSD obtenida mediante el Método Periodograma

Figura 10.5 PSD obtenida mediante el Método Music con número de sinusoides de ruido blanco 12 y longitud de la FFT 256

Figura 10.6 PSD obtenida mediante el Método Burg con solapamiento 256 y longitud de la FFT 512

10.3 Estimaciones espectrales obtenidas | 48

RESULTADOS

Capítulo 10

10.4 Correlaciones espectrales obtenidas Las correlaciones no se han obtenido para todos los puntos de las PSD calculadas, pues si se observan las colas finales en las imágenes anteriores queda patente que hay una amplia región en la que los valores son prácticamente ceros. Ello implicaría un aumento en la similitud de las señales que nos falsearía los resultados. Por otro lado, tal y como se ha indicado en el apartado 9.4, se han realizado 27.090 comparaciones por método y parámetros de Matlab seleccionados, siendo los resultados más interesantes los obtenidos para el Canal 22 mediante el método MUSIC, con valor 12 para el número de sinusoides de ruido blanco, longitudes de la FFT con valores 256 y 512. A continuación se muestran las tablas correspondientes a dichas correlaciones espectrales. En sombreado gris se muestran los autos o correlaciones realizadas intralocutores mientras que sin sombreado los cruzados o correlaciones interlocutores. Se muestran correlaciones para 12 señales del primer locutor y 11 para el segundo locutor, dada la imposibilidad de escribir la tabla completa.

1,00 0,98 0,93 0,95 0,91 0,86 0,85 0,99 0,92 1,00 0,95 0,63 0,27 0,21 0,18 0,30 0,17 0,14 0,21 0,03 0,09 0,00 0,01

0,98 1,00 0,97 0,98 0,91 0,94 0,91 0,96 0,98 0,98 0,97 0,63 0,17 0,11 0,10 0,20 0,09 0,07 0,11 0,02 0,02 0,04 0,04

0,93 0,97 1,00 1,00 0,79 0,90 0,98 0,92 0,95 0,92 0,99 0,46 0,05 0,00 0,00 0,08 0,01 0,02 0,01 0,08 0,06 0,09 0,09

0,95 0,98 1,00 1,00 0,83 0,92 0,97 0,94 0,97 0,94 0,99 0,51 0,07 0,02 0,02 0,11 0,00 0,00 0,03 0,08 0,05 0,08 0,09

0,91 0,91 0,79 0,83 1,00 0,86 0,70 0,88 0,89 0,93 0,79 0,88 0,44 0,40 0,37 0,48 0,36 0,34 0,39 0,21 0,27 0,17 0,17

0,86 0,94 0,90 0,92 0,86 1,00 0,89 0,82 0,97 0,86 0,88 0,63 0,09 0,04 0,05 0,12 0,03 0,03 0,05 0,06 0,02 0,05 0,06

0,85 0,91 0,98 0,97 0,70 0,89 1,00 0,82 0,91 0,83 0,96 0,39 0,01 0,05 0,04 0,02 0,05 0,06 0,04 0,11 0,09 0,10 0,11

0,99 0,96 0,92 0,94 0,88 0,82 0,82 1,00 0,90 0,99 0,95 0,59 0,23 0,17 0,14 0,27 0,13 0,11 0,17 0,01 0,06 0,02 0,01

0,92 0,98 0,95 0,97 0,89 0,97 0,91 0,90 1,00 0,93 0,94 0,63 0,08 0,03 0,04 0,12 0,02 0,02 0,04 0,06 0,03 0,07 0,07

1,00 0,98 0,92 0,94 0,93 0,86 0,83 0,99 0,93 1,00 0,94 0,66 0,27 0,21 0,18 0,30 0,17 0,15 0,21 0,05 0,09 0,01 0,02

0,95 0,97 0,99 0,99 0,79 0,88 0,96 0,95 0,94 0,94 1,00 0,46 0,06 0,01 0,01 0,10 0,01 0,01 0,02 0,08 0,05 0,09 0,09

0,63 0,63 0,46 0,51 0,88 0,63 0,39 0,59 0,63 0,66 0,46 1,00 0,65 0,62 0,62 0,68 0,61 0,60 0,63 0,46 0,54 0,42 0,43

0,27 0,17 0,05 0,07 0,44 0,09 0,01 0,23 0,08 0,27 0,06 0,65 1,00 0,99 0,98 1,00 0,98 0,95 0,99 0,85 0,92 0,76 0,80

0,21 0,11 0,00 0,02 0,40 0,04 0,05 0,17 0,03 0,21 0,01 0,62 0,99 1,00 0,97 0,99 0,97 0,93 0,99 0,83 0,90 0,71 0,77

0,18 0,10 0,00 0,02 0,37 0,05 0,04 0,14 0,04 0,18 0,01 0,62 0,98 0,97 1,00 0,97 1,00 0,99 0,99 0,92 0,98 0,86 0,90

0,30 0,20 0,08 0,11 0,48 0,12 0,02 0,27 0,12 0,30 0,10 0,68 1,00 0,99 0,97 1,00 0,97 0,93 0,99 0,83 0,90 0,73 0,77

0,17 0,09 0,01 0,00 0,36 0,03 0,05 0,13 0,02 0,17 0,01 0,61 0,98 0,97 1,00 0,97 1,00 0,99 0,99 0,93 0,98 0,87 0,90

0,14 0,07 0,02 0,00 0,34 0,03 0,06 0,11 0,02 0,15 0,01 0,60 0,95 0,93 0,99 0,93 0,99 1,00 0,97 0,96 0,99 0,91 0,94

0,21 0,11 0,01 0,03 0,39 0,05 0,04 0,17 0,04 0,21 0,02 0,63 0,99 0,99 0,99 0,99 0,99 0,97 1,00 0,89 0,95 0,80 0,85

0,03 0,02 0,08 0,08 0,21 0,06 0,11 0,01 0,06 0,05 0,08 0,46 0,85 0,83 0,92 0,83 0,93 0,96 0,89 1,00 0,98 0,95 0,98

0,09 0,02 0,06 0,05 0,27 0,02 0,09 0,06 0,03 0,09 0,05 0,54 0,92 0,90 0,98 0,90 0,98 0,99 0,95 0,98 1,00 0,94 0,97

0,00 0,04 0,09 0,08 0,17 0,05 0,10 0,02 0,07 0,01 0,09 0,42 0,76 0,71 0,86 0,73 0,87 0,91 0,80 0,95 0,94 1,00 0,99

0,01 0,04 0,09 0,09 0,17 0,06 0,11 0,01 0,07 0,02 0,09 0,43 0,80 0,77 0,90 0,77 0,90 0,94 0,85 0,98 0,97 0,99 1,00

Tabla 10.1 Correlación de Periodogramas obtenidos mediante el método MUSIC con valor 12 para el número de sinusoides de ruido blanco y 256 para la longitud de la FFT

10.4 Correlaciones espectrales obtenidas | 49

RESULTADOS

1,00 0,97 0,93 0,94 0,90 0,78 0,86 0,99 0,89 1,00 0,93 0,37 0,06 0,00 0,04 0,08 0,05 0,13 0,01 0,25 0,14 0,20 0,19

0,97 1,00 0,96 0,98 0,89 0,90 0,93 0,94 0,98 0,97 0,94 0,34 0,09 0,15 0,16 0,08 0,18 0,24 0,15 0,34 0,25 0,27 0,27

0,93 0,96 1,00 1,00 0,76 0,82 0,98 0,93 0,94 0,93 0,99 0,18 0,15 0,21 0,21 0,14 0,22 0,27 0,20 0,32 0,26 0,26 0,26

Capítulo 10

0,94 0,98 1,00 1,00 0,79 0,83 0,98 0,94 0,95 0,94 0,99 0,20 0,16 0,22 0,22 0,15 0,23 0,28 0,21 0,35 0,28 0,27 0,28

0,90 0,89 0,76 0,79 1,00 0,84 0,70 0,83 0,84 0,89 0,73 0,70 0,21 0,16 0,12 0,23 0,10 0,01 0,15 0,18 0,02 0,11 0,10

0,78 0,90 0,82 0,83 0,84 1,00 0,81 0,71 0,96 0,78 0,74 0,40 0,17 0,22 0,20 0,16 0,22 0,27 0,20 0,36 0,27 0,26 0,27

0,86 0,93 0,98 0,98 0,70 0,81 1,00 0,86 0,92 0,86 0,96 0,14 0,19 0,24 0,22 0,18 0,24 0,27 0,23 0,31 0,27 0,25 0,26

0,99 0,94 0,93 0,94 0,83 0,71 0,86 1,00 0,85 0,99 0,95 0,27 0,01 0,05 0,09 0,02 0,10 0,17 0,06 0,27 0,18 0,22 0,22

0,89 0,98 0,94 0,95 0,84 0,96 0,92 0,85 1,00 0,89 0,89 0,29 0,24 0,30 0,29 0,23 0,30 0,36 0,29 0,43 0,36 0,33 0,35

1,00 0,97 0,93 0,94 0,89 0,78 0,86 0,99 0,89 1,00 0,93 0,34 0,02 0,04 0,08 0,04 0,09 0,16 0,05 0,28 0,18 0,23 0,22

0,93 0,94 0,99 0,99 0,73 0,74 0,96 0,95 0,89 0,93 1,00 0,14 0,14 0,20 0,20 0,13 0,21 0,26 0,19 0,31 0,26 0,25 0,26

0,37 0,34 0,18 0,20 0,70 0,40 0,14 0,27 0,29 0,34 0,14 1,00 0,57 0,54 0,55 0,58 0,53 0,45 0,55 0,22 0,42 0,29 0,31

0,06 0,09 0,15 0,16 0,21 0,17 0,19 0,01 0,24 0,02 0,14 0,57 1,00 0,99 0,98 1,00 0,97 0,93 0,99 0,81 0,91 0,70 0,78

0,00 0,15 0,21 0,22 0,16 0,22 0,24 0,05 0,30 0,04 0,20 0,54 0,99 1,00 0,96 0,99 0,96 0,92 0,99 0,79 0,89 0,66 0,74

0,04 0,16 0,21 0,22 0,12 0,20 0,22 0,09 0,29 0,08 0,20 0,55 0,98 0,96 1,00 0,96 1,00 0,99 0,99 0,90 0,97 0,82 0,88

0,08 0,08 0,14 0,15 0,23 0,16 0,18 0,02 0,23 0,04 0,13 0,58 1,00 0,99 0,96 1,00 0,96 0,91 0,99 0,78 0,89 0,67 0,74

0,05 0,18 0,22 0,23 0,10 0,22 0,24 0,10 0,30 0,09 0,21 0,53 0,97 0,96 1,00 0,96 1,00 0,99 0,99 0,90 0,98 0,82 0,89

0,13 0,24 0,27 0,28 0,01 0,27 0,27 0,17 0,36 0,16 0,26 0,45 0,93 0,92 0,99 0,91 0,99 1,00 0,96 0,95 1,00 0,89 0,93

0,01 0,15 0,20 0,21 0,15 0,20 0,23 0,06 0,29 0,05 0,19 0,55 0,99 0,99 0,99 0,99 0,99 0,96 1,00 0,85 0,94 0,75 0,83

0,25 0,34 0,32 0,35 0,18 0,36 0,31 0,27 0,43 0,28 0,31 0,22 0,81 0,79 0,90 0,78 0,90 0,95 0,85 1,00 0,97 0,93 0,97

0,14 0,25 0,26 0,28 0,02 0,27 0,27 0,18 0,36 0,18 0,26 0,42 0,91 0,89 0,97 0,89 0,98 1,00 0,94 0,97 1,00 0,91 0,96

0,20 0,27 0,26 0,27 0,11 0,26 0,25 0,22 0,33 0,23 0,25 0,29 0,70 0,66 0,82 0,67 0,82 0,89 0,75 0,93 0,91 1,00 0,98

0,19 0,27 0,26 0,28 0,10 0,27 0,26 0,22 0,35 0,22 0,26 0,31 0,78 0,74 0,88 0,74 0,89 0,93 0,83 0,97 0,96 0,98 1,00

Tabla 10.2 Correlación de Periodogramas obtenidos mediante el método MUSIC con valor 12 para el número de sinusoides de ruido blanco y 512 para la longitud de la FFT

A simple vista se puede observar que los valores de las correlaciones entre autos son significativamente superiores a los cruzados. Sin embargo, en el apartado siguiente se realiza un estudio más riguroso de estos resultados.

10.5 Validez de las estimaciones espectrales obtenidas para el reconocimiento de locutores mediante curvas ROC Centrándonos en los resultados anteriores, y que además son los que aparentemente ofrecen mejores perspectivas, hemos realizado los siguientes estudios mediante el análisis de curvas ROC utilizando un programa MATLAB:

1. Método MUSIC_12_256

ROC CURVE ANALYSIS AUC

S.E.

0.99637

0.00389

95% C.I. 0.98874

1.00000

Comment Excellent test

Cut-off point for best Sensitivity and Specificity (blue circle in plot)= 0.6191 In the ROC plot, the cut-off point is the closest to [0,1] point or, if you want, the closest to the green line.

10.5 Validez de las estimaciones espectrales realizadas | 50

RESULTADOS

Capítulo 10

ROC curve Random classifier Cut-off point

ROC curve Random classifier Cut-off point Mirrored ROC curve 1 True positive rate (Sensitivity)

True positive rate (Sensitivity)

ROC curve 1 0.8 0.6 0.4 0.2 0 0 0.5 1 False positive rate (1-Specificity)

0.8 0.6 0.4 0.2 0

0.5 1 True negative rate (Specificity)

Figura 10.7 Curva ROC para correlaciones obtenidas mediante el Método Music con número de sinusoides de ruido blanco 12 y longitud de la FFT 256

PARTEST GRAPH

Parameters proportion

False Negative True Positive (Sensibility) True Negative (Specificity) False Positive

0.8 0.6 0.4 0.2 0 0

0.2 0.4 0.6 0.8 Subjects proportion

Figura 10.8 Representación de la matriz de confusión para correlaciones obtenidas mediante el Método Music con número de sinusoides de ruido blanco 12 y longitud de la FFT 512

Prevalence: 47.8% Sensitivity (probability that test is positive on unhealthy subject): 95.9%

10.5 Validez de las estimaciones espectrales realizadas | 51

RESULTADOS

CapĂtulo 10

95% confidence interval: 92.3% - 99.4% False positive proportion: 4.1% Specificity (probability that test is negative on healthy subject): 97.0% 95% confidence interval: 94.0% - 99.9% False negative proportion: 3.0% Youden's Index (a perfect test would have a Youden index of +1): 0.9284 Accuracy or Potency: 96.4% Mis-classification Rate: 3.6% Predictivity of positive test (probability that a subject is unhealthy when test is positive): 96.7% 95% confidence interval: 93.5% - 99.9% Positive Likelihood Ratio: 31.6 Large (often conclusive) increase in possibility of disease presence Predictivity of negative test (probability that a subject is healthy when test is negative): 96.2% 95% confidence interval: 93.0% - 99.5% Negative Likelihood Ratio: 0.0 Large (often conclusive) increase in possibility of disease absence Error odds ratio: 0.7250 Diagnostic odds ratio: 742.4000 Discriminant Power: 3.6 A test with a discriminant value of 1 is not effective in discriminating between affected and unaffected individuals. A test with a discriminant value of 3 is effective in discriminating between affected and unaffected individuals. Test bias: 0.9917 Test underestimates the phenomenon

10.5 Validez de las estimaciones espectrales realizadas | 52

RESULTADOS

Capítulo 10

Number needed to Diagnose (NDD): 1.1 Como resumen a todos estos resultados indicar que para valores de la correlación superiores a 0.6191 podríamos aceptar que el cotejo corresponde al mismo locutor, es decir, que se verifica la identidad de dicho individuo con una predictividad del 96.7 % pudiendo clasificarse el test de excelente.

2. Método MUSIC_12_512

ROC CURVE ANALYSIS AUC

S.E.

0.97039

0.01114

95% C.I. 0.94855

0.99222

Comment Excellent test

Cut-off point for best Sensitivity and Specificity (blue circle in plot)= 0.5720 In the ROC plot, the cut-off point is the closest to [0,1] point or, if you want, the closest to the green line

ROC curve Random classifier Cut-off point

0.8 0.6 0.4 0.2 0 0 0.5 1 False positive rate (1-Specificity)

Mirrored ROC curve 1 True positive rate (Sensitivity)

True positive rate (Sensitivity)

ROC curve 1

0.8 0.6 0.4 0.2 0

0.5 1 True negative rate (Specificity)

Figura 10.9 Curva ROC para correlaciones obtenidas mediante el Método Music con número de sinusoides de ruido blanco 12 y longitud de la FFT 512

10.5 Validez de las estimaciones espectrales realizadas | 53

RESULTADOS

Capítulo 10

PARTEST GRAPH

Parameters proportion

False Negative True Positive (Sensibility) True Negative (Specificity) False Positive

0.8 0.6 0.4 0.2 0 0

0.2 0.4 0.6 0.8 Subjects proportion

Figura 10.10 Representación de la matriz de confusión para correlaciones obtenidas mediante el Método Music con número de sinusoides de ruido blanco 12 y longitud de la FFT 512

Prevalence: 47.8% Sensitivity (probability that test is positive on unhealthy subject): 91.7% 95% confidence interval: 86.8% - 96.6% False positive proportion: 8.3% Specificity (probability that test is negative on healthy subject): 99.2% 95% confidence interval: 97.8% - 100.0% False negative proportion: 0.8% Youden's Index (a perfect test would have a Youden index of +1): 0.9098 Accuracy or Potency: 95.7% Mis-classification Rate: 4.3% Predictivity of positive test (probability that a subject is unhealthy when test is positive): 99.1% 95% confidence interval: 97.4% - 100.0% Positive Likelihood Ratio: 121.1

10.5 Validez de las estimaciones espectrales realizadas | 54

RESULTADOS

Capítulo 10

Large (often conclusive) increase in possibility of disease presence Predictivity of negative test (probability that a subject is healthy when test is negative): 92.9% 95% confidence interval: 88.7% - 97.1% Negative Likelihood Ratio: 0.1 Large (often conclusive) increase in possibility of disease absence Error odds ratio: 0.0847 Diagnostic odds ratio: 1454.1000 Discriminant Power: 4.0 A test with a discriminant value of 1 is not effective in discriminating between affected and unaffected individuals. A test with a discriminant value of 3 is effective in discriminating between affected and unaffected individuals. Test bias: 0.9256 Test underestimates the phenomenon Number needed to Diagnose (NDD): 1.1

El resumen de estos resultados es que para valores de la correlación superiores a 0.5720 podríamos aceptar que el cotejo corresponde al mismo locutor, es decir, que se verifica la identidad de dicho individuo con una predictividad del 99.1 % lo que permite clasificar el test de excelente.

10.5 Validez de las estimaciones espectrales realizadas | 55

CAPÍTULO 11: CONCLUSIONES Y LÍNEAS FUTURAS

CONCLUSIONES Y LINEAS FUTURAS

Capítulo 11

CAPÍTULO 11: CONCLUSIONES Y LINEAS FUTURAS Llegados a este punto, donde ya se ha realizado un estudio para la comprensión técnica del proyecto, y donde se han realizado todos los programas y simulaciones pertinentes y donde hemos además visto cuales son las prestaciones de todos los métodos de estimación espectral para ser aplicados a nuestras señales temporales en estudio, toca el turno ahora, a modo de resumen de sacar unas últimas conclusiones a todo ello. Además, se plantearán una serie de futuras líneas de investigación relacionadas con este proyecto que supuestamente lo mejorarían y complementarían, y que no se han realizado pues correspondería a un trabajo de investigación mucho más amplio, largo y para un grupo entero de trabajo, no para un trabajo de iniciación como es una Tesis de Máster.

11.1 Conclusiones En este apartado resumimos los aspectos más importantes, que nos merecen una especial mención, de todo el estudio realizado, en la siguiente lista de conclusiones: Lo primero y más importante es ver que, dada la finalidad de este proyecto, que es la extracción de características espectrales para un posterior reconocimiento de locutores, parecería obvio pensar que serían de mayor utilidad en esta tarea los métodos de estimación espectral paramétricos frente a los métodos clásicos, ya que éstos últimos producen un mayor número de parámetros sin tener como consecuencia una mejora del espectro. Sin embargo, en los casos estudiados no ha sido así. En segundo lugar pudimos observar que en casi todos los casos tratados las modificaciones de los parámetros variables de Matlab (orden, longitud FFT, etc) no han mejorado sustancialmente las correlaciones. En tercer lugar, y dadas las experiencias prácticas obtenidas, parece ser que el mejor modelo para comparar espectralmente una señal desconocida, es el modelo MUSIC, aunque no para todos los canales. En cuarto lugar decir que los parámetros de coherencia nos ofrecen una información relevante en nuestro estudio, ya que nos posibilitan interrelacionar linealmente la información de los distintos canales entre sí.

11.1 Conclusiones | 56

CONCLUSIONES Y LINEAS FUTURAS

Capítulo 11

En quinto y último lugar señalar que, dado el elevado número de métodos de estimación espectral distintos planteados en este proyecto y dados los resultados obtenidos con ellos, este trabajo se convierte en un documento de inicio para una investigación más amplia.

11.2 Líneas futuras de investigación Hemos visto a lo largo de este proyecto, cómo la estimación espectral es una tarea laboriosa y, a veces, compleja. Además requiere de un amplio conocimiento de la señal a tratar y exige al que la estudia, un gran conocimiento y dominio en un numeroso conjunto de algoritmos y términos similares entre sí. Pero dada su potencial utilidad, se puede convertir en una herramienta muy útil para el reconocimiento de locutores. En este proyecto se han abordado numerosos métodos y se han obtenido resultados muy dispares, aunque se han alcanzado los objetivos marcados que eran una primera aproximación a la estimación espectral en sus múltiples formas. Así pues, una vez concluido el trabajo de este proyecto, nos planteamos ahora qué partes son mejorables, y en qué nuevos campos podría ser aplicado, para así determinar cuáles podrían ser las nuevas líneas de investigación futuras basadas en él. De este modo podemos señalar para un estudio posterior los siguientes aspectos: 

Estudio más en profundidad de los métodos de estimación espectral que inicialmente no han dado buenos resultados.



Optimización temporal de los programas aquí planteados, bajando la carga computacional.



Trabajo con señales reales y no de “laboratorio”.

11.2 Líneas futuras de investigación | 57

CAPÍTULO 12: BIBLIOGRAFÍA

BIBLIOGRAFÍA

Capítulo 12

CAPÍTULO 12: BIBLIOGRAFÍA Altman, D., & Bland, J. (1994:308). "Statistics Notes: DIagnostic test 1: sensitivity and specificity". BMJ, 1552. Altman, D., & Bland, J. (1994:309). "Statistics Notes: Diagnostic test 3: receiver operating characteristic plots". BMJ, 188. Altman, D., & Bland, J. (1994:309). "Statistics Notes: Diagnostic tests 2: predictive values". BMJ, 102. Burgueño, M., García Bastos, J., & González Buitrago, J. (1995:104). “Las curvas ROC en la evaluación de las pruebas diagnósticas. Med Clin, 661-670. Delgado Romero, C. (s.f.). "Comentarios sobre el contexto actual de la identificación forense de locutores". Franco Nicolás, M., & Vivo Molina, J. (2007). "Análisis de curvas ROC. Principios básicos y aplicaciones". La Muralla. García López, J. (2007). "Procesamiento Digital de Señales". López-Poveda, E., & Meddis, R. (2005). "Oído artificial". Mente y cerebro. López-Poveda, E., & Ramón García, J.L. & Garcerán Hernández, V. (2008). “Sistemas Bioinspirados de Análisis de Voz”, Ref. CIT-390000-2005-4, Ministerio de Educación y Ciencia, Programa de Fomento de la Investigación Técnica (PROFIT). Pepe, M.S. (2003). The statistical evaluation of medical tests for classification and prediction. Oxford. Proakis, J., & Manolakis, D. (s.f.). "Tratamiento Digital de Señales". MacGraw Hill. Soria, E. & Martínez, M. & Francés, J.V. & Camps, G. (2003) “Tratamiento Digital de Señales”. Pearson Educación. Turell, M. (2005). "Linguística forense, lengua y derecho: conceptos, métodos y aplicaciones". Documenta Universitaria. Zou KH, O'Malley AJ, Mauri L. (2007). “Receiver-operating characteristic analysis for evaluating diagnostic tests and predictive models”. Circulation, 6;115(5):654-7

12 Bibliografía | 58