Revista Ciencia y Tecnologia 2da Edicion by Jose luis chi mendez

Red Neuronal Artificial para la Clasificación Semantica de Atributos en Bases de Datos Heterogéneas

Investigación

2. Preliminares

n sistema de bases de datos heterogéneas o “Heterogeneous DataBase System” (HDBS) consiste en la creación de modelos computacionales que ofrezcan una interfaz uniforme de consultas a datos recolectados y almacenados en múltiples bases de datos heterogéneas [6]. En [5] los autores utilizaron las siguientes tecnologías: Bases de datos Heterogéneas, Agentes Computacionales, la Especificación XML, para solventar el problema de integración estructural en bases de datos relacionales heterogéneas. De donde se deriva el problema de la identificación de la similitud existente entre los datos de dos esquemas de bases de bases de datos diferentes. Definiéndose como E1(R1(A1,A2,...,An)) y E2(R1(A1,A2,...,An)). Donde E es el esquema de base de datos, R es la relación y A son los atributos que contienen los datos a identificar la similitud. Para identificar la similitud entre dos objetos llamados O1 e R1 e E1 y O2 e R1 e E2, es necesario obtener la estructura de cada una de las Relaciones (R), para después implementar el algoritmo de RNA Backpropagation.

Donde ηi representa el i-ésimo parámetro de aprendizaje, mientras que es normalmente un número positivo que representa la constante momentum. Una vez actualizados los pesos re calcula los valores de las ecuaciones 1, 2 y 3 hasta que el error es reducido a un valor preseleccionado o se cumple algún criterio de paro dado. 3. Planteamiento del Problema

iversos [1] [4] investigadores comentan que destacan cuatro problemas importantes a resolver para lograr la integración de diversas fuentes de datos: Conflictos de Heterogeneidad, Conflictos Semánticos, Conflictos Descriptivos y Conflictos Estructurales. Se resume en tres niveles; físico, sintáctico y semántico. Dentro de los conflictos de semántica, están los de homónimos y sinónimos, así como conflictos de unidades de representación de datos, también [7] agrega que es importante identificar la correspondencia de atributos para lograr la interoperabilidad en bases de datos heterogéneas, utiliza una red neuronal tipo backpropagation para identificar la correspondencia de los atributos de dos fuentes de datos, obteniendo una precisión de clasificación del 87.5%.

neti=Wiyi-1 Yi=fi(neti)

(1)

Donde neti son las entradas para la i-ésima capa de la red neuronal, mientras que yi son las salidas de la i-ésima capa, Yi es la i-ésima función de activación empleada. La propagación hacia atrás se obtiene de las ecuaciones: Fig. 1. Procesos y estados del algoritmo propuesto..

δ1=(W2Tδ2)*f1’(net1) δ2=(d-y2)*f2’(net2)

Donde d el vector de salidas deseado, δ1 y δ2 son los errores propagados. Las matrices del gradiente del error son obtenidas mediante las derivadas parciales con respecto a Wi y los pesos para W1 y W2 son actualizados mediante la

ΔWi (t + 1) = -η

δE Wi

+ α i ΔWi (t ), para t = 1.2

n la Fig. 1, muestra el esquema del proceso a seguir por el clasificador propuesto, como primer paso se parte de una o varias fuentes de datos, un agente computacional es el responsable de obtener la estructura de las relaciones con las cuales el usuario desea interactuar, los datos obtenidos se procesan y se obtiene una codificación binaria la cual es analizada y filtrada por una red neuronal de tipo retro propagación para obtener una clasificacion entre

Octubre - Diciembre de 2010

El algoritmo de aprendizaje proporciona una forma de entrenar una red multicapa, inicia con un vector de entrada y0 y valores iníciales para el vector W que son seleccionados aleatoriamente. Se realiza la propagación hacia adelante calculando los valores neti y Yi de acuerdo a las siguientes ecuaciones: