Issuu on Google+

i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 1 — #1

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 2 — #2

i

i

Revista Elementos Elementos ISSN 2027-923X Revista Académica Institución Universitaria Politécnico Grancolombiano. Miembro de American University System. No. 1 Junio de 2011 Rector Pablo Michelsen Niño Vicerrector Académico Fernando Dávila Ladrón de Guevara Facultad de Ingeniería y Ciencias Básicas Rafael Armando García Gómez Director Revista Elementos Rafael Armando García Gómez Coordinación Editorial Efraín Moreno Sarmiento Hugo Eduardo Ramírez Jaime Editorial Politécnico Grancolombiano Editor Eduardo Norman Acevedo Coordinador de producción David Ricciulli Duarte Diseño y armada electrónica Jaime Andrés Posada Restrepo Corrección de estilo Nydia Patricia Gutiérrez Ilustraciones Carlos Bermúdez Carátula Santiago Arciniegas Impresión Cargraphics S.A. Traducciones Departamento de Idiomas Raquel Breton de Schultze-Kraft Andrea Ladino Castillo Comité Científico y Editorial Mauricio Ayala Universidade de Brasília

Brasil ayala@unb.br Gabriela Barrantes Universidad de Costa Rica Costa Rica gabriela.barrantes@ecci.ucr.ac.cr Walter Bender Sugarlabs Estados Unidos walter@sugarlabs.org Luis Cáceres Universidad Tarapacá de Arica Chile lcaceres@uta.cl Jonice de Oliveira Sampaio Universidade Federal do Rio de Janeiro Brasil jonice@dcc.ufrj.br Fabio González Universidad Nacional de Colombia Colombia fgonzalezo@unal.edu.co Alexis Irlande Université Blaise Pascal Francia airlande@unal.edu.co Hermann Mena Escuela Politécnica Nacional Ladrón de Guevara Ecuador hermann.mena@epn.edu.ec César Muñoz National Aeronautics and Space Administration, NASA Estados Unidos cesar.a.munoz@nasa.gov Carlos Paternina Fundación Universidad del Norte Colombia cpaterni@uninorte.edu.co César Quiñones Politécnico Grancolombiano Colombia caquinones@poli.edu.co Jairo Rocha Universitat de les Illes Balears España jairo@uib.es

Las opiniones expresadas en cada uno de los artículos son de exclusiva responsabilidad de los autores. Versión electrónica: www.poligran.edu.co/editorial

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 3 — #3

i

i

Índice general

Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

A new generic class of Frankl’s families . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pierre Colomb, Alexis Irlande, Olivier Raynaud, Yoan Renaud

9

Multiplexing schemes for homomorphic cryptosystems . . . . . . . . . . . . . . . . . Juan Camilo Corena, Jaime Andrés Posada

21

Inflación colombiana pronosticada con un VAR bayesiano . . . . . . . . . . . . . . Norberto Rodríguez Niño

35

Métodos de inferencia estadística para entrenamiento de modelos ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ricardo Antonio Mendoza León

57

Enseñanza de programación en el Politécnico Grancolombiano. Situación actual y aplicación de TIC como alternativa de mejora . . . . . . . . . . . . . . . . . Nicolás Malaver, Camilo Rey, Julián Rodríguez

73

Revisión del estado del arte en modelos de localización y relocalización de vehículos para atención de emergencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . Oscar Javier Parra Ortega

85

El aprendizaje comprensivo como soporte de la formación básica en matemáticas. Una aproximación desde el trabajo investigativo en educación matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Edgar Alberto Barón Poveda, Hugo Edver Zamora Coronado LabVIEW y la instrumentación virtual aplicados a la docencia y la investigación en ciencias básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 César Quiñones, Miguel Bernal

Reseñas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 4 — #4

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 5 — #5

i

i

Editorial

Para la Facultad de Ingeniería y Ciencias Básicas del Politécnico Grancolombiano es un honor y placer presentar a la Comunidad Académica la Revista Elementos. La palabra elementos trae a la memoria y a la imaginación, sin necesidad de acudir a conjuros e invocaciones, múltiples objetos y conceptos: • El tratado de Euclides compuesto por trece libros donde se compila buena parte del conocimiento matemático del siglo III a.C. • Los principios que, según los antiguos, constituyen los cuerpos: tierra, agua, aire y fuego. • Los medios en que habitan los seres vivos. • Las sustancias que, constituidas por átomos, forman todos los cuerpos y cuya información básica se encuentra consignada en la Tabla Periódica. • Las fuerzas naturales capaces de alterar las condiciones atmosféricas o climáticas. • Los miembros individuales que constituyen un conjunto. Si bien la anterior relación no es exhaustiva, si enumera algunos de los referentes que dan nombre a esta revista. Elementos es una revista científica de carácter internacional que centra su atención en los temas relacionados con Ingeniería y Ciencias Básicas; publica artículos originales de investigación, revisión y notas técnicas que pretendan divulgar resultados de trabajos de investigación pura, aplicada o formativa en las áreas de interés. Así las cosas, Elementos es, de manera natural, un foro de divulgación y discusión académica y científica. Después de iterar mediante un proceso de evaluación por pares sobre los múltiples documentos recibidos, la Revista Elementos, pone a consideración ocho artículos producto de procesos de investigación en las áreas de interés: 1. La conjetura de Frankl establece que en una familia no vacía de conjuntos F, cerrada para la unión, existe un elemento que pertenece por lo menos a la mitad de los conjuntos. En A new generic class of Frankl’s families, P. Colomb, A. Irlande, O. Raynaud y Y. Renaud presentan una nueva clase de familias de Frankl, logran establecer el tamaño de esta clase para los primeros 6 valores de n y muestran que no coincide con ninguna de las clases de Frankl previamente conocidas. 2. En el segundo artículo, Multiplexing schemes for homomorphic cryptosystems, J. Corena y J. Posada, presentan dos esquemas seguros de multiplexación y demultiplexación que usan propiedades homomórficas de los criptosistemas de llave pública conocidos. Los dos sistemas propuestos pueden ser utilizados en casos en los que el anonimato de los individuos es crucial.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 6 — #6

i

i

Revista Elementos - Número 1 - Junio de 2011 3. En el artículo Inflación colombiana pronosticada con un VAR bayesiano, N. Rodríguez presenta los resultados de una aplicación de la estimación y pronóstico de modelos de Vectores Autorregresivos usando técnicas Bayesianas (BVAR), para la inflación anual colombiana. Compara los resultados del uso de diversas especificaciones y de priors, y selecciona – de acuerdo con la bondad de pronóstico – los hiperparámetros de las prior. Seguidamente, para las especificaciones seleccionadas, compara la bondad de pronóstico de la inflación anual generada por los modelos BVAR contra el de una caminata aleatoria univariada, y contra los de modelos VAR convencionales. Los resultados muestran que los modelos BVAR mejoran a los resultados de los VAR análogos, logrando reducciones de hasta 72.8 % en la Raíz del Error Cuadrático Medio de Pronóstico (RECMP). 4. R. Mendoza presenta un revisión general de las diversas aproximaciones y métodos de inferencia estadística aplicados al problema de ajuste de parámetros en modelos ocultos de Markov. En Métodos de inferencia estadística para entrenamiento de modelos ocultos de Markov se tratan los algoritmos EM (Expectation Maximization) y GEM (Generalized Expectation Maximization), el marco de modelos gráficos y sus algoritmos ML (Maximum Likelihood) y MAP (Maximum a Posteriori), así como modelos de conjunto, variacionales y métodos de muestreo MCMC (Markov Chain Montecarlo). 5. En el artículo Enseñanza de programación en el Politécnico Grancolombiano. Situación actual y aplicación de TIC como alternativa de mejora, N. Malaver, C. Rey y J. Rodríguez abordan el problema de la enseñanza de la programación de computadoras utilizando TIC. El documento presenta, en el contexto del Politécnico Grancolombiano, el caso de estudio de la utilización de una herramienta de software para la enseñanza de los conceptos básicos de programación. 6. En Revisión del estado del arte en modelos de localización y relocalización de vehículos para atención de emergencias, O. Parra presenta lo anunciado presentando cronológicamente los desarrollos en el tema. Se presentan entonces los diversos modelos, su desarrollo en el tiempo, aplicaciones y casos de estudio. 7. El aprendizaje comprensivo como soporte de la formación básica en matemáticas es un documento donde E. Barón y H. Zamora presentan, en primer lugar una reflexión en torno a la forma en que es entendida la escolarización del conocimiento matemático desde la enseñanza y cómo desde el aprendizaje, y, en en segunda instancia, un acercamiento a lo que ha significado para el grupo de investigación comenzar a trabajar en lo disciplinar con una mirada histórica, epistemológica para construir una propuesta de reorientación de la actividad escolar en matemáticas que se fundamente en el aprendizaje comprensivo de nociones y conceptos, específicamente en ecuaciones. 8. Esta edición de la Revista Elementos cierra con un documento de C. Quiñones, LabVIEW y la instrumentación virtual aplicados a la docencia y la investigación en ciencias básicas donde se exhiben las características más importantes de este tipo de instrumentación, las ventajas y posibilidades que

6 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 7 — #7

i

i

Editorial ofrece en el entorno de las ciencias básicas como una herramienta para la docencia y la investigación. El Comité Editorial quiere manifestar su agradecimiento a los autores e investigadores, a los pares evaluadores, al Departamento de Investigación y a los directivos del Politécnico Grancolombiano, sin la intención y el apoyo de cada uno de ellos, esta primera edición no sería la realidad que reposa en las manos de sus lectores.

Junio de 2011

Rafael Armando García Gómez Director Revista Elementos Facultad de Ingeniería y Ciencias Básicas Politécnico Grancolombiano

7 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 8 — #8

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 9 — #9

i

i

A new generic class of Frankl’s families Pierre Colomb1? , Alexis Irlande2?? , Olivier Raynaud1? ? ? , Yoan Renaud1† 2

1 Université Blaise Pascal, Aubirè, France Universidad Nacional de Colombia, Bogotá, Colombia

Fecha de recepción: 5 de enero de 2011 Fecha de aprobación: 22 de enero de 2011

Abstract. Frankl’s conjecture states that in a family of sets closed by union F such that F 6= {∅}, there is an element that belongs to at least half of the sets of F. There are several partial results of this conjecture. For example, it has been shown that families in which the smallest set is of size 1 or 2, or families closed both by union and by intersection are Frankl’s. In this article, by basing ourselves on an unseen recursive definition of the family of sets closed by union, we will define a new class of Frankl’s families. Subsequently, we will evaluate the size of this class for the first 6 values of n. Finally we will show that this class does not coincide with the already known Frankl’s classes. Resumen. La conjetura de Frankl propone que en una familia de conjuntos cerrados bajo unión F tal que F 6= {∅}, existe un elemento que pertenece al menos a la mitad de los conjuntos de F. Hay varios resultados parciales acerca de esta conjetura. Por ejemplo, se ha demostrado que las familias en las que el conjunto más pequeño es de tamaño 1 o 2, o familias cerradas bajo unión y la intersección son de Frankl. En este artículo, basándonos en una definición recursiva nueva de la familia de conjuntos cerrados bajo unión, se definirá una nueva clase de familias de Frankl. Posteriormente se evaluará el tamaño de esta clase para los primeros 6 valores de n. Por último se demostrará que esta clase no coincide con las clases de Frankl, ya conocidas. Keywords: combinatorics, Frankl’s family, set, conjecture. Palabras Clave: combinatoria, familia de Frankl, conjunto, conjetura.

? ?? ??? †

Doctor en Informática, Universidad de Clermont Ferrand, Francia. colomb@isima.fr Doctor en Informática, Universidad de Evry, Francia. irlande@lirmm.fr Doctor en Informática, Universidad de Montpellier, Francia. raynaud@isima.fr Doctor en Informática, Universidad de Clermont Ferrand, Francia. yoan.renaud@gmail.com

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 10 — #10

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introduction

Frankl’s conjecture [1], also called the conjecture of union-closed sets, is one of the most well-known open combinatorial problems. In its present form, this conjecture tells us that in a family of union-closed sets F such that F = 6 {∅}, there is an element that belongs to at least half of the sets of F. In literature, families verifying this property are often referred to as “Frankl’s families” and the reference items, present in more than half of the sets, are called pivot. As of this day, there are a large number of partial results for this conjecture. These results are heterogeneous in nature. One of the initial memorable results dates back to 1989 (cf. [2]), wherein the authors showed that the families containing at least one singleton or a 2-element set are Frankl’s families. Thus, a pivot is the item or one of the items of this smaller set. However, this intuition that a smaller set could contain a pivot was invalidated in the same article by giving an example of family whose smallest set of size 3 did not contain the pivot. When this conjecture was formulated, we find the hungarian mathematician Peter Frankl who, in the 70s, stated this surprisingly simple intuition that an intersection-closed family includes at least one item absent from half of the sets. We will find a reference to these works in [3]. This initial version of the conjecture henceforth took the name of “Frankl’s”. This “intersection” version is specifically adapted to the lattice theory and has therefore be studied in this context ([4]) and quiet independently. One had to wait for the end of the century and works of Abe ([5]) to formally link the two versions. The lattice approach of this problem allowed determining several classes for which the conjecture is true. Thus in 1992, Poonen determined in [6] that the conjecture is verified for lattice L such that for each X belonging to L, the interval [0, X] is complemented, given that this class is a superset of the geometric lattice class. In 1998, Abe also showed ([7]) that Frankl’s conjecture is verified for the modular lattices and extended this result to some cases of sub-modular lattices [5,8]. It was also shown that any distributive lattice, corresponding to an intersection-closed and union-closed family, verifies the conjecture. A complementary approach to the one above was to study local specificities to a family and to show how these specificities could allow reaching a conclusion about the presence or absence of a pivot. Thus, still in [6], Poonen defined a weight function for the sub-structures of a family and showed that if the weight is sufficient then the family containing this structure is Frankl’s. This powerful theorem relies on a major result in topology. More recently, in 2008, a simplified version of this theorem was stated in [9] and used to show that any family on the univers {0, ..., 10} is a Frankl’s family. Lastly, other partial and interesting results are given in [10,11,12,13]. The approach of the conjecture proposed in this article is innovative and relies on the recursive definition of the set of union-closed families. While this decomposition result does not yet as of date allow us to demonstrate by structural induction that the Frankl’s conjecture is true for any family, it nevertheless allows us to define a very large class of families for which the Frankl’s intuition is true.

10 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 11 — #11

i

i

A new generic class of Frankl’s families We will specifically show that this new class is transversal to most of classes already demonstrated to be Frankl’s. The balance of this article is structured as follows. The second section broadly reviews the recursive decomposition theorem of the set of union-closed families. In the third section, we present our new class of families verifying the conjecture and evaluating the size of this class for the initial values of n. Lastly, by giving some counterexamples, we will show that our class does not coincide with some specific classes known to be Frankl’s. The conclusion summarizes the work done and the perspectives. For clarity, we note elements by numbers (1, 2, 3, . . . ). Sets are denoted by capital letters (A, B, C, . . . ). Families of sets are denoted by cursive letters (A, B, C, . . . ). Finally, we note the sets of families of sets by black board letters (A, B, C, . . . ).

2.

Recursive decomposition of the set of union-closed families

In the following we will note Mn the set of families on a universe Un = {0, ..., n−1}, closed by union and containing the empty set. A union-closed family M on Un can be decomposed into two parts. The part consisting of the sets of M containing the element n − 1 (denoted by Msup for the upper part), and the complementary part (denoted by Minf for the lower part). The ∅ is duplicated to be present in the two parts. Naturally, M = Msup ∪ Minf . The family Minf is clearly a family of Mn−1 . On the other hand, the family Msup is a union-closed family on Un with the peculiarity that all its sets contain the element n − 1 (we will denote Msup as the set of union-closed families having this property). Example 1. Let M be the family on U3 , {∅, {0}, {0, 1}, {0, 2}, {1, 2}, {0, 1, 2}}, we can decompose this family into two closed families: Minf = {∅, {0}, {0, 1}} and Msup = {∅, {0, 2}, {1, 2}, {0, 1, 2}}. We will say that a Mn−1 family is compatible with a Msup family if and only n if the union of the two families is closed by union. The example in the following figure illustrates that for a fixed upper part, there are several compatible lower parts. In [14] we have shown that for a given upper family Msup , there exists a unique maximal family such that all compatible families with Msup are the union-closed families included in the maximal family. By way of example, the maximal family associated to Msup (cf. figure 1) is the family {∅, {0}, {1}, {0, 1}}. It can be verified that the two compatible families given are in fact sub-families of this family. The function f : Msup → Mn−1 defined below allows the characterization of n the maximal family of an union-closed family belonging to Msup n . An efficient algorithm to compute the function f has been given in [14]. Definition 1. One defines the function f : Msup → Mn−1 such that f (M) = n {X ∈ 2Un−1 | ∀M ∈ M, M ∪ X ∈ M}.

11 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 12 — #12

i

i

Revista Elementos - Número 1 - Junio de 2011 {0,1}

{0,1,2}

{0}

+

{0,2}

{1,2}

( union )

{0,1,2} {0,2}

{0,1} {0}

{}

{}

{1,2}

{0,1,2} {}

{0}

+

{0,2}

{1,2}

( union )

{}

{0} {}

Fig. 1. On the left, a family of Msup (all sets contain the element 2) to which are 3 associated two different union-closed families on U2 . In the two cases the family obtained, on the right, is an union-closed family.

By the way, f (M) represents the family of all compatible sets with M. Noting ↓ X (for X ∈ Mn−1 ) the set of ideals of X in Mn−1 , the set of compatible families with M (for M in Msup n ) coincides with ↓ Mmax , in other words ↓ f (M). 1 In fact, the set Msup can be partitioned into two sets: the set Msup of families n n 2 that do not contain the singleton {n − 1} and the set Msup of families that n contain it. These two sets being in natural bijection with Mn−1 . More formally, 1 functions g1 and g2 associate with each family M of Mn−1 a family of Msup n 2 (g1 (M)) and a family of Msup (g (M)). 2 n Definition 2. Let g1 and g2 be functions of Mn−1 → Msup such that: n • g1 (M) = {M ∪ (n − 1) | M ∈ M} ∪ ∅\{n − 1}; • g2 (M) = {M ∪ (n − 1) | M ∈ M} ∪ ∅. See figure 2 for a graphic representation. 2 In fact the maximal family associated with a family of Msup spelt g2 (M) is n none other than M. In other words for all M in Mn−1 we have f (g2 (M)) = M. For the convenience of the study of the maximal family of the families of 1 Msup , we will denote h : Mn−1 → Mn−1 the function f og1 . Thus, for all M of n Mn−1 , h(M) = f (g1 (M)). From previous results and given definitions, Mn can be recursively defined as follows:

12 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 13 — #13

i

i

A new generic class of Frankl’s families 0123

012

123

013

01

12

0

1

13

03 3

0123 013

03

123

13

Fig. 2. On the left, a union-closed family of M3 . At the bottom we find its image in 1 Msup by g1 . All the sets of the family contain the object 3 and the singleton {3} 4 2 doesn’t belong to the family. At the top on the right, we find its image by g2 in Msup 4 which contains the singleton {3}.

Theorem 1. Let Mn and Mn−1 be sets of union-closed families on Un and Un−1 . Then: [ [ Mn = Mn−1 ∪ {g1 (M)× ↓ h(M)} ∪ {g2 (M)× ↓ M} M∈Mn−1

M∈Mn−1 \∅

For interpretation and representation see figure 3. From theorem 1 we can say that there are three kinds of union-closed families on Un : • the union-closed families on Un−1 , the element n − 1 doesn’t appear in any set of the family; • the union-closed families which do not contain the singleton {n − 1}. These families are under the form g1 (M) ∪ M0 with M and M0 in Mn−1 and M0 included in h(M); • the union-closed families which contain the singleton {n − 1}. These families are under the form g2 (M) ∪ M0 with M and M0 in Mn−1 and M0 included in M;

3.

About the Frankl’s conjecture

The strength of a recursive definition of an infinite set of objects is to allow planning proofs by induction of properties on this set. Nevertheless, one must

13 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 14 — #14

i

i

Revista Elementos - Número 1 - Junio de 2011

} {n − 1

g2 (M) h(M) f ()

g1 (M) } {n − 1

M

1 Msup n

Mn−1

2 Msup n

Msup n

Fig. 3. On the left the order Mn−1 of union-closed families on Un−1 . At the center, an isomorphic order obtained by g1 , on the right another copy obtained by g2 . Their union gives Msup n . The existence of M in Mn−1 leads to the existence of a large number of union-closed families in Mn .

understand that the Frankl’s conjecture concerns the structure itself of the family, rather than the set of whole numbers characterizing each set. The whole numbers are interchangeable with each other. Thus the Frankl’s conjecture stays true up to a permutation. In other words, if a family is Frankl’s, its image through any permutation is in itself Frankl’s. 3.1.

Element of symmetry

In our case, the principle of a demonstration by induction will fix the last whole number to be considered. But it must be possible for this role to be taken up by any one amongst them. For this reason, we will be interested in some permutations that are translations. Thus we will call θ a translation on a finite set Un = {0, ..., n − 1}, θ being a bijective function of 2Un in 2Un . By Tn we mean the set of n translations (a, n − 1) for a in {0, ..., n − 1}. For a set E ⊆ Un and θ ∈ Tn with θ = (a, n − 1) , θ(E) gives the image of E by θ defined by: • θ(E) = E \ a ∪ n − 1 if a ∈ E and n − 1 6∈ E; • θ(E) = E \ n − 1 ∪ a if a 6∈ E and n − 1 ∈ E; • θ(E) = E in other cases. For any family F ⊆ 2Un , by extension we will have θ(F) = {θ(E)|E ∈ F}.

14 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 15 — #15

i

i

A new generic class of Frankl’s families Example 2. Let a family F = {∅, {2}, {1, 2}, {0, 1, 2}} and the translation θ = (0, 2), then θ(F) = {∅, {0}, {0, 1}, {0, 1, 2}}. Proposition 1. Let F be a union-closed family on Un and θ ∈ Tn be a translation, if θ(F) is a Frankl’s family then F is Frankl’s too. 3.2.

The families on Un containing a singleton

One of the first results pertaining to the Frankl’s conjecture was to note that any union-closed family having a singleton was “naturally” a Frankl family. This quite simple result of a conceptual viewpoint has the ability to class a large number of closed families as Frankl’s family (cf. table 1). In fact, this result also appears very clearly on reading the recursive definition. By the way, for any closed family F containing a singleton, there is a translation θ on Un that sends this singleton to {n − 1}. θ(F) will therefore be a family which will be written in the form g2 (M) ∪ M0 with M and M0 in Mn−1 and M0 included in M. Since, according to the definition of g2 , the sets g2 (M) and M have same cardinal, the number of sets of θ(F) containing the item n − 1 (|g2 (M)|) is greater than or equal to the number of sets not containing this item (|M0 |). θ(F) and thereby F (cf. proposition 1) are therefore both Frankl’s families. 3.3.

The families on Un not containing a singleton

According to the recursive definition, for any closed family F without singleton, there exist M and M0 in Mn−1 such that F is written as g1 (M) ∪ M0 with M0 included in h(M). Now h is an augmentation operator (M ⊆ h(M)). Thus the reasoning given further up for closed families containing the singleton {n − 1} is not valid since the part of F for which the sets contain the item n − 1 (g1 (M)) is potentially of cardinal lower than its part of sets not containing the item n − 1 (M0 ⊆ h(M)). However, by restricting our analysis to the union-closed families F without singleton arising out of a family M in Mn−1 such that h(M) = M, we are assured that F is a Frankl family. This results in the following theorem: Theorem 2. Let Cn be the class of union-closed families F on Un without {n − 1} such that there exist 2 families M and M0 in Mn−1 with h(M) = M and M0 ⊆ M and a translation θ in Tn such that θ(F) can be written as g1 (M) ∪ M0 or g2 (M) ∪ M0 . Then, families of Cn are Frankl’s families. Sketch of proof: Let F in Cn , there exists θ in Tn such that θ(F) = g1 (M)∪M0 (the second case with θ(F) equal to g2 (M) ∪ M0 has been previously treated). The number of sets of θ(F) containing the element n − 1 is |g1 (M)| = |M| from definition of g1 . The number of sets of θ(F) which do not contain n − 1 is equal to |M0 | with M0 included in h(M). Since, M is a fixed point of h, M0 is included in M and thus |M0 | is inferior or equal to |M|. θ(F) as F are Frankl’s families. See figure 4 for a graphic interpretation.

15 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 16 — #16

i

i

Revista Elementos - Número 1 - Junio de 2011

0123

M = h(M) 123

013

012

03

12

3

01 0

12

0 ø

0123

0123 123

013

012 123

03

013

012

01 03

3

0

12

12

3

ø ø

0

12

01

0123 0123 123

013

03

123

012

01

013

012

03

12

3

3 ø ø

01

12 0123

123

013

012

03 3

ø

012

0123

123

013 03 3 ø

Fig. 4. Placed at the top of the order, the closed family M on U4 made up of 10 sets, is a fixed point for h. Thus, any family F on U5 , written g1 (M) ∪ M0 for any family M0 given in this figure (thereby included in h(M) = M), is a Frankl family.

Using the experience acquired to count the number of Moore families for n = 7 (cf. [14]) we have counted the number of fixed points by h for the initial values of n as well as the size of the associated class. Results are presented in table 1. 3.4.

Study of some fixed points by h

Here, our intention is to show that the class Cn does not coincide with the most classes known to be Frankl’s. • Fixed point, neither modular nor distributive : The modular lattices like the distributive ones find characteristics by absence of the prohibited sub-

16 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 17 — #17

i

i

A new generic class of Frankl’s families n |Mn | |PFn | |Cn | |M1n | 1 2 1 2 7 3 6 (85%) 5 (83%) 3 61 19 56 (91%) 49 (80%) 4 2 480 622 2296 (92%) 2063 (83%) 5 1 385 552 252 098 1 250 447 (91%) 1 141 766 (82%) 6 75 973 751 474 64 501 349 128 (85%) 59 424 724 974 (78%) Table 1. The first column gives the size of Mn . The second column fixes the size of the set of fixed points of Mn . In the third column we give the size of class Cn (we will note that the calculations of |Cn | are based on the set of fixed points of Mn−1 ). Lastly, in the last column we give the number of families of Mn containing at least one singleton (noted for the occasion M1n ). For our knowledge these numbers were not known.

structure. The absence of N5 , like the “cycle” without chord with 5 vertices, characterizes the modulars and the joint absence of N5 and the M3 (diamond with 3 central vertices) characterizes the distributives. The family M given in the previous figure contains 2 N5 with the sub-families {∅, {0}, {0, 1}, {1, 2}, {0, 1, 2}}. The fixed point M is therefore neither modular, nor distributive. Any family generated from this fixed point will neither be modular, nor distributive. • The presence of a N5 in the family M allows us to affirm that the class Cn does not coincide either with the class defined by extension of the relatively complemented one of the lattices given in [6]. • We give with figure 5 a last example of fixed point for h which does not contain singleton, nor sets of size two. The associated lattice is not modular, nor relatively complemented. In fact there is an argument that is used to affirm that the union-closed families generated from fixed points do not have any specific property. Let B be the Boolean lattice in Un−1 , B is a fixed point by h. Moreover, since any closed family in Un−1 is included in B, for any M in Mn−1 , M ∪ g1 (B) belongs to Cn . Thus the union-closed family M ∪ g1 (B) cannot be characterized by any property other than those shared by the set of union-closed families of which the upper part is boolean (for example the families whose upper part is Boolean contain as the smallest set, 2-element sets).

4.

Conclusion

In this article we defined a new class Cn of families for which the Frankl’s conjecture is true. This class represents more than 85% of the union-closed families for the initial values of n. However, we will note that the class Cn contains the families having a singleton and that the number of these families is itself large. The definition of Cn is based on the recursive definition of the set of union-closed families and on an argument in particular that allows classifying

17 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 18 — #18

i

i

Revista Elementos - Número 1 - Junio de 2011

Fig. 5. A fixed point by h on U8 which doesn’t contain singleton nor 2-element set. The associated lattice to this family is not distributif, modular, or relatively complemented. Last, it doesn’t contain a bloc as defined by Poonen in [6].

as “Frankl’s” families having a singleton. In some ways the class Cn contains families F arising from a family of Mn−1 stable by the operator f (gi ()) for i = 1 or i = 2 (up to a translation). It seems that until now the study of the Frankl’s conjecture consisted of determining the classes of families for which the conjecture was verified. We think that with the help of the recursive definition, the approach could now be different and should consist of understanding why the families that are not in Cn are “Frankl’s”. While naturally supposing that the conjecture is true.

References 1. On Graphs, N.A.S.I., Order, Rival, I., Organization., N.A.T. Graphs and order: the role of graphs in the theory of ordered sets and its applications / edited by Ivan Rival. D. Reidel Pub. Co.; Sold and distributed in the U.S.A. and Canada by Kluwer Academic Publishers, Dordrecht, Holland; Boston: Hingham, MA, U.S.A.(1985) 2. D. G. Sarvate, J.C.R.: On the union-closed sets conjecture. Ars Combin. 27 149–153 (1989) 3. Frankl, P.: Extremal set systems. 1293–1329 (1995) 4. Stanley, R.P.: Enumerative Combinatorics, Vol I. The Wadsworth and Brooks Cole Mathematics Series (1986) 5. Abe, T.: Strong semimodular lattices and frankl’s conjecture. Algebra Universalis 44 (2000) 6. Poonen, B.: Union-closed families. J. Comb. Theory Ser. A 59(2) 253–268 (1992) 7. Abe, T., Nakano, B.: Frankl s conjecture is true for modular lattices. Graphs and Combinatorics 14 305–311 (1998)

18 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 19 — #19

i

i

A new generic class of Frankl’s families 8. Abe, T., Nakano, B.: Lower semimodular types of lattices: Frankl s conjecture holds for lower quasi-semimodular lattices. Graphs and Combinatorics 16 1–16 (2000) 9. Ivica Bosnjak, P.M.: The 11-element case of frankl’s conjecture. The electronic journal of combinatorics 15 (2008) 10. C’, P.M. An attempt at frankl s conjecture (2007) 11. Johnson, R.T., Vaughan, T.P.: On union-closed families, i. J. Comb. Theory Ser. A 84(2) 242–249 (1998) 12. Morris, R.: Fc-families and improved bounds for frankl s conjecture. Eur. J. Comb. 27(2) 269–282 (2006) 13. Vaughan, T.P.: Families implying the frankl conjecture. Eur. J. Comb. 23(7) 851–860 (2002) 14. Colomb, P., Irlande, A., Raynaud, O.: Counting of moore families on n = 7. In: ICFCA, LNAI 5986. (2010)

19 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 20 — #20

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 21 — #21

i

i

Multiplexing schemes for homomorphic cryptosystems Juan Camilo Corena? , Jaime Andrés Posada?? Fecha de recepción: 18 de mayo de 2010 Fecha de aprobación: 12 de junio de 2010

Abstract. We present in this article two secure multiplexing and demultiplexing schemes that use homomorphic properties from known public key cryptosystems. One scheme is suitable for cryptosystems with additive homomorphic properties such as Paillier and Benaloh cryptosystems. The proposed scheme employs a modification of Hadamard codes to generate a set of orthogonal codes over Z3 . The other one is suitable for cryptosystems with multiplicative homomorphic properties such as RSA and ElGamal. Both schemes might be used in voting and auction systems where anonymity of the individuals is crucial. Resumen. Presentamos en este artículo dos esquemas seguros de multiplexación y demultiplexación que utilizan propiedades homomórficas de algunos sistemas de cifrado de llave pública. Un esquema es adecuado para sistemas con propiedades aditivas como Paillier y Benaloh. El esquema propuesto utiliza una modificación de los códigos de Hadamard para generar un conjunto de códigos ortogonales sobre Z3 . El otro esquema es adecuado para sistemas con homomorfismos multiplicativos como RSA y ElGamal. Ambos esquemas podrían ser utilizados en sistemas de votación y en subastas donde el anonimato de los individuos es crucial. Keywords: homomorphic encryption, orthogonal vectors, secure auctions. Palabras Clave: cifrado homomórfico, vectores ortogonales, subastas seguras.

?

??

Juan Camilo Corena. M. Sc. Ingeniería de Sistemas, Universidad de los Andes. investigacion@juancamilocorena.com Jaime Posada, M.A. en Matemáticas UW-Madison, se desempeña como docente de tiempo completo del Departamento de Matemáticas del Politécnico Grancolombiano desde el año 2006. japosada@poli.edu.co.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 22 — #22

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introduction

Vector orthogonality has been widely used in communications to allow senders to multiplex their messages simultaneously and receivers to demultiplex the desired data. One of these methods is synchronous CDMA, which exploits the orthogonality between vectors representing information. To achieve orthogonality, synchronous CDMA uses binary orthogonal vectors based on Hadamard codes, but this is not suitable for most public key cryptosystems since those cryptosystems use positive integer and not vectors as a way to represent data. Even though one could cipher these vectors in each of their components, this approach might be vulnerable to chosen ciphertext attacks. Thus it would be desirable to balance these two aspects to achieve orthogonality in order to allow several individuals to add encrypted information into a single data stream, and being able to retrieve it later. In order to allow these individuals to add information to a secure data stream, we considered two case scenarios in this article. One is intended to be used in algorithms with multiplicative homomorphisms in which case the proposed solution is straightforward using unique factoring into primes. The second scenario deals with cryptosystems with additive homomorphisms in which case we propose the employment of modified Hadamard codes over Z3 . The proposed schemes can be used in elections, auctions and in any scenario where sensitive information is to be provided by several individuals and a third party is to process the individual components. Although homomorphic encryption has been used in many cryptographic protocols applied to elections and auctions such as [1,4,6,7], and later succeeded by protocols such as [2] as a mechanism for protecting voters privacy and the integrity of the election. To check the validity of encrypted information a proof of knowledge is issued with a vote in a ballot. This proof will confirm that a given ballot adds one and only one vote to the final tally. These proofs are outside the tallying itself, which allows election officials to remove malicious ballots if they are cast. Our scheme allows one to verify the correctness of the tally without such proofs, at the cost of reduced number of ballots and larger key sizes. Our proposal achieves similar results as the afore mentioned scheme with a different approach, that could be used to simplify hardware implementations by joining two stages of the process. The article is organized in four main topics. In the first one we summarize several cryptosystems with homomorphic properties along with some basic principles about CDMA multiplexing. In the second we introduce the set of codes used by our scheme and we present it and finally we discuss computational viability in Paillier’s cryptosystem and some possible applications aimed at auction systems.

2.

Homomorphic encryption

Homomorphic encryption is a form of encryption where it is possible to perform an algebraic operation on the plaintext by performing a possibly different operation

22 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 23 — #23

i

i

Multiplexing schemes for homomorphic cryptosystems on the ciphertext. This form of encryption has been used widely in many contexts, and in the next section we introduce four different cryptosystems that have two different kinds of homomorphisms: multiplicative or additive. 2.1.

Multiplicative homomorphisms

RSA Cryptosystem. Let n = pq where p, q are two distinct prime numbers. Then compute φ(n) = (p − 1)(q − 1). Now choose e ∈ Z∗φ(n) and e > 0 such that gcd(e, φ(n)) = 1, the next step involves determining e−1 in Z∗φ(n) , we will call this number d which is a number that satisfies ed ≡ 1 (mod φ(n)). The public key is (n, e) and the private one is (n, d). To encrypt a plaintext m we compute c ≡ me (mod n)

(1)

We call the resulting encryption function E. To decrypt, calculate m ≡ cd (mod n)

(2)

This algorithm’s homomorphism can be deduced as follows: E(m1 ) · E(m2 ) = me1 me2 (mod n) = (m1 m2 )e (mod n) = E(m1 · m2 )

(3)

which can be rephrased as: given the product of two ciphertexts encrypted with the same key, once they are decrypted the result will be the product of the plain texts generating the ciphertexts modulo n. See [11] for more details regarding this algorithm. ElGamal Cryptosystem. Let G be a cyclic group of prime order q with generator g. Then a random x ∈ Zq is chosen to be the secret key. The public key is (G, q, g, h), where h = g x . Given a plain text m ∈ G the encryption function E is: E(m) = (g r , mhr ) (4) where r ∈ Zq is randomly chosen. To decrypt a message of type (c1 , c2 ) using the secret key x, first calculate s = cx1 and then recover the original message m as follows: c2 m= (5) s This algorithm’s homomorphism can be deduced as follows: E(m1 ) · E(m2 ) = (g r1 , m1 hr1 ) (g r2 , m2 hr2 )  = g r1 +r2 , m1 m2 hr1 +r2 = E(m1 · m2 )

(6)

which can interpreted as: product of two ciphertexts encrypted with the same key, once they are decrypted the result will be the product of the plain texts generating the ciphertexts. See [8] for more details regarding this algorithm.

23 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 24 — #24

i

i

Revista Elementos - Número 1 - Junio de 2011 2.2.

Additive homomorphisms

Benaloh Cryptosystem. Choose a blocksize r and choose primes p and q such that r divides (p − 1) and gcd(q − 1, r) = 1. Let n = pq, and choose y ∈ Z∗φ(n) φ(n)

such that y r 6≡ 1 (mod n). The public key is (y, n, r) and the private key (p, q). Given a plain text m ∈ Zr the encryption function E is: E(m) = y m ur (mod n)

(7)

where u ∈ Z∗n is randomly chosen. To decrypt a message c = y m ur (mod n) note that φ(n) φ(n) c r = y m r (mod n) (8) and so in order to find m, one can to solve the discrete logarithm by exhaustive search, or using the Baby-step, Giant-step method because m is small in practice. This algorithm’s homomorphism can be deduced as follows: E(m1 ) · E(m2 ) = (y m1 u1 r ) (y m2 u2 r ) = y m1 +m2 (u1 u2 )

r

= E (m1 + m2 (mod φ(n)/r))

(9)

which can be rephrased as: given the product of two ciphertexts encrypted with the same key, once they are decrypted the result will be the sum of the plain texts generating the ciphertexts modulo φ(n)/r. See [5] for more details regarding this algorithm. Paillier Cryptosystem. Let n = pq where p, q are two distinct prime numbers. Then compute λ = lcm(p − 1, q − 1). Choose g ∈ Z∗n2 such that n divides the order of g. The public key is (n, g) and the private key (p, q). Given a plain text m ∈ Zn the encryption function E is:  E(m) = g m rn mod n2 (10) where r ∈ Z∗n is randomly chosen. To decrypt a message c ∈ Z∗n2 , compute: m = L cλ mod n2



L g λ mod n2

−1

(mod n)

(11)

where L(u) = (u − 1)/n. This algorithm’s homomorphism can be deduced as follows: n

E(m1 ) · E(m2 ) = (g m1 r1 n ) (g m2 r2 n ) = g m1 +m2 (r1 r2 ) = E (m1 + m2 (mod n))

(12)

which can be rephrased as: given the product of two ciphertexts encrypted with the same key, once they are decrypted the result will be the sum of the plain texts generating the ciphertexts modulo n. See [10] for more details regarding this algorithm.

24 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 25 — #25

i

i

Multiplexing schemes for homomorphic cryptosystems

3. 3.1.

CDMA multiplexing Hadamard codes

Hadamard codes are used for signal error detection and correction. They were successfully used in space probes such as Mariner, Viking or Voyager to send pictures from other planets back to earth. Valid codewords are the rows of H and −H, where H is a Hadamard matrix (a square matrix whose entries are either 1 or −1 and whose rows are pairwise orthogonal) and where each −1 is replaced by 0. To illustrate this, given the following Hadamard matrix,   1 1 1 1 1 −1 1 −1  H4 =  (13) 1 1 −1 −1 1 −1 −1 1 the codewords are (1, 1, 1, 1), (1, 0, 1, 0), (1, 1, 0, 0), (1, 0, 0, 1), (0, 0, 0, 0), (0, 1, 0, 1), (0, 0, 1, 1) and (0, 1, 1, 0). 3.2.

Codes over Z3

We modify the construction of Hadamard codes to generate recursively the following set of codes over Z3 : 1. (1) is a valid code. 2. If v is a valid code, then v _ v and v _ ¬v are valid codes, where _ denotes concatenation of vectors, and ¬v denotes the vector obtained from v by interchanging the digits 1 and 2, or by calculating additive inverses over Z3 . We have then that (1), (1, 1), (1, 2), (1, 1, 1, 1), (1, 1, 2, 2), (1, 2, 1, 2), (1, 2, 2, 1) are all valid codes, and in general a full binary tree T is constructed such that in its nth level Tn there are 2n codes of length 2n . These codes have the following properties used in the next section to describe our variation of the synchronous CDMA technique. Theorem 1. If n ≥ 1, then all codes of Tn are orthogonal over Z3 . If n is odd, and v ∈ Tn , then kvk ≡ 2 (mod 3). If n is even, and v ∈ Tn , then kvk ≡ 1 (mod 3). Proof. By induction: (1, 1) and (1, 2) are orthogonal since (1, 1) • (1, 2) = 3 ≡ 0 (mod 3). Let v, w ∈ Tn+1 , n ≥ 1. There are four cases: 1. v = x_ x, w = y _ y, where x, y ∈ Tn . In this case v • w = x • y + x • y = 0 + 0 ≡ 0 (mod 3) 2. v = x_ x, w = y _ ¬y, where x, y ∈ Tn . In this case v • w = x • y + x • ¬y = x • y − x • y = 0 − 0 ≡ 0 (mod 3) 3. v = x_ ¬x, w = y _ y, where x, y ∈ Tn . In this case v • w = x • y + ¬x • y = x • y − x • y = 0 − 0 ≡ 0 (mod 3)

25 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 26 — #26

i

i

Revista Elementos - Número 1 - Junio de 2011 4. v = x_ ¬x, w = y _ ¬y, where x, y ∈ Tn . In this case v • w = x • y + ¬x • ¬y = x • y + x • y = 0 + 0 ≡ 0 (mod 3) On the other hand, since 12 = 22 ≡ 1 (mod 3), then any given code v ∈ Tn of length 2n satisfies the following: kvk ≡ 2n (mod 3) Using another induction argument we have that  2 (mod 3) n odd 2n ≡ 1 (mod 3) n even

(14)

(15)

and so it follows the second part of the theorem. 3.3.

Synchronous CDMA

If several transmitters want to send information simultaneously over a single channel, there are various techniques used to accomplish that, but we focus ourselves in synchronous CDMA, which exploits the orthogonality between vectors representing information. Our technique is basically synchronous CDMA, but we use the codes constructed in section 3.2. More details about CMDA can be found in [12]. Suppose that k transmitters t1 , t2 , . . . , tk want to send binary vectors si , 1 ≤ i ≤ k, of length m over a single channel. Let n be such that k ≤ 2n , and to each transmitter ti , a unique code v i ∈ Tn is assigned. If the data to be transmitted in the vector si is a one, then the vector v i is transmitted, and if a zero is to be transmitted, then ¬v i is transmitted. For example, if ti is assigned code v i = (1, 2), and wishes to send the binary vector (1, 0, 1), the actual transmission is (v i , ¬v i , v i ) = ((1, 2), (2, 1), (1, 2)) In this way each transmitter ti generates a signal σi = (xi1 , xi2 , . . . , xim ) where each xil is either v i or ¬v i , to be transmitted over a single channel. To accomplish that purpose, the signals σi , 1 ≤ i ≤ k, are to be added over Z3 to create the following multiplexed signal: ΛM =

k X

σi (mod 3)

(16)

i=1

To demultiplex the signal ΛM and recover a particular signal σi , the orthogonality of the codes is used: Since the codes v i and v j are orthogonal, then (xj1 • v i , xj2 • v i , . . . , xjm • v i ) = (0, 0, . . . , 0)

(17)

and so when we calculate the dot product of the code v i with each component of the signal ΛM = (x11 , x12 , . . . , x1m ) + · · · + (xi1 , xi2 , . . . , xim ) + · · · + (xk1 , xk2 , . . . , xkm ) we obtain (xi1 • v i , xi2 • v i , . . . , xim ��� v i ) (18)

26 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 27 — #27

i

i

Multiplexing schemes for homomorphic cryptosystems Each xil is either v i or ¬v i , so each component of the previous vector is either v i • v i = kv i k or v i • ¬v i = −kv i k. Thus a vector with digits 1, 2 is obtained. Since the magnitude of a code is based on the parity of n, there are two procedures to recover the binary vector si : 1. n is odd. In this case by theorem 1, kv i k = 2 and so the rth component xir • v i of the vector (xi1 • v i , xi2 • v i , . . . , xim • v i )

(19)

is 2 if and only if a one was to be transmitted in the rth position of the vector si . 2. n is even. In this case by theorem 1, kv i k = 1 and so the rth component xir • v i of the vector (xi1 • v i , xi2 • v i , . . . , xim • v i )

(20)

is 1 if and only if a one was to be transmitted in the rth position of the vector si . To give an example of this process, suppose transmitter α is assigned code (1, 1) and wishes to send message (1, 0, 1), and transmitter β is assigned code (1, 2) and wishes to send message (1, 1, 0). Then σα = ((1, 1), (2, 2), (1, 1))

σβ = ((1, 2), (1, 2), (2, 1))

(21)

and so ΛM = ((2, 3), (3, 4), (3, 2)) = ((2, 0), (0, 1), (0, 2)) (mod 3)

(22)

To recover σα we calculate the dot product of the code (1, 1) with each component of the signal ΛM to get (2, 1, 2). In this case n = 1, so a 2 means that a one was to be transmitted. The recovered message is (1, 0, 1). To recover σβ , the dot product of the code (1, 2) with each component of the signal ΛM is (2, 2, 4) = (2, 2, 1) (mod 3). The recovered message is (1, 1, 0).

4.

Proposed schemes

We propose the schemes based on the following requirements: 1. The scheme is able to multiplex a set of data identified by specific codes. 2. The multiplexed information can be sent over a secure channel without leaking any information about the individual components. 3. It is possible for external agent having a proper cryptographic key and a valid code to verify if a given information was sent over the secure channel.

27 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 28 — #28

i

i

Revista Elementos - Número 1 - Junio de 2011 4.1.

Multiplicative homomorphisms

Given a set of individuals S = {s1 , s2 , . . . , sn }, each si wishing to send a message mi in the set M = {m1 , . . . , mn } we assign a prime number pi to each sender si . These prime numbers will serve as codes for identifying each si within the multiplexed message. To multiplex the information we compute Λ=

n Y

i E (pm i )

(23)

i=1

where E is an encryption function with multiplicative homomorphic properties such as RSA or ElGamal. To demultiplex the information we revert the encryption function by computing ! n n Y Y m −1 i i Γ =E E(pi ) = pm (24) i i=1

i=1

Then, to recover the message mi sent by individual si one has to find the largest power of pi dividing Γ . Regarding the requirements we intended for our scheme, the first requirement is true based on the fundamental theorem of arithmetic. The second requirement is satisfied since we used E which is assumed to be a secure cryptographic algorithm such as RSA or ElGamal. For the last requirement one has to check if pi divides Γ , this is an easy task for an individual knowing the proper private key and a code pi as long as mi is bounded. 4.2.

Additive homomorphisms

Given a set of individuals S = {s1 , s2 , . . . , sn }, each si wishing to send a message mi in the set M = {m1 , . . . , mn } we assign a unique code v i ∈ Tk as explained in section 3.2, where k is such that n ≤ 2k . Given a signal σi , which is a vector of vectors, each component being v i or ¬v i , then σ ¯i denotes the vector obtained from σi by concatenating its components into a single vector. For example, if σα = ((1, 1), (2, 2), (1, 1)) then σ ¯α = (1, 1, 2, 2, 1, 1). Let B be a positive integer base such that B ≥ 2k+1 + 1. B is chosen this way since the largest value one can have in a given position when adding numbers in base B with only digits 1 and 2 is 2n ≤ 2k+1 . Let [σi ]B be the following number in base B l X [σi ]B = γl+1−i B l+1−i (25) i=1 th

where γi is the i component of the vector σ ¯i , and l is its length. For example, if σα = ((1, 1), (2, 2), (1, 1)) then [σα ]B = 1B 5 + 1B 4 + 2B 3 + 2B 2 + 1B + 1. To multiplex the information we compute Λ=

n Y

E ([σi ]B )

(26)

i=1

28 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 29 — #29

i

i

Multiplexing schemes for homomorphic cryptosystems where E is an encryption function with additive homomorphic properties such as Benaloh or Paillier. To demultiplex, first compute ! n n Y X −1 Γ =E E ([σi ]B ) = [σi ]B (27) i=1

i=1

Since the base B is large enough, then

n P i=1

[σi ]B will behave as vector sum, and

so this will allow us to reassemble the original CDMA signal. To accomplish that, n P one has to compute σi by reversing the process that constructed [σi ]B from i=1

σi as follows: first think of [σi ]B as a vector σ ¯i and then split this vector into a vector of vectors of length 2k to get σi . For example, if σα = ((1, 1), (2, 2), (1, 1))

σβ = ((1, 2), (1, 2), (2, 1))

(28)

then B = 5, [σα ]B = 1B 5 + 1B 4 + 2B 3 + 2B 2 + 1B + 1 and [σβ ]B = 1B 5 + 2B 4 + 1B 3 + 2B 2 + 2B + 1. In this case the recovered Γ is Γ = 2B 5 + 3B 4 + 3B 3 + 4B 2 + 3B + 2

(29)

To reassemble the original CDMA signal, first we think of Γ as the vector (2, 3, 3, 4, 3, 2), and then we split this vector into the vector ((2, 3), (3, 4), (3, 2)). Finally, this vector modulo 3 is ((2, 0), (0, 1), (0, 2)). To recover each individual messages (1, 0, 1), (1, 1, 0) sent by α, and β respectively, one proceeds as the final example in section 3.2. Regarding the requirements we intended for our scheme, the first requirement is true based on the results obtained in theorem 1. The second requirement is satisfied since we used E which is assumed to be a secure cryptographic algorithm such as Paillier. For the last requirement one has to check if [σi ]B is one of the components of Γ , this is an easy task for an individual knowing the proper private key and a code [σi ]B .

5.

Computational viability

Given a set of codes C ⊆ Tk , a base B is chosen such that B ≥ 2k+1 + 1 as in section 4.2. To estimate the size of the keys p, q needed in Paillier’s cryptosystem one proceeds as follows. If each one of the individuals si want to send one bit message, the worst case scenario is given by the input v m = (2, 2, . . . , 2) which in base B is k B2 − 1 [v m ]B = 2 (30) B−1 for example: if k = 7 there are 128 possible codes and so B might be 257. In this case log2 ([v m ]B ) ≈ 1018 (31)

29 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 30 — #30

i

i

Revista Elementos - Número 1 - Junio de 2011 so two primes p, q of length 509 (in bits) will be needed to guarantee [v m ]B < pq. Considering that a key size of 1024 bits is the recommended security standard for algorithms such as RSA, the proposed scheme can be used in practice with reasonable scalability. For messages consisting of more than 1 bit, key sizes become rather large, so the scheme would not be practical to carry more information. Despite this limitation, the scheme is suitable for elections and auctions situations since interaction among participants can be easily modeled by binary responses. One such application is presented in the next section.

6.

Possible applications

The proposed scheme has several applications in the field of secure voting and secure auctions. In this section we describe one possible way to implement anonymous auctions based on Paillier’s cryptosystem. Let S be the seller and B = {b1 , b2 , . . . , bm } be the set of bidders, each bidder bi generates the following set of pairs of codes Ci = {(aij , dij ) : 1 ≤ j ≤ r} ⊆ Tn where n is large enough to accommodate all the bidders, r is the maximum number of rounds in the auction and the sets Ci are pairwise disjoint. In the auction context, aij is meant to serve as an acceptance of the offer to a given price set by the seller and dij as declining the offer. Each set Ci is digitally signed with bi ’s public key and sent to the seller in a secure way so the seller can keep track of the auction process. The auction will have several rounds; in the j th round S fixes a price and the bidders are required to submit an answer accepting or declining the offer. To this purpose a bidder bi sends (EPS (aij ), Σi (aij )) if he/she is willing to pay for the fixed price and sends (EPS (dij ), Σi (dij )) otherwise. Here EPS is Paillier’s cryptosystem encrypting function with a public key belonging to S and Σi is a digital signature function for bi . The seller verifies the digital signatures for every bidder against the data sent during the setup stage to confirm the identity of the bidder, then computes  E −1 

m Y

 EPS (xij ) =

m X

xij

(32)

j=1

j=1

where xij is the answer issued by bi . Then the seller recovers the individual components xij as in section 4.2; the winner is decided when there is only one positive response xij . Since dot products usually have lower computational complexity than decryption, the advantage of this approach lies in the fact that a single decryption operation is needed. This scheme guarantees privacy of the bidders, anonymity of them except for the seller, non repudiation for bids and validity in the process, conditions for secure auctions as stated in [9].

30 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 31 — #31

i

i

Multiplexing schemes for homomorphic cryptosystems

7.

Related work

Other applications where homomorphic additive cryptosystems are central, include elections or voting systems. Another technique for counting votes is known as a multi-counter [3], which consists of generating a counter for each available candidate. To every candidate a segment of n continuous bits is assigned, so the segment is able to accommodate at most 2n − 1 votes. If there are m candidates, then mn bits would be needed to keep track of all the votes. When a voter casts a vote for a particular candidate, his choice is added to the segment assigned to that candidate. Arithmetic within each segment is performed without interfering with the other segments. For example, in an election with 3 candidates A, B, C, and 3 potential voters, each candidate is assigned with 2 bits. In case there were 28 voters instead of just 3, the number of bits assigned to each candidate has to be incremented from 2 to 5. The aggregated result is shown in figure 1 where two votes were cast for A, none for B and one for C.

A

C

z}|{

z}|{

10 00 01 |{z}

B

Fig. 1. An example tally with two votes for A, none for B, and one for C.

Attacks to systems based on the previous counting method are possible, these include: adding a vote several times to increase the count for a particular candidate and subtracting votes via additive inverses. To thwart these kind of attacks, proofs of the value contained are generated to check for the validity of a ballot. However this kinds of integrity checking routines are performed as an additional procedure. Regarding this, our system can be used to check the validity of an election, since introducing a value outside the assigned set for a given voting place, immediately invalidates the count, thus revealing the presence of ballot tampering. This is achieved by adding another layer of error checking based on the orthogonality of the chosen codes.

8.

Conclusions

This article presented an alternative way to multiplex information in several known cryptosystems with homomorphic properties. Even though the proposed scheme for multiplicative homomorphism is not practical, the scheme presented for additive homomorphisms is practical and presents advantages over other known ways to achieve the same result in terms of computational complexity to detect fraud in elections or auctions.

31 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 32 — #32

i

i

Revista Elementos - Número 1 - Junio de 2011

References 1. Abe, M. and Suzuki, K.: M+1-st price auction using homomorphic encryption. Public Key Cryptography, pages 115–124, (2002) 2. Adida, B. and Rivest, R. L.: Scratch & vote: self-contained paper-based cryptographic voting. WPES ’06: Proceedings of the 5th ACM workshop on Privacy in electronic society, pages 29–40, New York, NY, USA, ACM. (2006) 3. Baudron O., Fouque P. A., Pointcheval, D., Stern, J. and Poupard G.: Practical multi-candidate election system. PODC ’01: Proceedings of the twentieth annual ACM symposium on Principles of distributed computing, pages 274–283, New York, NY, USA, ACM. (2001) 4. Benaloh, J. C. and Tuinstra, D.: Receipt-free secret-ballot elections (extended abstract). In STOC, pages 544–553, (1994) 5. Clarkson, J. B.: Dense probabilistic encryption. Proceedings of the Workshop on Selected Areas of Cryptography, pages 120–128, (1994) 6. Cramer, R., Gennaro, R. and Schoenmakers, B.: A secure and optimally efficient multi-authority election scheme. EUROCRYPT, pages 103–118, (1997) 7. Cramer, R. J., Franklin, M., Schoenmakers, L. A. and Yung, M.: Multi-authority secret-ballot elections with linear work. Technical report, Amsterdam, The Netherlands, (1995) 8. ElGamal, T.: A public key cryptosystem and a signature scheme based on discrete logarithms. IEEE Transactions on Information Theory, 31(4):469–472, (1985) 9. Kikuchi, H., Harkavy, M. and Tygar, J. D.: Multi-round anonymous auction protocols. Proceedings of the First IEEE Workshop on Dependable and Real-Time E-Commerce Systems, pages 62–69. Springer-Verlag, (1999) 10. Paillier, P.: Public-key cryptosystems based on composite degree residuosity classes. EUROCRYPT, pages 223–238, (1999) 11. Rivest, R. L., Shamir A., and Adleman, L. M.: A method for obtaining digital signatures and public-key cryptosystems. Commun. ACM, 21(2):120–126, (1978) 12. Viterbi, A. J.: CDMA: principles of spread spectrum communication. Addison Wesley Longman Publishing Co., Inc., Redwood City, CA, USA, (1995)

32 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 33 — #33

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 34 — #34

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 35 — #35

i

i

Inflación colombiana pronosticada con un VAR bayesiano Norberto Rodríguez Niño? Banco de la República Universidad Nacional de Colombia

Fecha de recepción: Marzo 11 de 2011 Fecha de aprobación: Abril 11 de 2011 Resumen En este trabajo se presentan los resultados de una aplicación de la estimación y pronóstico de modelos de Vectores Autorregresivos usando técnicas bayesianas (BVAR), para la inflación anual colombiana. Se comparan los resultados del uso de diversas especificaciones y de priors; los hiperparámetros de las prior se seleccionan de acuerdo a criterio de bondad del pronóstico. Luego, para las especificaciones seleccionadas, se compara la bondad del pronóstico de la inflación anual generada por los modelos BVAR con el de una caminata aleatoria univariada, y contra los de modelos VAR convencionales. Los resultados muestran que los modelos BVAR mejoran los modelos de los VAR análogos, logrando reducciones de hasta 72.8 % en la Raíz del Error Cuadrático Medio de Pronóstico (RECMP). Abstract This work presents the results of the application of the Vector Autoregressive estimation and prediction by using bayesian techniques (BVAR) for the annual Colombian inflation. The results of the use of diverse specifications and priors are compared. Prior hyperparameters are selected according to the goodness-of-prediction criteria. Then, the goodness-of-prediction of the annual inflation generated by BVAR models is compared to the goodness-of-prediction of a univariated Random Walk for the selected specifications. It is also compared to the conventional VAR models. The results show that BVAR models improve the analog VAR models, reaching deductions of up to 72.8 % in the Prediction Root-Mean-Square Error (RMSE). Palabras Clave: estimación bayesiana, evaluación de pronóstico, modelos BVAR, inflación, priors. Keywords: bayesian probability, prediction evaluation, BVAR models, inflation, priors.

?

Econometrista Asociado, Banco de la República y Profesor Catedrático Titular, Universidad Nacional de Colombia. nrodrini@banrep.gov.co. Agradezco a Cristina Sarmiento por los comentarios, sugerencias y pacientes revisiones de versiones previas y a Eliana González y Andrés González por sus comentarios y sugerencias. Las opiniones aquí expresadas y los errores aún presentes son mi exclusiva responsabilidad y no comprometen la posición oficial de las instituciones con las cuales estoy vinculado.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 36 — #36

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introducción

Actualmente la política monetaria en Colombia, se conduce por medio de un esquema de inflación objetivo (inflation targeting), que tiene como finalidad disminuir las tasas de inflación y buscar la estabilidad del producto alrededor de su tendencia de largo plazo. Bajo esta estructura la toma de decisiones del banco central, reflejadas principalmente en la tasa de interés como instrumento de política, se ve limitada en gran medida a los pronósticos que se hagan sobre la inflación. El producir adecuados pronósticos de inflación y otros agregados económicos para diferentes horizontes es una tarea difícil. La incertidumbre sobre la verdadera estructura de la economía y los mecanismos de transmisión obligan a los bancos centrales a usar diversas aproximaciones para pronósticar infación en lugar de confiar en un único modelo. Hoy en día existen diversas metodologías para pronosticar variables macroeconómicas como la inflación. Por un lado, el uso de modelos, en especial los multivariados como los Vectores Autorregresivos (VAR), han ganado sostenida popularidad desde que fueron introducidos en el ámbito econométrico hace ya 30 años [22]. Por otro lado, los pronósticos por juicio de expertos (combinado o no con modelos estadísticos-econométricos), a pesar de la dificultad de no informar como son usados los datos, son de gran utilidad para bancos centrales, puesto que permiten configurar escenarios factibles de corto plazo que usualmente involucran información no tenida en cuenta por los modelos, además del concenso y las expectativas de los agentes. En el grupo de modelos multivariantes se pueden ubicar los modelos estructurales grandes, estos modelos tienen la ventaja de producir pronósticos para diversas variables y producir clara intuición económica detras de la dinámica de los pronósticos. El problema de los modelos estructurales grandes es el uso de supuestos restrictivos que deben ser empleados para identificar la estructura de la economía. Por otra parte, los modelos VAR explotan la información presente en las series de tiempo macroeconómicas basados en una cantidad mínima de información estructural de la economía. Una ventaja de emplear pronósticos basados en modelos es que su bondad puede ser evaluada estadísticamente antes de usar el pronóstico, lo cual no es usualmente posible con los pronósticos de juicio. Las técnicas bayesianas, como es ilustrado en la literatura, pueden ser usadas para cerrar esta brecha entre las dos alternativas, mediante el uso de información preliminar o prior. Los pronósticos no condicionales de la inflación permiten ademas efectuar comparaciones con pronósticos de agentes externos al banco central. Esto posibilita que los directivos juzgen si se presentan diferencias significativas entre la percepción de los niveles de inflación de parte de los agentes del mercado y la suya propia. La estimación y pronóstico bayesiano se convierte en una alternativa intermedia entre el pronóstico subjetivo y aquel basado en un modelo (VAR por ejemplo) cuya estimación es guiada meramente por los datos. En este trabajo se aborda un ejercicio de pronósticos bayesianos VAR para la economía colombiana. Los resultados de este ejercicio muestran reducciones en la Raíz del Error Cuadrático Medio de Pronóstico (RECMP) relativas a las del VAR frecuentista desde 57.7 %

36 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 37 — #37

i

i

Inflación colombiana pronosticada con BVAR en el corto plazo y hasta de 52.8 % en el mediano plazo. Este trabajo pretende ser una contribución empírica a la literatura en este tópico para Colombia. Este documento esta organizado como sigue: En la sección dos se discuten los indicadores macroeconómicos colombianos; en la sección tres se presentan algunos resultados conceptuales de la estimación bayesiana de modelos VAR. En la sección cuatro se describen los ejercicios de estimación y pronóstico realizados, en la cinco se presentan los resultados de los mismos y finalmente en la sección seis se resume, concluye y recomiendan algunas extensiones al presente trabajo.

2.

El contexto colombiano

En esta sección brevemente se describe la evolución de los principales indicadores macroeconómicos colombianos durante parte del período de estudio (1984 hasta 2010), la importancia de estos radica en que están dentro del conjunto de información que es usado por el banco central (Banco de la República) para contextualizar los pronósticos y fijar sus metas de inflación. Durante la década de los noventa, Colombia experimentó una serie de cambios institucionales y de política económica que afectaron el desempeño macroeconómico y posiblemente alteraron la relación entre las variaciones del producto y de los agregados monetarios con la inflación. Dentro de éstos se destacan el proceso de apertura y liberalización comercial y financiera de principios de los años noventa; la reforma constitucional que le dio independencia y autonomía al banco central, estableció explícitamente la defensa del poder adquisitivo de la moneda como el objetivo principal de la política monetaria. A partir de 1992, se anunciaron las metas de inflación y a partir del 2000 se adoptó formalmente un régimen de inflación objetivo. La inflación se redujo de 32.4 % en 1990 a 1.8 % en marzo de 2010, mientras su volatilidad1 se redujo de 1.7 a 1.2, respectivamente, llegando a su máximo de 3.7 a mediados de 1999. Recientemente la volatilidad ha mostrado incrementos presentando nuevamente niveles de hasta 1.9 en el 2009 y reducciones hasta llegar a 0.2 a finales de 2010. La inflación colombiana aunque continúa en niveles bajos, comparada con la de sus principales socios comerciales, es aún objeto de preocupación para las autoridades económicas y para el público en general. La inflación, entendida como la tasa de variación del nivel observado de precios, los cuales se espera presenten niveles de equilibrio, hace considerar la estimación de modelos multivariantes que contemplen la posible existencia de dichos equilibrios de largo plazo. En este trabajo se modela la presencia de cointegración tanto con la alternativa de Johansen como con la bayesiana tradicional. Es de anotar que resultados de otros trabajos de evaluación de pronósticos de la inflación colombiana, a diferentes horizontes y diferentes periodicidades, muestran señales variadas. Los modelos utilizados actualmente por el banco central generan valores de error Cuadrático Medio de Predicción (RECMP o FMSE) de la inflación anual, para un año adelante, entre 1,5 y 9,7. Por ejemplo, [9] 1

Medida como la desviación estándar móvil de las doce inflaciones anuales más recientes.

37 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 38 — #38

i

i

Revista Elementos - Número 1 - Junio de 2011 presenta RECMP de 4.4 % a un trimestre y de 9.7 % a un año en una especificación, mientras que encuentran de 7.8 % a 16.5 %, a los mismos horizontes, usando otra especificación. [15] reporta 4.4 % a un trimestre y 1.6 % a un año (usando como período de evaluación enero 2004 hasta enero 2006). [8] reporta 1.7 % a 2.6 % usando datos trimestrales del período 2001: I - 2005: IV. [10], usando modelos factoriales dinámicos y series mensuales logra reducciones de 70 % en RECMP relativo a un modelo AR univariante, el período de evaluación es enero 2005 a junio de 2008.

3.

Vectores autorregresivos bayesianos

Esta sección se ocupa de los resultados conceptuales de estimación y pronósticos bayesianos en modelos VAR. Primero, por ser punto de referencia, se presenta la notación de los VAR frecuentistas y luego los conceptos de VAR bayesiano. 3.1.

Modelamiento VAR Frecuentista

Considere el modelo VAR(p) yt = δ + Φ1 yt−1 + ... + Φp yt−p + εt

(1)

y = (X ⊗ Ik )β + ε

(2)

εt ∼ N (0, Σε )

(3)

ó

con

donde yt denota un vector columna de k variables incluidas en el VAR para el período t, t = 1, 2, · · · , T ; y = vec(y1 , y2 , . . . , yT ), vector de kp × 1; X = 0 0 [X00 , X10 , . . . , XT0 −1 ]0 , con Xt = [1 yt0 yt−1 . . . yt−p+1 ]; ⊗ el producto Kronecker; el vector columna εt de dimensión k denota el termino de error, el cual cuantifica el punto hasta donde yt puede ser determinado exactamente por una combinación lineal de valores pasados de yt , con ponderaciones dadas por las constantes contenidas el el vector δ y en las matrices Φi ; β representa al vector de k + k 2 p parámetros generado por el operador vec(δ, Φ1 , . . . , Φp ), así por ejemplo para un VAR bivariado, k = 2, con p = 2 rezagos se tiene, y1t = δ1 + φ11,1 y1,t−1 + φ11,2 y2,t−1 + φ21,1 y1,t−2 + φ21,2 y2,t−2 + ε1t y2t = δ2 +

φ12,1 y1,t−1

+

φ12,2 y2,t−1

+

φ22,1 y1,t−2

+

φ22,2 y2,t−2

+ ε2t

(4) (5)

con  0 β = δ1 δ2 φ11,1 φ12,1 φ11,2 φ12,2 φ21,1 φ22,1 φ21,2 φ22,2

(6)

Otra notación útil en otros contextos, se puede encontrar en [1, sección 10.1].

38 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 39 — #39

i

i

Inflación colombiana pronosticada con BVAR La función de verosimilitud para el proceso gaussiano resulta entonces en,  l(β|y) =

1 2π

kT /2

−1/2

|IT ⊗ Σε | ×   (7) 1 0 −1 exp − ((y − (X ⊗ Ik )β) (IT ⊗ Σε )(y − (X ⊗ Ik )β) 2

Se ha mostrado [18], que el estimador máximo verosímil de β, bajo el supuesto de que εt se distribuye normal multivariante (0, Σε ), en cuyo caso coincide con el de mínimos cuadrados, esta dado por,  −1  0  βˆ = (X 0 X ⊗ Σε−1 ) (X ⊗ Σε−1 )y

(8)

y la matriz de varianza-covarianza está dada por,  −1 Σβˆ = (X 0 X ⊗ Σε−1 )

(9)

Resultados básicos sobre modelos VAR convencionales o frecuentistas, se pueden encontrar, por ejemplo, en Judge [13] y más completos en [18] el cual contiene, además, una revisión sobre VAR bayesiano. La estructura de los VAR convencionales conlleva un inconveniente serio. En la práctica es frecuente encontrar modelos VAR que estimados sin restricciones2 requiere estimar un gran número de parámetros, aún más en el caso de una cantidad moderada de variables y rezagos. Esto usualmente produce errores estándar grandes de los coeficientes estimados, lo cual puede deberse a que los coeficientes son en efecto cero o que los datos pueden no ser lo suficientemente informativos para producir estimaciones precisas de los coeficientes. 3.2.

Modelamiento VAR bayesiano

Una solución alternativa al problema de sobre-parametrización es la aproximación bayesiana. El problema de “sobre-parametrización” frecuentemente resulta en buen ajuste dentro de muestra pero un pobre desempeño del pronóstico fuera de muestra. Por esta razón, en este trabajo se emplean técnicas bayesianas, como las propuestas [16,4], en las cuales a priori se imponen restricciones inexactas sobre las matrices de coeficientes, con lo cual se configura un método útil para reducir la dimensionalidad asociada con el VAR no restringido, lo cual ha mostrado generar pronósticos más adecuados. La idea detras del procedimiento VAR bayesiano es asignar menos peso a los rezagos mas distantes pero sin restringirlos a cero, en tanto que permiten que este supuesto sea sobreajustado si se tiene evidencia fuerte en los datos que indique otra cosa. En la práctica, esto es implementado especificando distribuciones prior para los coeficientes del VAR, los cuales son tratados como variables aleatorias con valores esperados especificados previamente (a priori), y con la concentración 2

Es decir, todos los coeficientes en todas las k ecuaciones son estimados libremente.

39 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 40 — #40

i

i

Revista Elementos - Número 1 - Junio de 2011 (tightness) de las distribuciones las cuales son determinadas por un conjunto de hiperparámetros. Esta información es luego incorporada en la estimación junto con la información muestral para obtener la estimación final o posterior. Los modelos VAR bayesianos pueden ser vistos como un intermedio (puente) entre modelos multivariados de series temporales usados sólo para generar pronóstico y modelos interpretables de ecuaciones simultáneas. En el mismo sentido que la estimación de modelos de Equilibrio General Dinámicos Estocásticos (DSGE, por sus iniciales en inglés) el modelo bayesiano es visto como un intermedio entre calibración y estimación pura. En el contexto bayesiano tradicional, el vector de parámetros β sigue a priori una distribución normal multivariada con media conocida β ∗ y matriz de varianza-covarianza Vβ , consecuentemente la densidad prior es escrita como  f (β) =

1 2π

k2 p/2

  1 |Vβ |−1/2 exp − (β − β ∗ )Vβ−1 (β − β ∗ ) 2

(10)

En esta aplicación se sigue a [4] al especificar la desviación estándar de la distribución prior para el rezago l de la variable j en la ecuación i, es decir, el elemento i, j de la matriz l de coeficientes Φl , denotado por S(i, j, l) acorde a la siguiente representación. Combinando (10) con la verosimilitud (7), se obtiene la densidad posterior3 , obteniendo el resultado deseable y facilitador de conjugamiento (véase [13]), es decir, normalidad, densidad dada por   1 0 ¯ −1 ¯ ¯ f (β|y) ∝ exp − (β − β) Σβ (β − β) (11) 2 donde la media (y moda) posterior es4 h i−1 h i β¯ = Vβ−1 + (X 0 X ⊗ Σε−1 ) Vβ−1 β ∗ + (X 0 ⊗ Σε−1 )y y la matriz de varianza-covarianzas posterior es h i−1 ¯β = V −1 + (X 0 X ⊗ Σε−1 ) Σ β

(12)

(13)

ó ¯ −1 = V −1 + Σ −1 Σ β β βˆ

(14)

lo anterior implica que tanto la estimación puntual como la de la matriz de precisión (inversa de la matriz de varianzas-covarianzas) se pueden interpretar como promedio ponderado de la media y precisión a priori respectivas y las estimaciones frecuentistas; además, se mantiene el ya tradicional resultado de que ante mayor incertidumbre en las priors (varianzas prior tendiendo a infinito) 3 4

Excepto por una constante de proporcionalidad. Otra representación que no requiere invertir Vβ se encuentra en [18, sec. 5.4.2], la cual es útil cuando no se tiene información precisa sobre algunos de los coeficientes.

40 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 41 — #41

i

i

Inflación colombiana pronosticada con BVAR mayor similitud entre la estimación bayesiana y la estimación frecuentista, y, en el otro extremo a mayor certidumbre en las priors (varianzas a priori pequeñas) las densidades posterior estarán mas cerca de las priors. Por simplicidad computacional, en este trabajo se supone que Σε es fija y conocida5 . La media posterior así obtenida y presentada en (12) tiene la misma forma del estimador de Theil o de Cresta (Ridge Regression) usado en modelos lineales cuando los coeficientes son estimados con restricciones estocásticas, con lo cual se resuelve el problema de multi-colinealidad presente en los VAR no restringidos. Otra interpretación posible, y a veces útil, es el uso de información dummy explicada como información adicionada al sistema de ecuaciones del VAR. Véase [1, sección 10.2]. En la práctica, la media prior β ∗ y la varianza prior Vβ necesitan ser especificadas. Si todos los parámetros son considerados concentrados (shrinking) hacia cero, la media prior nula puede ser especificada. De acuerdo con Litterman [17], la varianza prior puede ser dada por

( (λ/l)2 vij (l) = (λθσi,i /lσj,j )2

si i = j si i = 6 j

(15)

donde vij (l) es la varianza prior del (i, j)−ésimo elemento de Φl , λ resulta ser la desviación estándar prior de los elementos de la diagonal de la matriz de primeros rezagos, Φ1 en (1); θ es una constante en el intervalo (0, 1), que controla la incertidumbre sobre los parámetros de primer rezago. Para rezagos propios de orden mayor a uno, la incertidumbre disminuye a 2 una velocidad dada por λl . σi,i es el elemento i−ésimo de la diagonal de Σε . Los términos determinísticos tienen varianza prior difusa. En la práctica, se 2 reemplaza σi,i por el elemento i−ésimo de la diagonal del estimador Máximo Verosímil de Σε en el modelo no restringido. El hiper-parámetro λ controla la concentración alrededor de cero de la distribución del primer rezago de la variable dependiente6 . Por ejemplo, para un modelo BVAR(2) bivariado,

y1t = 0 + φ11,1 y1,t−1 + φ11,2 y2,t−1 + φ21,1 y1,t−2 + φ21,2 y2,t−2 + ε1t y2t = 0 +

5 6

φ12,1 y1,t−1

+

φ12,2 y2,t−1

+

φ22,1 y1,t−2

+

φ22,2 y2,t−2

+ ε2t

(16) (17)

Para estudiar otros casos se puede consultar [1, sección 10.2] Es posible configurar valores de λ diferentes para cada ecuación.

41 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 42 — #42

i

i

Revista Elementos - Número 1 - Junio de 2011 con matriz de varianza - covarianza prior  ∞  ∞   λ2   2  λθσ2  σ1  2   λθσ1   σ2 Vβ = Vβ (θ, λ) =  λ2       0    

 0

 λ 2 2 

λθσ2 2σ1

2 

λθσ1 2σ2

2  λ 2 2

           (18)          

Los valores de cero para los interceptos de las ecuaciones se usan por generalizar, con el supuesto de incertidumbre total a priori sobre dichos valores. Note que si, por ejemplo, θ = 0, Vβ se reduce a:  ∞  ∞  λ2   0   0  Vβ = Vβ (0, λ) =  λ2      0  

 0

 λ 2 2

0 0  λ 2 2

              

(19)

Puesto que θ (con 0 < θ ≤ 1) controla todas las varianzas de los parámetros endógenos, es llamado parámetro de precisión total, mientras que λ es denominado como el parámetro de decaimiento (decay parameter). Note que la varianza de los coeficientes de una misma ecuación de un rezago es menor a medida que el rezago es mas grande7 . La figura 1 muestra esquemáticamente los resultados anteriores usando cuatro rezagos, e hiperparámetors arbitrarios λ = 0.6 y θ = 0.1. Valores distintos de estos últimos generan gráficas análogas, con debidos cambios en escala. Para la estimación bayesiana de sistemas integrados, la media prior es igualada a uno para el primer rezago de cada variable en su propia ecuación y todos los otros coeficientes igualados a cero. Por ejemplo, para un modelo BVAR(2) bivariado, 7

Valores de λ muy grandes junto con θ 6= 0, generan estimaciones puntuales cercanas a las frecuentistas.

42 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 43 — #43

i

i

Inflación colombiana pronosticada con BVAR

lag2 lag3 lag4

lag4

lag3

lag2

lag1

Coeficientes otras variables

lag1

Coeficientes variable dependiente

−2

−1

0

1

2

−2

−1

0

1

2

Figura 1. Estructura de las densidades prior de Litterman no cointegración.

las prior serían, y1t = 0 + 1y1,t−1 + 0y2,t−1 + 0y1,t−2 + 0y2,t−2 + ε1t

(20)

y2t = 0 + 0y1,t−1 + 1y2,t−1 + 0y1,t−2 + 0y2,t−2 + ε2t

(21)

y1t = y1,t−1 + ε1t

(22)

y2t = y2,t−1 + ε2t

(23)

es decir

esto es, cada variable es una caminata aleatoria, pero no necesariamente independientes pues Cov(ε1t , ε2t ) no se restringe a ser cero. Este supuesto es razonable pues las caminatas aleatorias usualmente generan pronósticos adecuados para

43 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 44 — #44

i

i

Revista Elementos - Número 1 - Junio de 2011 series de tiempo macro-económicas, sin embargo, esta condición es considerada solamente a priori, pues la densidad posterior depende de los datos. La figura 2 muestra este esquema, usando los mismos cuatro rezagos y valores de hiperparámetros que antes. Note que la única diferencia es la ubicación de la densidad prior del primer rezago de la primera variables, antes centrada en cero y ahora en uno. En esta especificación tradicional no se imponen las restricciones de Johansen [12]8 .

lag2 lag3 lag4

lag4

lag3

lag2

lag1

Coeficientes otras variables

lag1

Coeficientes variable dependiente

−2

−1

0

1

2

−2

−1

0

1

2

Figura 2. Estructura de las densidades prior de Litterman con cointegración.

8

Una revisión de literatura de BVAR con restricciones de cointegración está en [14].

44 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 45 — #45

i

i

Inflación colombiana pronosticada con BVAR 3.3.

Pronósticos en modelos BVAR

Los pronósticos y los Impulsos-Respuesta (IR), se calculan de forma convencional y tiene la propiedad de ser consistentes si T → ∞. Pero en la práctica el investigador debe trabajar con un T finito, además, obtener intervalos de credibilidad en forma analítica es difícil, en consecuencia en la práctica se recurre a métodos de simulación. El procedimiento bootstrap es utilizado para estimar errores estándar del pronóstico [17,5]. Se generan B simulaciones y en cada una de estas se realizan los siguientes pasos: • El procedimiento genera con reemplazamiento, una muestra de tamaño igual a la cantidad de observaciones disponibles, T , y números enteros aleatorios con distribución uniforme, It , donde t = 1, ...T . • Una nueva observación, yˆt , es obtenida como la suma de los pronósticos basados en los coeficientes estimados, más el vector de residuos de la muestra, It ; esto es, p X yˆt = Φˆj y t−j + εˆIt (24) j=1

los valores iniciales y−p+1 , · · · , y−1 , y0 son retenidos como fijos. • Un nuevo modelo BVAR es estimado usando las pseudo-observaciones, así obtenidas, recurrentemente se obtiene un valor de predicción usando las observaciones mas recientes: yˆT +l|T

= δˆ +

p X

ˆj y Φ T +l−j .

(25)

j=1

• La medida de Error Cuadrado Medio del Pronóstico, ECMP, l-pasos adelante es B 1 X i ECM P (l) = (ˆ y − y¯ˆT )2 (26) B i=1 T +l|T PB donde y¯ ˆT = (1/B) i=1 y¯ˆTi . 3.4.

Medidas de evaluación de pronóstico

La experiencia en la aplicación y uso de modelos BVAR ha mostrado que la mejor elección de los hiper-parámetros (β y Vβ ) se obtiene de la evaluación de pronósticos fuera de muestra; al respecto véase [23]; esa es la alternativa seguida en este trabajo9 . Con esa idea como objetivo, la estrategia de evaluación sigue los lineamientos del conocido Rolling de ventanas crecientes (expanding windows), el cual es un procedimiento en el que se generan pronósticos secuencialmente. 9

Una alternativa es usar métodos bayesianos jerárquicos, los cuales emplean densidades prior sobre los hiperparámetros, véase [1].

45 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 46 — #46

i

i

Revista Elementos - Número 1 - Junio de 2011 El primer período de datos para la estimación se extiende desde el primer trimestre de 1984 hasta el último trimestre de 1999, así ningún modelo es estimado con menos de 60 observaciones. Los coeficientes estimados en cada modelo VAR y BVAR son usados para generar pronósticos fuera de la muestra para horizontes h = 1, 2, . . . , 12 trimestres adelante, es decir, para 2000-I en adelante. Hecho esto, la muestra es ampliada con las observaciones del siguiente período, primer trimestre de 2000, cada modelo es re-estimado y esos coeficientes re-estimados son empleados para producir el pronóstico del período que inicia en 2000-II. Este procedimiento es continuado hasta el final del ciclo del que se dispone sobre observaciones, en este caso hasta incluir las observaciones de 2009-IV y solo el pronóstico de un paso adelante es considerado. Las predicciones del IPC y PIB son registradas y transformadas a variaciones año a año, i.e. inflación anual y crecimiento anual del PIB; las prediciones de la tasa de interés no son transformadas. Finalmente, las predicciones de las variables en escalas originales son comparadas con los valores observados en diferentes trimestres hacia adelante y los errores de predicción son calculados y almacenados. Cinco estadísticas se usan para medir la capacidad de pronóstico individual fuera de muestra, el Error Medio de Pronóstico (EMP), el Error Absoluto Porcentual Medio de Pronóstico (EAPMP), la Raíz del Error Cuadrático Medio de Pronóstico (RECMP), la Raíz del Error Cuadrático Porcentual Medio de Pronóstico(RECPMP) y la estadística U de Theil. Sus fórmulas aparecen a continuación: EM P (h) = (p − h + 1)

−1

p−l  X



(27)

∗ 100

(28)

ZT −p+r+h − ZˆT −p+r+h

r=0

EAP M P (h) = (p − h + 1)−1

p−h X

ˆ

ZT −p+r+h − ZT −p+r+h

r=0

|ZT −p+r+h |

v u p−h 2 u X RECM P (h) = t(p − h + 1)−1 ZˆT −p+r+h − ZT −p+r+h

(29)

r=0

v u p−h u X t −1 RECP M P (h) = (p − h + 1) r=0

ZˆT −p+r+h − ZT −p+r+h ∗ 100 ZT −p+r+h

2 Pp−h  ˆ Z − Z T −p+r+h T −p+r+h r=0 U − T heil(h) = Pp−h 2 r=0 (ZT −p+r+h − ZT −p+r )

!2 (30)

(31)

donde h = 1, 2, 3, . . ., denota el horizonte de tiempo (número de trimestres) sobre el cual se realiza el pronóstico, T es el tamaño de la serie efectiva usada par realizar la predicción, p indica el número de observaciones que son excluidas al final de la serie para hacer comparaciones fuera de muestra, r = 1, . . . , p indica el aumento de tamaño de la sub-muestra usada para la evaluación.

46 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 47 — #47

i

i

Inflación colombiana pronosticada con BVAR Note que la U − T heil compara cada modelo a cada horizonte contra el pronóstico obtenido de un modelo de Caminata Aleatoria Univariada. Adicionalmente, se calcula la estadística de Diebold y Mariano [3], DM en adelante bajo este enfoque, se parte de la hipótesis nula en la cual el nuevo modelo no genera mejores pronósticos que el existente o de referencia, contra la alternativa que el modelo en consideración mejora al modelo de referencia (benchmark). Interesa por tanto rechazar la hipótesis nula. H0 = DMi ≥ 0

(32)

Ha = DMi < 0

(33)

DM1 = (O − P N )2 − (O − P R)2

(34)

DM2 = |O − P N | − |O − P R|

(35)

para i = 1 y 2, usando

donde O : Dato observado, P R : Pronóstico modelo referencia, P N : Pronóstico modelo nuevo, obs : número de observaciones usadas para pronosticar. Bajo la hipótesis nula, tanto DM1 como DM2 se distribuyen cada una como una normal estándar. Así, lo deseable es obtener valores para estas estadísticas menores que cero (0) con p-valores pequeños. Adicionalmente, se usa la corrección propuesta por Harvey et al (1997), la cual presenta una aproximación más potente cuando se aplica en muestras pequeñas, tiene en cuenta la posible correlación serial de los errores de pronóstico, y emplea aproximación a la densidad t-student, en lugar de la Normal.

4.

Metodología

En esta sección se presenta primero una breve descripción de la base de datos y la metodología empleada, y luego se resumen los principales resultados de los ejercicios realizados. La base de datos tiene periodicidad trimestral desde 1984-I hasta 2010-IV. Contiene el Producto Interno Bruto a precios de 1994, PIB; el índice de Precios al Consumidor, IPC, calculado como promedio geométrico de los datos mensuales, este último estacionalmente ajustado y con base 1994; la Tasa de Interés de depósitos a término fijo 90 días, (calculada por el Banco de la República); la Base monetaria, en este caso el dato de cada trimestre corresponde al promedio aritmético de los datos mensuales (fin de período) fuente base de datos semanal del Banco de la República; el índice de la tasa de cambio real efectiva es calculado con el IPP de ocho países socios comerciales de Colombia y tiene fuente SGEE del Banco de la República, el cual se refiere al promedio que incluye 8 paises socios comerciales y los respectivos índices de precios del productor. Todas las variables, excepto las tasa de interés, están expresadas en logaritmos, se desestacionalizan con el procedimiento TRAMO-SEATS (véase [7]). Ningún

47 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 48 — #48

i

i

Revista Elementos - Número 1 - Junio de 2011 de los modelos considerados incluye variables dicotómicas ni estacionales, ni de otra clase, tampoco tendencias deterministas. Se estiman diferentes modelos VAR. En cuanto al ordenamiento de las series, se siguen los lineamientos de Eichenbaum y Evans [6], así como Christiano, Eichenbaum y Evans [2]. Los modelos VAR se estiman con las siguientes variables: IPC, PIB, BASE, Tasa de Interés de los CDT 90 días y la Tasa de Cambio Nominal, con ese ordenamiento de la variable mas endógena a la mas exógena, ordenamiento que según resultados de Eichenbaum y Evans [6] evita el “acertijo de los precios” (price puzzle). Es decir, puede evitar el resultado de otros modelos VAR, donde los precios se incrementarían significativamente luego de un alza en la tasa de interés. Las alternativas de especificación son las siguientes: para la primera, se usan todas las series diferenciadas, en la segunda en niveles y sin considerar restricciones de cointegración (rango de cointegración r = 0) y la tercera y última, series en niveles y considerando como restricción una relación de cointegración (r = 1).

5.

Resultados principales

Para la elección de los hiper-parámetros λ y θ, se evalua cuál combinación de valores de estas constantes produce mejores pronósticos de la inflación anual, según estadística de RECMP y usando el período 2000-2006. Luego de realizar una búsqueda de malla medianamente exhaustiva, según longitud de rezago e hiper-parámetros, los resultados de bondad del pronóstico son alentadores. Los valores de λ y θ, encontrados para cada modelo, son los que se muestran en el cuadro 1; los resultados que siguen utilizan estas especificaciones:

Especificación Rango Co-integr. rezago λ θ RECMP Diferencias 0 3 0.01 0.01 2.043 Niveles 0 1 0.01 0.01 0.762 Niveles 1 4 0.90 0.90 2.518 Fuente: Cálculos del autor

Cuadro 1. Especificación e hiperparámetros para los diferentes BVAR.

Se ha escogido iniciar el período de pronóstico fuera de la muestra tipo rolling en 2000-I, para disponer de suficientes datos que consideren el cambio de régimen posterior a la recesión de 1998-1999. Sin embargo, ejercicios con submuestras de este período muestran resultados similares a los reportados, y están disponibles del autor a solicitud del interesado. Al considerar los resultados de bondad del pronóstico de los modelos BVAR (no presentados por brevedad) es claro que, de no seleccionar adecuadamente los valores de los hiperparámetros, se puede estar sujeto a errores de pronóstico

48 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 49 — #49

i

i

Inflación colombiana pronosticada con BVAR bastante grandes, generando incluso pronósticos más imprecisos que los obtenidos al usar modelos VAR equivalentes. Pero por otro lado, la adecuada selección de dichas constantes es de gran ayuda, como se describe más adelante. El cuadro 2 presenta los resultados de evaluación de la bondad de los pronósticos de la inflación anual para el período 2005-I hasta 2010-IV. En adelante y por brevedad, solo se presentan las medidas de bondad de pronóstico para horizontes 1, 2, 4, 6 y 8 trimestres en adelante, así como el promedio de 1 a 12 trimestres10 . Como es usual, en general, las estadística RECMP y U − T heil lo muestran, el desempeño se deteriora a medida que el horizonte de pronóstico incrementa11 . De allí es claro que el BVAR se hubiera desempeñado mejor que la caminata aleatoria univariada (note los valores de las estadísticas U-Theil) e incluso que el VAR frecuentista. La figura 3 ilustra los pronósticos tipo rolling de la inflación. En la misma dirección el cuadro 3 muestra los resultados de las estadísticas de DM para inflación, evaluadas para el mismo período y usando como modelo de referencia una caminata aleatoria univariada. Note que en ningún caso, empleando los niveles de significación convencionales, se logra rechazar la hipótesis nula de igualdad de bondad de pronósticos de cada modelo VAR y BVAR y el de la caminata aleatoria. El resultado a corto plazo, 1-2 trimestres en adelante, muestra niveles adecuados, pero el pronóstico de mediano plazo, 6 a 8 trimestres, presenta demasiada incertidumbre. Actualmente las autoridades económicas, las organizaciones internacionales y otras agencias locales acostumbran considerar los pronósticos puntuales acompañados con un indicador de incertidumbre, lo cual diferencia los modelos de otros métodos. Para ilustración, se presenta el resultado de los pronósticos en tiempo real, ex-ante, es decir, después del final de la muestra (2010-IV). La figura 4 presenta los pronósticos de inflación anual fuera de muestra desde 2011-I hasta 2012-IV con sus respectivos intervalos de pronóstico empleando para ello el modelo BVAR antes seleccionado, por ser éste el que mejores pronósticos de inflación genera. El modelo predice que la inflación anual colombiana descenderá, con pequeños repuntes, hasta alcanzar niveles de 1.3 % (promedio trimestral) al final del 2012. El resultado de intervalo del pronóstico es importante cuando el banco central trabaja bajo el esquema de inflación objetivo, como lo hace el Banco de la República desde el año 2000, estos mustran aumento de la incertidumbre para finales del año 2011.

6.

Comentarios finales

En este trabajo se estimaron modelos VAR con aplicación de las técnicas bayesianas. El pronóstico fuera de muestra de un modelo de Vectores Autorregresivos con técnicas bayesianas (BVAR), el cual contiene Precios al Consumidor, PIB, la 10 11

No obstante, los resultados completos están disponibles para quien los requiera. Es de resaltar que un modelo con estadístico U −T heil mayor a uno, no necesariamente significa un pronóstico inadecuado.

49 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 50 — #50

i

i

Revista Elementos - Número 1 - Junio de 2011 Modelo

EM EAMP EAPMP RECPM RECPMP U-Theil l-promedio (1, ..., 12) BVAR (N, r=0) 0.607 1.197 27.804 1.584 35.401 0.727 NAIVE -0.839 1.791 56.273 2.201 85.793 1 VAR (D) -0.846 1.814 55.485 2.286 86.017 1.005 BVAR (D) -0.638 1.987 59.096 2.43 87.317 1.128 BVAR (N, r=1) -1.653 2.289 69.239 2.793 101.98 1.213 VAR (N, r=1) -3.805 3.994 112.162 4.68 140.371 1.982 VAR (N, r=0) -5.508 5.535 153.888 5.831 184.389 2.481 l=1, NOBS =24 BVAR (N, r=0) 0.143 0.442 10.614 0.555 12.736 0.734 VAR (D) -0.076 0.461 10.566 0.563 12.827 0.745 BVAR (N, r=1) -0.105 0.465 10.422 0.565 12.902 0.748 VAR (N, r=1) -0.295 0.552 13.194 0.663 15.808 0.877 NAIVE -0.129 0.55 12.916 0.756 18.655 1 VAR (N, r=0) -0.516 0.677 16.533 0.816 20.02 1.08 BVAR (D) 1.132 1.132 24.548 1.27 25.961 1.681 l=2 NOBS =23 BVAR (N, r=0) 0.306 0.739 17.23 0.986 22.117 0.757 VAR (D) -0.156 0.771 17.867 1.019 24.344 0.783 BVAR (N, r=1) -0.303 0.814 19.014 1.071 25.682 0.823 NAIVE -0.278 0.979 25.438 1.302 37.595 1 BVAR (D) 1.05 1.148 24.909 1.357 27.796 1.042 VAR (N, r=1) -0.814 1.145 28.783 1.381 35.924 1.061 VAR (N, r=0) -1.372 1.492 39.188 1.803 49.867 1.385 l=4 NOBS =21 BVAR (N, r=0) 0.66 1.327 31.358 1.732 40.174 0.824 BVAR (D) 0.722 1.434 32.73 1.913 47.099 0.91 VAR (D) -0.513 1.531 42.081 2.082 69.935 0.991 NAIVE -0.616 1.55 48.55 2.102 81.963 1 BVAR (N, r=1) -1.108 1.799 48.802 2.317 76.505 1.102 VAR (N, r=1) -2.536 2.86 81.753 3.396 107.295 1.615 VAR (N, r=0) -4.086 4.086 116.364 4.579 149.727 2.178 l=6 NOBS =19 BVAR (N, r=0) 0.687 1.35 31.805 1.774 41.075 0.701 NAIVE -0.953 2.008 68.502 2.53 112.835 1 BVAR (D) -0.987 2.001 66.534 2.655 115.191 1.049 VAR (D) -0.84 2.021 66.293 2.656 113.626 1.05 BVAR (N, r=1) -1.684 2.313 76.358 3.022 127.449 1.194 VAR (N, r=1) -3.983 4.07 121.224 5.026 162.545 1.986 VAR (N, r=0) -6.01 6.01 168.275 6.315 202.143 2.496 l=8 NOBS =17 BVAR (N, r=0) 0.705 1.347 31.365 1.801 40.522 0.643 NAIVE -1.199 2.369 76.695 2.803 114.929 1 VAR (D) -1.2 2.473 81.387 3 126.255 1.07 BVAR (D) -1.441 2.532 83.983 3.035 129.244 1.083 BVAR (N, r=1) -2.099 2.977 97.285 3.459 144.698 1.234 VAR (N, r=1) -5.311 5.377 153.415 6.351 191.194 2.265 VAR (N, r=0) -7.346 7.346 201.536 7.54 234.56 2.69 Fuente: Cálculos del autor

Cuadro 2. Estadísticas de Bondad de Pronóstico, Inflación 2005-I a 2010-IV.

tasa de interés y la base monetaria de la economía colombiana. Se compara el pronóstico de la inflación con el de una caminata aleatoria univariada, y contra los modelos VAR convencional de la misma especificación. Los resultados de los modelos BVAR en varias de las configuraciones mejoran en bondad estadística de pronóstico a sus rivales, al menos, en lo que refiere a la inflación. De los pronóstico BVAR el que no restringe el pronóstico para que cumpla relaciones de cointegración, usa 6 rezagos (BVAR-5) y genera mejores pronósticos

50 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 51 — #51

i

i

Inflación colombiana pronosticada con BVAR Modelo

DM1 P-Valor(DM1 ) DM2 P-Valor(DM2 ) Promedio l = 1, ..., 12 BVAR (N, r=0) 1.93 0.97 1.2 0.89 NAIVE 2.62 1 2.92 1 VAR (D) 3.67 1 2.93 1 BVAR (D) 4.18 1 3.57 1 BVAR (N, r=1) 3.82 1 3.51 1 VAR (N, r=1) 7.89 1 7.42 1 VAR (N, r=0) 8.59 1 8.42 1 l=1, NOBS =41 BVAR (N, r=0) 2.19 0.99 2.46 0.99 VAR (D) 3.5 1 3.53 1 BVAR (N, r=1) 3.28 1 3.62 1 VAR (N, r=1) 5.26 1 5.54 1 NAIVE 4.2 1 6.49 1 VAR (N, r=0) 4.78 1 5.29 1 BVAR (D) 6.39 1 6.54 1 l=2 NOBS =40 BVAR (N, r=0) 3.07 1 2.52 0.99 VAR (D) 2.46 0.99 1.95 0.97 BVAR (N, r=1) 3.74 1 3.28 1 NAIVE 2.43 0.99 2.63 1 BVAR (D) 6.17 1 6.2 1 VAR (N, r=1) 4.41 1 5.08 1 VAR (N, r=0) 5.57 1 5.44 1 Harvey et al [11]. Fuente: Cálculos del autor

Cuadro 3. Estadísticas de Diebold-Mariano modificada. Inflación 2000-I a 2008-II.

Figura 3. Pronósticos rolling de inflación.

51 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 52 — #52

i

i

Revista Elementos - Número 1 - Junio de 2011

Figura 4. Inflación: Pronóstico fuera de muestra hasta 2012-IV con intervalos de credibilidad.

de la inflación para el período considerado, el término de RECPM. Reduciendo este indicador desde el 32.0 % respecto al VAR, cuando se pronostica un trimestre adelante, y hasta del 76.1 % cuando la predicción se hace a ocho trimestres. Este trabajo, entonces, muestra alguna evidencia empírica relacionada con el desempeño de las posibles especificaciones VAR bayesianas para pronosticar la inflación. En consideración a que los modelos VAR están siendo cada vez mas usados para generar pronósticos, se espera que técnicas como la usada en este artículo ganen relevancia entre los usuarios tanto del sector académico como privado e institucional. En resumen, los hallazgos aquí presentados sugieren que los BVAR que no incorporan restricciones de cointegración proporcionan una alternativa prometedora y práctica para producir pronósticos más adecuados para la inflación en Colombia. Este resultado puede servir para complementar un modelo estructural y ayudar a mejorar la bondad del pronóstico, aportando una visión alternativa a los pronósticos existentes. No está de más advertir que éste no pretende ser un trabajo que utilice todos los resultados teóricos disponibles hoy en día ni mucho menos proponer metodologías inéditas, por el contrario, es apenas un trabajo modesto inicial que, si al caso pretende algo, es ser una referencia para futuros trabajos que usando datos de la economía colombiana apliquen técnicas más novedosas ya disponibles en la literatura internacional. En ese orden de ideas, se listan abajo algunas de

52 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 53 — #53

i

i

Inflación colombiana pronosticada con BVAR las posibilidades para la agenda de investigación tanto para estadísticos como para econometristas y economistas. Como trabajo de investigación futura, valdría la pena ensayar este ejercicio usando datos mensuales, o más aún frecuencias mezcladas (datos trimestrales con cifras preliminares mensuales) como en [21]. También, se puede pensar en modelos BVAR con otras priors, por ejemplo no conjugadas, lo cual conduce a la necesidad de usar métodos computacionales como los MCMC, así como alternativas de BVAR, considerando estacionalidad explícitamente y en forma dinámica como en [20] ó [19]. En un contexto un poco diferente, sería interesante intentar ajustar y usar modelos BVAR con parámetros cambiantes en el tiempo, como [1] sugiere o como lo hacen en [21] para considerar los cambios inducidos por la estrategia de inflación objetivo. Queda pendiente evaluar el efecto que ha de tener el excluir coeficientes de rezagos no significativos en cada ecuación de la representación VAR, es decir, estimar con restricciones de igualdad a cero de algunos coeficientes. En otra línea de investigación queda evaluar los pronósticos condicionales como en [23].

Referencias 1. Canova, F.: Methods for Applied Macroeconomic Research. Princeton University Press, Princeton, New Jersey. (2007) 2. Christiano, L., Eichenbaum, M., Evans C.: Nominal Rigidities and the Dynamic Effects of a Shock to Monetary Policy. Journal of Political Economy, 2005, vol. 113, No. 1, pp. 1-45. (2005) 3. Diebold, F. X., Mariano R.S.: Comparing Predictive Accuracy. Journal of Business and Economic Statistics, 13, 253-263. (1995) 4. Doan, T., Litterman R. B., Sims Ch. A.: Forecasting and Conditional Projection Using Realistic Prior Distributions. Econometric Reviews, 3, 1-100. (1984) 5. Efron, B.: Bootstrappnig Methods: Another Look at the Jacknife. Annals of Statistics, 7, 1-26. (1979) 6. Eichenbaum, M., Evans C.: Some Empirical Evidence on the Effects of Shocks to Monetary Policy on Exchange Rates. The Quarterly Journal of Economics, Vol. 110, No. 4. (Nov.), pp. 975-1009. (1995) 7. Goméz, V., Maravall, A.: Program SEATS and TRAMO: Instructions for the user. Working Paper No. 9682, Banco de España. (1996) 8. González A., Melo, L. F., Posada C. E.: Inflación y Dinero en Colombia: Otro Modelo P-Estrella. Borrador de Economía 418, Banco de la República, noviembre. (2006) 9. González E., Grajales A. : Pronósticos directos de la inflación colombiana. Borrador de Economía 458, Banco de la República, octubre. (2007) 10. González E., Melo L. F., Monroy V., Rojas B.: A Dynamic Factor Model for the Colombian Inflation. Borrador 549 Banco de la República, enero. (2009) 11. Harvey, D. I., Leybourne S. J., Newbold P.: Testing the Equality of Prediction Mean Squares Errors. International Journal of Forecasting, vol. 13, pp 281-291. (1997) 12. Johansen, S.: Likelihood-based Inference in Cointegrated Vector Autoregresive Models, Oxford University Press, Oxford. (1995)

53 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 54 — #54

i

i

Revista Elementos - Número 1 - Junio de 2011 13. Judge, G. G., Griffiths, W. E., Hill, R. C., Lütkepohl H., Lee T-C.: Introduction to the Theory and Practice of Econometrics, Second Edtion, John Wiley, New York. (1989) 14. Koop, G., Strachan R., Van Dijk H., Villani M.: Bayesian Approaches to Cointegration, in K. Patterson and T. C. Mills (eds), Palgrave Handbook of Econometrics, Volume 1: Econometric Theory, Palgrave Macmillan, Houndmills. (2005) 15. Langebaek, A., González E.: Inflación y precios relativos en Colombia. Borradores de Economía, 459 Banco de la República. (2007) 16. Litterman, R. B.: A Bayesian Procedure for Forecasting with Vector Autorregresions. Federal Reserve Bank of Minneapolis, Working Paper. (1981) 17. Litterman, R. B.: Forecasting with Bayesian Vector Autoregressions - Five Years of Experience. Journal of Business and Economic Statistics, vol. 4, No 1, pp. 25-38. (1986) 18. Lütkepohl, H.: New Introduction to Multiple time Series Analysis. Springer, Berlin. (2005) 19. Quillis, E. M.: Modelos BVAR: Especificación, Estimación e Inferencia, WP: Papeles de Trabajo Editados por el Instituto de Estudios Fiscales, No. 8, España. (2002) 20. Raynauld, J., Simonato J. G.: Seasonal BVAR Models, Journal of Econometrics, vol. 55, pp. 203-229. (1993) 21. Robertson, J. C., Tallman, E. W.: Vector Autoregressions: Forecasting and Reality. Federal Reserve Bank of Atlanta, Economic Review, first quarter, páginas 4-18. (1999) 22. Sims, Ch. A.: Macroeconomics and Reality, Econometrica, vol. 48, No. 1, pp. 1-48. (1980) 23. Villani, M.: Inference in Vector Autoregressive Models with an Informative Prior on the Steady State. Sveriges Riksbank Working Paper Series, No. 181, March, Stockholm. (2005)

54 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 55 — #55

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 56 — #56

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 57 — #57

i

i

Métodos de inferencia estadística para entrenamiento de modelos ocultos de Markov Ricardo Antonio Mendoza León? Politécnico Grancolombiano

Fecha de recepción: 28 de abril de 2010 Fecha de aprobación: 9 de junio de 2010

Resumen Este documento presenta una revisión general de las diferentes aproximaciones y métodos en inferencia estadística, aplicados al problema de entrenamiento o ajuste de parámetros en Modelos Ocultos de Markov. Se tratarán los algoritmos EM (Expectation Maximization) y GEM (Generalized Expectation Maximization), el marco de modelos gráficos y sus algoritmos ML (Maximum Likelihood) y MAP (Maximum a Posteriori), así como modelos de conjunto, variacionales y métodos de muestreo MCMC (Markov Chain Montecarlo). Abstract This paper presents an overview of the different approaches and methods in statistical inference, applied to the problem of training or parameter adjustment of Hidden Markov Models. We review the EM (Expectation Maximization) and GEM algorithms, the graphical models framework includding the ML (Maximum Likelihood) and MAP (Maximum a Posteriori) algorithms, ensemble and variational models, and Markov Chain Montecarlo (MCMC) sampling methods. Palabras Clave: inferencia estadística, modelos ocultos de Markov, algoritmo EM, modelos gráficos, modelos variacionales, muestreo MCMC. Keywords: statistical inference, hidden Markov models, EM algorithm, graphical models, variational models, MCMC sampling.

?

Ingeniero de Sistemas de la Universidad de los Andes, Bogotá, Colombia. Docente de cátedra del Politécnico Grancolombiano en las asignaturas de Programación de Computadores y Redes II. Entre sus intereses académicos se encuentran la Bioinformática, Machine Learning, Seguridad Informática y la Compresión de Datos. ramendoza@poli.edu.co. El proyecto de investigación del cual es producto este documento ha sido financiado por la Fundación Politécnico Grancolombiano, mediante el contrato de investigación No: 2010-D4-FICB-C5-BC-14, del 14 de diciembre de 2009.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 58 — #58

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introducción

Durante los últimos 30 años, los Modelos Ocultos de Markov (HMM), se han transformado en una herramienta de amplio uso en la comunidad científica. Dado lo anterior, se han desarrollado valiosos aportes a diferentes problemáticas como reconocimiento de voz [40], Bioinformática [2,30,41], Finanzas [20] y Control estocástico [14]. El aprendizaje en HMM, es un complejo problema de optimización estocástica multi paramétrica, dada su alta complejidad dimensional, la existencia de múltiples óptimos locales y la limitada cantidad de muestras empleadas en el entrenamiento. Obtener un HMM que represente adecuadamente las características del espacio poblacional de interés, requiere del análisis profundo del espacio poblacional y la selección e implementación de un método de aprendizaje adecuado para la topología del HMM. Este documento presenta una revisión global de los diferentes métodos disponibles en la inferencia estadística, aplicados al problema de la estimación de los parámetros del HMM [10]. La segunda sección provee de una breve introducción a los HMM, características relevantes de su topología y los tres problemas básicos en su uso. En la sección tres se presentará el algoritmo clásico para el ajuste de parámetros Baum-Welch [3,39], extendiendo en aspectos de su derivación, para el caso discreto bajo el marco del algoritmo EM [13,38]. Adicionalmente se introducirá el algoritmo Baldi-Chauvin [1] como propuesta alternativa al algoritmo Baum-Welch bajo el marco del algoritmo GEM [38]. En la sección cuatro, se presentará un recuento de metodologías alternativas en inferencia estadística, aplicadas al HMM y la inferencia de sus parámetros, incluyendo un recuento de la literatura a la fecha, de aplicaciones prácticas en diversas problemáticas.

2.

Modelos ocultos de Markov

Los HMM nos permiten modelar la dinámica de un sistema (oculto), al cual no podemos acceder (observar) de forma directa; por el contrario de forma indirecta mediante la observación de eventos externos, suponemos que están correlacionados con dicho sistema y su estado. Existen diversas razones por los cuales el sistema no es accesible de forma directa, como la imposibilidad física o la presencia de ruido en la medición [39,13]. De forma general definimos un HMM, como un modelo probabilístico, utilizado para representar la probabilidad conjunta de un conjunto de variables aleatorias [6]. En este conjunto de variables aleatorias distinguimos dos tipos. El primero corresponde a los posibles eventos o símbolos observables Ot , que pueden presentarse al realizar una observación indirecta del sistema oculto. El segundo corresponde al estado en el cual se encuentra el sistema oculto Qt durante una observación. Las variables aleatorias de observación, puede ser bien discretas O = o ∈ V = {1, 2, . . . , L}, o continuas. La medida de probabilidad en cada caso estará

58 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 59 — #59

i

i

Métodos para entrenamiento de modelos ocultos de Markov definida, bien por una función de masa de probabilidad (pmf) o por una función de densidad de probabilidad (pdf) de tipo gaussiano generalmente [6,14,39,13]. Las variables aleatorias de estado oculto son discretas y finitas Qt ∈ {1, 2, . . . , N }, pero variantes como los HMM infinitos [4], permiten superar esta restricción. Con base en estos dos tipos, son construidas secuencias de variables aleatorias tanto de observaciones O = {O1 = o1 , O2 = o2 , . . . , Ot = ot } como de estados ocultos del sistema Q = {Q1 , Q2 , . . . , Qt }. De esta forma, el par (O, Q), representa la posible historia dinámica del sistema oculto. La probabilidad de una determinada secuencia de estados ocultos q = {q1 , q2 , . . . , qL } es calculada empleando probabilidades de transición entre los estados, siguiendo un proceso de Markov [15,45]. En este proceso la probabilidad de tran  t=k t=l sición de estado, asume invariancia en el tiempo P qit=k qi−1 = P qit=l qi−1 y dependencia, únicamente frente a los k estados anteriores P (qi |qi−1 , qi−2 , . . . , qi−k , . . . , q1 ) = P (qi |qi−1 , qi−2 , . . . , qi−k ). Para el caso k = 1, tenemos un HMM de primer orden y su proceso es descrito mediante cadenas de Markov condicionales. Los HMM de primer orden son tradicionalmente los más usados. La razón de esto, deriva en la simplificación de los cálculos, mediante el empleo de técnicas de programación dinámica, explotadas por algoritmos como forward, backward, Viterbi y Baum-Welch. Definimos un HMM de primer orden, mediante la tripla λ = (π, A, B) donde πi = P (Q1 = qi ) es el vector de probabilidad inicial para los estados ocultos, A = {aij } = P (Qt = j |Qt−1 = i ), es la matriz de probabilidad de transición de estados y B = {bi (Ot )} = P (Ot = ot |Qt = i ), es la matriz de probabilidad de difusión para las observaciones, dado el estado oculto actual. 2.1.

Tres problemas básicos en HMM

Existen tres problemas básicos al emplear HMM [39], los cuales son: 1. Problema de la evaluación: dada una secuencia de observaciones O = (o1 , o2 , . . . oL ) y un HMM λ = (π, A, B), determinar P (O|λ). Los algoritmos: forward o backward son comúnmente utilizados en su solución. 2. Problema de la decodificación: dada una secuencia de observaciones O = (o1 , o2 , . . . oL ), y un HMM λ = (π, A, B), encontrar la secuencia de estados ocultos k Qk = q1k , q2k , . . . qL , tal que:  Qk = m´ aix P Qi |λ, O (1) Q

Su solución se obtiene mediante el algoritmo de Viterbi [47]. 3. Problema del aprendizaje: dada una secuencia de observaciones O = (o1 , o2 , . . . oL ) determinar los parámetros del modelo λ∗ = (π, A, B), tal que:  i λ∗ = m´ a x P O|λ (2) i λ ∈Ω

Donde Ω corresponde al espacio de parámetros en la topología del HMM particular. El algoritmo empleado tradicionalmente para su solución es el algoritmo Baum-Welch o también conocido como forward-backward.

59 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 60 — #60

i

i

Revista Elementos - Número 1 - Junio de 2011 2.2.

Topología del HMM

La topología del HMM, hace referencia a la cantidad de parámetros y restricciones sobre los mismos. La cantidad de estados dependerá del conocimiento a priori de las características del sistema oculto en estudio y como éste se manifiesta. Sin embargo no existen limitaciones sobre el número máximo de estados ocultos y símbolos observables que pueden representar un HMM. También es posible definir restricciones sobre las matrices de transición, difusión y estado inicial. Comúnmente estas restricciones son creadas empleando probabilidades con valor cero. Las restricciones aportan significado semántico a los estados del modelo oculto y sus transiciones, creando un mecanismo para la formulación de hipótesis estructurales sobre el sistema oculto. Las topologías no ergódicas de izquierda a derecha o left to right, de uso común en reconocimiento de voz [42,40], y topologías cíclicas con restricciones parciales de transición empleadas en Bioinformática son algunos ejemplos [41,46,9].

3. 3.1.

Inferencia por máxima verosimilitud Algoritmo Baum-Welch

El algoritmo Baum-Welch es un método de reestimación iterativa de los parámetros del HMM. En cada iteración, Baum-Welch calcula un nuevo conjunto de parámetros λ∗ = (π ∗ , A∗ , B ∗ ) con base en los parámetros actuales λ = (π, A, B), de forma tal que el modelo ajuste mejor la muestra: P (O|λ∗ ) ≥ P (O|λ)

(3)

La convergencia del algoritmo a un óptimo local está garantizada (Wu, 1983), siempre y cuando el espacio de parámetros sea continuo y no presente restricciones de transición. 3.2.

Derivación EM del algoritmo Baum-Welch

El algoritmo Baum-Welch es un caso especial del algoritmo de Maximización de Expectativa (EM) sobre el modelo estocástico representado por los HMM [13,38,49,6]. EM es un método iterativo general de ajuste de máxima verosimilitud, en distribuciones sobre variables aleatorias ocultas. EM, asume la existencia de un conjunto de “información completa” Z = (X, Y ) así como la existencia de una densidad de probabilidad conjunta sobre éste: P (Z|Θ) = P (X, Y |Θ) = P (Y |X, Θ) P (X|Y, Θ)

(4)

Donde X y Y , son denominadas: la información incompleta, proveniente de variables observables y la información oculta, proveniente de variables no observables, respectivamente.

60 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 61 — #61

i

i

Métodos para entrenamiento de modelos ocultos de Markov La distribución de la densidad de probabilidad conjunta, sobre la información completa e incompleta, es definida mediante la construcción de relaciones entre los valores X y Y . Con base en esto, se define la función de verosimilitud sobre los parámetros Θ, de la distribución conjunta de información completa: L (Θ|Z) = L (Θ|X, Y ) = P (X, Y |Θ)

(5)

El algoritmo EM, calcula el valor esperado del logaritmo de la función de verosimilitud de información completa, para los nuevos parámetros Θ , dados los parámetros actuales Θi−1 :   Q Θ, Θi−1 = E log P (X, Y |Θ) |X, Θi−1

(6)

La anterior expresión se conoce como el paso de expectativa (E). El segundo paso, de maximización (M), el cual busca determinar el conjunto de parámetros Θi que maximice la función Q: Θi = m´ ax Q Θj , Θi−1



(7)

Θj ∈Ω

En el caso del algoritmo Baum-Welch, los pasos de expectativa y maximización son realizados de forma simultánea. Inicialmente se define la función de expectativa Q para el HMM: Q (λ, λ0 ) =

X

log (P (O, q|λ))P (O, q|λ0 )

q

=

X

|O|=L

log πq0

Y

q

|O|=L

aqt−1 ,qt bqt (ot )π 0q0

Y

a0qt−1 ,qt b0qt (ot )

(8)

t=1

t=1

De lo anterior se obtiene el siguiente resultado ordenando los términos: 0

Q (λ, λ ) =

X

0

logπq0 P (O, q|λ ) +

q

L X X q

+

log bqt (ot ) P (O, q|λ0 )

t=1

L X X q

!

! log aqt−1 ,qt P (O, q|λ0 )

(9)

t=1

Para obtener los parámetros λ, se procede optimizando cada término independiente en la expresión anterior, mediante el método de PN de multiplicadores PN Langrange, agregando las restricciones estocásticas i=1 π1 = 1, j=1 ai,j = 1 PM y j=1 bi (o (j)) = 1. Resolviendo y despejando los parámetros del modelo, se obtienen los términos de reestimación del algoritmo Baum-Welch:

61 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 62 — #62

i

i

Revista Elementos - Número 1 - Junio de 2011

πi =

αi (1) βi (1) N P

(10)

αj (1) βj (1)

j=1 L−1 P

ai,j =

ξi,j (t)

t=1 L−1 P

(11) γi (t)

t=1 L−1 P

bi (k) =

δot ,vk γi t=1 L−1 P

(t) (12)

γi (t)

t=1

Donde αi (t = l), es la probabilidad de observar la secuencia parcial O = (o1 , o2 , . . . ot=l ) y finalizar en el estado oculto i, o probabilidad forward βi (t = l), es la probabilidad de continuar del estado oculto i en t = l, y luego observar la secuencia O = (ot=l+1 , ol+2 , . . . ot=T ), o probabilidad backward:

αi (1) = πi bi (o1 )

αi (t + 1) = bi (o1 )

N X

! αi (t) ai,j

(13)

i=1

βi (L) = 1

βi (t) =

N X

ai,j bj (ot+1 ) βj (t + 1)

(14)

j=1

La expresión γi (t) es la probabilidad de encontrarse en el estado i en momento t, dada una secuencia de observaciones O. ξi,j (t) es la probabilidad de continuar al estado oculto j, dado que se encuentra en el estado i en el instante t = l, observando la secuencia O.

γi (t) =

αi (t) βi (t) N P

(15)

αj (t) βj (t)

j=1

ξi,j (t) =

αi (t) αi,j bj N N P P

(ot+1 ) βi (t + 1)

(16)

αi (t) αi,j bj (ot+1 ) βi (t + 1)

i=1 j=1

El proceso para los casos con múltiples secuencias de observación y secuencias de observación continuas es análogo. Estos se obtienen modificando la definición de función de expectativa de información completa. En el caso de múltiples secuencias de observación, asumiendo que estas son independientes, se obtiene:

62 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 63 — #63

i

i

Métodos para entrenamiento de modelos ocultos de Markov

Q (λ, λ0 ) =

X

     log P O(1...m) , q|λ P O(1...m) , q|λ0

q

 =

X q

 log 

Y

πq 0

i |OY |=Li

oi ∈O (1...m)

Y

π 0q0

oi ∈O (1...m)

i |OY |=Li

t=1

  aqt−1 ,qt bqt oit ×

a0qt−1 ,qt b0qt oit



(17)

t=1

Para el caso sobre espacios de observación continuos, las densidades condicionales de difusión suelen ser mixturas gaussianas, exponenciales o Dirichlet [39,6,14]. Más detalles de su derivación para el caso continuo pueden ser consultados en [6,13,39,38]. Las expresiones de reestimación del algoritmo Baum-Welch tienen una fuerte relación con los parámetros seleccionados al inicio del algoritmo. Lo anterior es una debilidad del método. Es de vital importancia seleccionar los mismos con especial atención, con el fin de obtener buenos resultados. Otro problema son las probabilidades de transición iguales a cero. Baldi y Chauvin [1], puntualizan sobre las implicaciones de contar con probabilidades de transición o emisión iguales a cero. Dado su carácter absorbente que puede afectar la convergencia y ajuste del modelo. 3.3.

Algoritmo Baldi-Chauvin

El algoritmo de Baldi-Chauvin [1], al igual que el algoritmo Baum-Welch, es un método iterativo, de ascenso de gradiente, que busca estimar los parámetros de máxima verosimilitud para el HMM, con base en las observaciones disponibles. El método es una propuesta al aprendizaje tanto en línea (Online Learning) [33], como en lote, de los parámetros del HMM frente a una o múltiples secuencias. El aprendizaje en línea es un proceso empleado en problemas que requieren ajuste dinámico del modelo. Para cada ejemplo de entrenamiento, se ajusta y evalúa el nuevo modelo obtenido. Los algoritmos en línea buscan principalmente minimizar el error de evaluación luego de cada ejemplo presentado [34]. El algoritmo Baum-Wech para múltiples secuencias emplea un proceso de aprendizaje en lote, en el cual todas las secuencias se evalúan a la vez, y por tanto no es aplicable para el aprendizaje en línea [1]. Baldi y Chauvin motivan su propuesta en problemas del algoritmo BaumWelch, como los saltos abruptos del espacio de parámetros durante la reestimación, indeseables para el aprendizaje en línea. Sus debilidades frente a topologías izquierda - derecha y los efectos de las probabilidades de transición o emisión iguales a cero. La idea fundamental del método consiste en representar tanto las probabilidades de transición como emisión del HMM, mediante expresiones exponenciales normalizadas:

63 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 64 — #64

i

i

Revista Elementos - Número 1 - Junio de 2011

eτ wij N P eτ wij

ai,j =

(18)

i=1 τ vij

e

bi (ot = j) =

N P

(19) eτ vij

i=1

Donde τ , es un factor de temperatura, que ajusta la reestimación del modelo. De esta forma, los parámetros a ajustar en el modelo corresponden a wij y vij . Esta representación elimina las probabilidades iguales a 0 y suaviza la variación de los parámetros en la reestimación. Los nuevos parámetros se obtienen mediante las diferencias: " ni,j (O) −

N P

!

#

ni,j (O) ai,j

j=1

∆wi,j = η

(20)

L (λ|O) " mi,j (O) −

∆vi,j = η

M P

!

#

mi,j (O) bi (o = j)

j=1

L (λ|O)

(21)

Donde η, es la tasa de aprendizaje, L (λ|O) es la función de verosimilitud para el modelo actual y ni,j , mi,j la cantidad de i → j transiciones y emisiones, dada la observación y el modelo actual respectivamente. De la reestimación anterior, se obtiene un incremento marginal monotónico no necesariamente máximo de la función de verosimilitud respecto al modelo actual. El método Chauvin-Baldi es un caso especial del algoritmo GEM [38,6,1,5] que a diferencia de EM, su convergencia solo exige:   Q Θi , Θi−1 > Q Θ, Θi−1 (22)

4. 4.1.

Propuestas alternativas en inferencia de parámetros para HMM Modelos de conjunto

La idea general de los modelos de conjunto o ensembles [12,36,18], se fundamenta en suponer que los modelos inferidos contienen información parcial sobre las características del sistema oculto real. De lo anterior es posible construir un modelo consenso que sintetice la mayor cantidad de información sobre las características del modelo oculto real, contenida en modelos particulares.

64 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 65 — #65

i

i

Métodos para entrenamiento de modelos ocultos de Markov Una de las ventajas de esta aproximación, a diferencia de los métodos EM y GEM, es poder contar con indicadores para la incertidumbre en los parámetros, como por ejemplo, los intervalos de confianza. Los modelos particulares representan diferentes resultados del entrenamiento sobre una o múltiples observaciones individuales. Así proveen diferentes puntos de vista sobre el modelo real. Una fortaleza de estos métodos, es aprovechar la información contenida en modelos sobre estimados. En los métodos ensemble, los parámetros del modelo son variables aleatorias, regidas por una familia de distribuciones caracterizada por un conjunto de hiperparámetros. En este sentido, los parámetros de cada modelo generado, constituyen una muestra sobre el espacio de parámetros del HMM. El modelo consenso corresponde al valor esperado de los parámetros dada la familia de distribuciones definida. Los hiperparámetros son ajustados, empleando diversos métodos como máxima verosimilitud, momentos o EM. La propuesta de McKay [36], define la familia de distribuciones como la distribución posterior en un modelo de inferencia bayesiano, donde las probabilidades a priori son evaluadas mediante distribuciones Dirichlet parametrizadas. Otro ejemplo de modelo ensemble pondera conjuntos de parámetros para construir el modelo consenso [12]. Los modelos ensemble han sido aplicados en problemas como reconocimiento de escritura [27] y alineación de proteínas [44]. 4.2.

Modelos gráficos

Los modelos gráficos [28,43,24,26,22,10,7] son métodos de representación y análisis de modelos probabilísticos mediante el uso de grafos. En estos, los nodos corresponden a variables aleatorias y los arcos representan supuestos de independencia o dependencia condicional entre variables. De esta forma es posible analizar y obtener probabilidades marginales y condicionales de interés, mediante el empleo de técnicas y algoritmos derivados de la teoría de grafos. Dada la naturaleza de las relaciones de dependencia e independencia condicional, presente en los HMM, es posible aplicar esta metodología y sus técnicas para plantear y solucionar diferentes problemáticas. Los HMM, de cualquier orden y topología, corresponden a casos particulares en el contexto de los modelos gráficos [28]. Existen dos clases de representación de modelos gráficos, los dirigidos y los no dirigidos, representados por grafos dirigidos acíclicos y grafos no dirigidos, respectivamente. Los HMM son expresables en forma natural mediante la representación dirigida de los supuestos de dependencia condicional entre parámetros y variables aleatorias. Existen diversas técnicas de inferencia probabilística, análogas a los algoritmos: forward, backward y Viterbi, de carácter exacto y aproximado. Un ejemplo de estos últimos es el muestreo de Cadenas Markov Montecarlo o MCMC. Los mecanismos de inferencia exacta, calculan probabilidades de interés mediante la evaluación eficiente y exhaustiva de las funciones de densidad o masa de probabilidad condicional –sobre las variables aleatorias presentes en el

65 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 66 — #66

i

i

Revista Elementos - Número 1 - Junio de 2011 grafo– explotando su topología. Ejemplos de métodos exactos son el Junction Tree Algorithm [26], Factor Analysis y Component Analysis [50]. En modelos gráficos, se dispone de diversas aproximaciones para el aprendizaje de los parámetros. Bajo información completa (todas las variables aleatorias son observables), el algoritmo de Maximización de Verosimilitud (ML) determina los parámetros, maximizando la función de verosimilitud sobre la información disponible. N X L (θ) = log p (xn |θ) (23) i=1

El algoritmo Máximo a Posteriori (MAP) [16], incorpora conocimiento a priori disponible, mediante una distribución (generalmente Dirichlet), sobre los parámetros p (θ). Con base en esta distribución, MAP encuentra los parámetros que maximizan la distribución posterior p (θ|d), respecto la información d maximizando: N X L0 (θ) = L (θi ) + log p (θi ) (24) i=1

En aprendizaje con información incompleta, se pueden extender los algoritmos ML y MAP, bajo el marco del algoritmo EM. Aquí tanto ML como MAP proveen las estadísticas necesarias sobre las relaciones entre variables observables y ocultas, requeridas por la función de expectativa de información completa. Más detalles de la derivación detallada de las expresiones de reestimación para ML y MAP, se pueden consultar en [43,16,8]. 4.3.

Modelos variacionales

Cuando no es posible o implica mucho trabajo aplicar métodos de optimización exacta sobre determinada función – objetivo; bien por la intratabilidad de las expresiones o el número de parámetros involucrados, los modelos variacionales [19,23,17,29,7] permiten estimar una distribución compleja, mediante el empleo de una distribución computable, más simple q (θ). Un ejemplo de esto, es aproximar la distribución marginal p (x), con base en la distribución a priori p (x, y|θ) y la distribución a posteriori p (x|θ) respecto a los parámetros θ y variables ocultas y, mediante el empleo de una cota inferior: ZZ ZZ p (x) = p (x, y|θ) dθdy = p (y|x, θ) p (x|θ) dθdy (25) Tomando logaritmos, agregando la distribución desconocida q (θ, y) y aplicando la desigualdad de Jensen, se obtiene la cota inferior para p (x): ZZ

p (y|x, θ) p (x|θ) p (x) = log q (θ, y) dθdy q (θ, y) ZZ p (y|x, θ) p (x|θ) ≥ q (θ, y) log dθdy q (θ, y)

(26)

66 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 67 — #67

i

i

Métodos para entrenamiento de modelos ocultos de Markov Si q (θ, y) = (y, x|θ), entonces la desigualdad se transforma en una igualdad. Lo anterior ocurre si la divergencia Kullback-Leiber (KL) entre las dos distribuciones es igual a 0: ZZ p (x, θ|y) KL (q|p) = q (θ, y) log dθdy (27) q (θ, y) De forma análoga a la anterior, es posible aplicar esta técnica en el contexto de los HMM, bien sobre los algoritmos EM, GEM o los algoritmos ML y MAP en modelos gráficos. Se invita al lector a consultar [24,19,16,18], para más detalles frente a la derivación de las aproximaciones para EM y modelos gráficos. Para una introducción en la derivación computacional de la distribución q (θ, y), mediante el método de elementos finitos, se puede consultar [19]. Ejemplos de aplicación del método variacional sobre HMM pueden consultarse en [21,35]. 4.4.

Métodos de muestreo

Las técnicas de muestreo son procedimientos utilizados para obtener conjuntos independientes de muestras, respecto a una distribución de probabilidad dada. Estas muestras, provenientes de la distribución de interés, se pueden emplear en procesos de inferencia estadística tanto de probabilidades como de parámetros [7]. El problema fundamental de estas técnicas radica en la obtención de muestras, en forma independiente para la distribución dada, ya que esto último no es trivial en todos los casos. El muestreo de cadenas de Markov Montecarlo (MCMC) [37,7], es un conjunto general de técnicas de muestreo simulado, que emplean distribuciones construidas mediante cadenas de Markov, para generar muestras independientes con base en la distribución de interés. Ejemplos de técnicas MCMC son: el muestreo unidimensional como importancia, de rechazo y Metrópolis. El muestreo de Gibbs [37,7], es una poderosa técnica de muestreo multidimensional empleado en la generación de muestras independientes. El muestreo simula cadenas de Markov cuyas probabilidades de transición se definen empleando la distribución de probabilidad condicional para cada variable en la distribución de interés. La ventaja de utilizar distribuciones de probabilidad condicional sobre cada variable, se debe a que estas distribuciones son más simples de derivar, comparadas con la distribución de probabilidad conjunta de todas las variables. Los procesos MCMC, mediante muestreo Gibbs, han sido empleados ampliamente en el problema de inferencia de parámetros, particularmente en el marco de los métodos gráficos [11,26] como alternativa a métodos exactos, como lo son los algoritmos ML, MAP; tanto para el caso de información completa como también para la incompleta. MCMC ha sido empleado con éxito, como método de aproximación en el marco del algoritmo EM, para la inferencia de los parámetros de HMM [45,21,10,31]. Una desventaja del método es el recurso de cómputo requerido para generar muestras suficientes y obtener buenas aproximaciones. Por otra parte, estos

67 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 68 — #68

i

i

Revista Elementos - Número 1 - Junio de 2011 métodos reducen sustancialmente el sobre ajuste de parámetros y la dependencia de un modelo inicial, problema muy común en el algoritmo Baum-Wech. El método MCMC sobre HMM, ha sido empleado en problemas como la predicción de terremotos [48] y ontología de genes [32].

Referencias 1. Baldi, P., Chauvin, Y.: Smooth On-Line Learning Algorithms for Hidden Markov Models. Neural Cornputation 6, 307-318. (1994) 2. Baldi, P., Brunak, S.: Bioinformatics: the machine learning approach. Boston: MIT Press. (2001) 3. Baum, L. E., Petrie, Soules, G., Weiss, N.: “A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains” Ann. Math. Stat., vol. 41, no. 1, 164-171. (1970) 4. Beal, M. J., Ghahramani, Z., and Rasmussen, C. E.: The infinite hidden Markov model. Advances in Neural Information Processing Systems, volume 14. Cambridge: MIT Press. (2002) 5. Bengio, Y., Frasconi P.: Input/Output HMMs for sequence processing. IEEE Transactions on Neural Networks 7(5), 1231-1249. (1996) 6. Bilmes, J. A.: A gentle tutorial on the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden markov models. Technical Report ICSI-TR-97-02, University of Berkeley. (1998) 7. Bishop, C. M.: Pattern Recognition and Machine Learning. New York: Springer. (2006) 8. Blanchet, J., Vignes, M.: A Model-Based Approach to Gene Clustering with Missing Observation Reconstruction in a Markov Random Field Framework. En Journal of Computational Biology, Vol 16, No 3. 475-486. (2009) 9. Boufounos, P., El-Difrawy, S., Ehrlich, D.: Hidden Markov Models for DNA Sequencing. Proceedings of Workshop on Genomic Signal Processing and Statistics (GENSIPS 2002), Raleigh, NC, USA. (2002) 10. Cappé, O., Moulines, E. and Rydén, T.: Inference in Hidden Markov Models. New York: Springer. (2005) 11. Chu, W., Ghahramani, Z., Wild, D.: A graphical model for protein secondary structure prediction. En Proc. 21st Ann. Intl. Conf. on Machine Learning (ICML), Banff, Canada. (2004) 12. Davis, R., Lovell, B. C.: Comparing and evaluating hmm ensemble training algorithms using train and test and condition number criteria. Pattern Anal Appl 6(4). 327-335. (2003) 13. Dempster, A. P, Laird, N. M., Rubin, D. B.: Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological), Vol. 39, No. 1., 1-38. (1977) 14. Elliott, R. J., Aggoun, L., Moore, J. B.: Hidden Markov Models Estimation and Control., 3ed. New York: Springer. (2008) 15. Ephraim, Y., Neri Merhav, N.: Hidden Markov Processes. IEEE Transactions on Information Theory, Vol. 48, No. 6. (2006). 16. Ghahramani, Z.: Graphical models: parameter learning. En Arbib, M. A. (Ed). The Handbook of Brain Theory and Neural Networks. Cambridge, MA: MIT Press. (1995)

68 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 69 — #69

i

i

Métodos para entrenamiento de modelos ocultos de Markov 17. Ghahramani, Z., M. Beal.: Graphical Models and Variational Methods. En M. Opper and D. Saad (Ed). Advanced Mean Field Methods - Theory and Practice. Cambridge, MA: MIT Press. (2001) 18. Heo, G., Woo, Y. W., Kim, K. B.: Properties of Ensemble Learning for Discrete Hidden Markov Models and Updating Prior Strategy. (2007) 19. Jaakkola, T. S.: Tutorial on variational approximation methods. En Advanced mean field methods. Cambridge, MA: MIT Press. (2001) 20. Jalen, L.: Some contributions to filtering theory with applications in financial modelling. Tesis Doctoral, Brunel University. (2009) 21. Jianfeng, G., Johnson, M.: A comparison of Bayesian estimators for unsupervised Hidden Markov Model POS taggers. En Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. 344-352. (2008) 22. Jiao, F.: Probabilistic Graphical Models and Algorithms for Protein Problems. Tesis Doctoral, University of Waterloo. (2007) 23. Jordan, M., Ghahramani, Z., Jaakkola, T. S., Saul, L.: An introduction to variational methods for graphical models. En Learning in graphical models. 105-161. Cambridge, MA: MIT Press. (1999) 24. Jordan, M. I.: (Ed). Learning in Graphical Models. Cambridge, MA: MIT Press. (1999) 25. Jordan, M. I.: Graphical models, exponential families, and variational inference. UC Berkeley Dept. of Statistics, Tech. Rep. 629. (2003) 26. Jordan, M. I.: Graphical Models. Statist. Sci., 19, 140-155. (2004) 27. Ko, A. H. R., Sabourin, R., Britto A. Jr.: Ensemble of HMM classifiers based on the Clustering Validity Index for a Handwritten Numeral Recognizer. Pattern Analysis and Applications Journal. (2008) 28. Lauritzen, S. L.: Graphical Models. Oxford Science Publications. (1996) 29. Lawrence, N. D.: Variational inference guide. Technical report, The University Of Sheffield Machine Learning Group. (2002) 30. Lesk, A. M.: Introduction to Bioinformatics. New York: Oxford University Press Inc. (2002) 31. Liang, K., Wang, X., Anastassiou, D.: Bayesian Basecalling for DNA Sequence Analysis Using Hidden Markov Models. En IEEE/ACM Transactions on Computational Biology and Bioinformatics 4, No. 3, 430-440. (2007) 32. Liang, K., Nettleton, D.: A Hidden Markov Model Approach to Testing Multiple Hypotheses on a Gene Ontology Graph. Dep. of Stat. Iowa State University. (2009) 33. Littlestone, N.: Learning quickly when irrelevant attributes abound: A new linearthreshold algorithm. Mach. Learning 2, 2, 285-318. (1988) 34. Littlestone, N., Warmuth, M. K.: The Weighted Majority algorithm. Information and Computation, 108, 212-261. (1994) 35. McGrory C. A., Titterington, D. M.: Variational Bayesian Analysis for Hidden Markov Models. En Australian & New Zealand J. of Stat. Vol, No 2, 227 - 244. (2009) 36. McKay, D. J. C.: Ensemble learning for hidden Markov models. Technical report, Cavendish Laboratory, University of Cambridge. (1997) 37. McKay, D. J. C.: Information Theory, Inference and Learning Algorithms. New York: Springer (2000) 38. McLachlan, G., Krishnan, T.: The EM Algorithm and Extension. New York: John Wiley and Sons. (1997) 39. Rabiner, L. R.: A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE 77(2), 257-286. (1989)

69 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 70 — #70

i

i

Revista Elementos - Número 1 - Junio de 2011 40. Rabiner, L., Juang, B. H.: Fundamentals of Speech Recognition. Prentice Hall Signal Processing Series. New Jersey: Prentice Hall. (1993) 41. Seligmann, C.: Uso de Modelos Escondidos de Markov en Biología Molecular Computacional., Poliantea No 9, Bogotá: Politécnico Grancolombiano. (2009) 42. Shinozaki, T., Furui, S.: Hidden mode HMM using bayesian network for modeling speaking rate fluctuation. Proc. of ASRU, (US Virgin Islands), 417-422. (2003) 43. Smyth, P., Heckerman, D., Jordan, M. I.: Probabilistic independence networks for hidden Markov probability models. Neural Computation, 9(2), 227-269. (1997) 44. Song, J., Liu, C., Song, Y., Qu, J., Hura, G. S.: Alignment of multiple proteins with an ensemble of Hidden Markov Models. International Journal of Data Mining and Bioinformatics. Vol 4, No 1, 60-71. (2010) 45. Stroock, D. W.: An Introduction to Markov Processes, Berlin: Springer. (2005) 46. Tusnády, G. E., Simon, I.: Principles Governing Amino Acid Composition of Integral Membrane Proteins: Application to Topology Prediction. J. Mol. Biol. No 283, 489-506. (1998) 47. Viterbi, A. J.: Error bounds for convolutional codes and an asymptotically optimal decoding algorithm. IEEE Transactions on Information Theory, Vol. 13, 260-269. (1967) 48. Werner M. J., Ide, K., Sornette, D.: Earthquake Forecasting Based on Data Assimilation: Sequential Monte Carlo Methods for Renewal Processes. (2009) 49. Wu, C. EJ.: On the convergence properties of the EM algorithm. Annals of Statistics, 11, 95-103. (1983). 50. Zhang, J., Ghahramani, Z., Yang, Y.: Learning Multiple Related Tasks using Latent Independent Component Analysis. Proceedings of NIPS 2005, Vancouver, Canada. (2005)

70 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 71 — #71

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 72 — #72

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 73 — #73

i

i

Enseñanza de programación en el Politécnico Grancolombiano. Situación actual y aplicación de TIC como alternativa de mejora Nicolás Malaver? , Camilo Rey?? , Julián Rodríguez? ? ? Politécnico Grancolombiano

Fecha de recepción: 23 de noviembre de 2010 Fecha de aprobación: 15 de diciembre de 2010 Resumen La enseñanza de programación resulta central en los procesos de formación de los programas relacionados con las ciencias de la computación, la ingeniería de sistemas y la ingeniería de software. La formación en esta área particular del conocimiento en dichos programas tiene una particular importancia, porque de su éxito depende buena parte del desempeño académico de los estudiantes en asignaturas futuras del programa. Sin embargo, durante los últimos 20 años, la mayor parte de los procesos educativos han mantenido el mismo enfoque con resultados mezclados. En este trabajo se presenta una breve reseña de los enfoques tanto conceptuales como metodológicos aplicados históricamente, y se contextualiza la situación presente en el Politécnico Grancolombiano en torno a la formación en programación con énfasis en las dificultades actuales; y se presenta una alternativa de aplicación de TIC bajo la forma de una herramienta de software para la enseñanza de conceptos básicos de programación que puede facilitar los procesos de enseñanza – aprendizaje en las asignaturas asociadas. Abstract The teaching of programming is a key point within the educative processes of the programs related to computing, systems engineering, and software engineering. Education in this particular area of knowledge in the aforementioned programs has specific importance because its success depends greatly on the academic performance that students have in future subjects belonging to the program. However, during the last 20 years, most of the educative processes have kept the same approach, with mixed results. In this work, we present a brief description of the conceptual and methodological approaches historically applied. We also contextualize the current situation at the Politécnico Grancolombiano regarding education n programming, with emphasis on the difficulties experienced nowadays, and present an alternate application of ICTs as a software tool for teaching the basic concepts of programming that can facilitate the teaching – learning processes in the related subjects. ? ?? ???

Ingeniero de Sistemas. Universidad Nacional de Colombia. nmalaver@poli.edu.co Matemático. Universidad de los Andes. creytorres@poli.edu.co Ingeniero de Sistemas. Universidad Nacional de Colombia. jerodrig@poli.edu.co

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 74 — #74

i

i

Revista Elementos - Número 1 - Junio de 2011 Palabras Clave: educación, programación, algoritmos, aprendizaje, enseñanza, TIC. Keywords: education, programming, algorithms, learning, teaching, ICTs.

1.

Introducción

El concepto de programación, en múltiples sentidos, precede la existencia de los computadores. Artefactos cuyo comportamiento seguía un patrón definido por un conjunto de instrucciones codificadas utilizando diferentes medios, existieron desde épocas antiguas. Ejemplos de ello pueden encontrarse en múltiples escenarios desde los autómatas programables de al-Jazari [1], hasta el uso de tarjetas perforadas para controlar comportamientos y almacenar información promovidas por Charles Babbage y Herman Hollerith en el siglo XIX [2]. Incluso, si la inclinación existe, puede argumentarse que mecanismos aún más antiguos demuestran el interés, la capacidad y el trabajo orientados a la definición programática de comportamientos complejos a través de la modificación de la estructura física de las máquinas en cuestión (el mecanismo de Antikythera [3] es un ejemplo que se trae a colación de manera regular). Sin embargo, el contexto en que se ubica este documento es la programación de computadores bajo la acepción más moderna del término (la construcción de secuencias de instrucciones en un lenguaje formal específico, concebidas para lograr la solución de un problema bien definido, mediante el aprovechamiento de la potencia de cálculo de un computador). En este sentido, las primeras aproximaciones formales al desarrollo de programas pueden trazarse a la década de 1950, momento en el cual los procesos de codificación estaban basados en el uso de lenguaje de máquina y código binario, con las evidentes dificultades que esto implicaba. La aparición subsecuente de lenguajes de programación de alto nivel (FORTRAN en 1954 y COBOL en 1959 fueron dos de los más conocidos y exitosos) implicó un movimiento muy importante hacia adelante en términos de los paradigmas, estrategias, herramientas y potencial de la programación como campo de acción [4,5]. A partir de ese momento, la evolución se desarrolló en proporción geométrica. Nuevos lenguajes aparecieron y fueron olvidados o reemplazados por mejores alternativas, y nuevos paradigmas fueron construidos con el fin de mejorar los procesos de desarrollo de programas de software. Entre los paradigmas mencionados, uno de los más importantes en el panorama histórico fue el de la programación estructurada que surgió a finales de la década de 1960. La programación estructurada es una aproximación a la solución de problemas de programación, utilizando tres estructuras de flujo del programa: la secuencia, la selección y la repetición [6]. Durante las siguientes décadas, este enfoque sería uno de los preferidos para el desarrollo de software y evidentemente, la enseñanza de estrategias de desarrollo de software. Sin embargo, y como resulta evidente, el campo de las aproximaciones al desarrollo de software, así como el de los mecanismos utilizados para impartir conocimiento alrededor de este tema no son campos en los que el crecimiento

74 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 75 — #75

i

i

Enseñanza de programación en el Politécnico Grancolombiano sea lento o poco constante. A lo largo de las últimas décadas, cambios de paradigma han sido comunes y bienvenidos. La aparición de diferentes y novedosas aproximaciones (la programación orientada por objetos, la programación orientada a agentes, y la programación orientada a aspectos son sólo algunos ejemplos), así como el creciente énfasis en procesos organizados de desarrollo de software, han sido eventos de una relevancia muy alta en el escenario del desarrollo de software. Es este, un escenario en constante crecimiento, y uno que reviste una importancia muy alta. Dada la actual ubicuidad de las soluciones de software, resulta evidente que buenas prácticas y enfoques adecuados redunden en un beneficio global, que se sale de la esfera del desarrollo abstracto de programas correctos y entre en la escena cotidiana de las soluciones prácticas a problemas físicos. En un mundo con estas características, se necesitan personas capacitadas para desarrollar el tipo de soluciones requeridas. Y resulta por tanto imprescindible ofrecer mecanismos de educación que cultiven este tipo de personas.

2.

Educación y programación

El aprendizaje de la programación es un área de la enseñanza en la que no se aprecia un consenso real. Existen diferentes enfoques y posibilidades al momento de enfrentar el proceso de transmisión del conocimiento, y dichos enfoques generan, por definición, diferentes resultados. Una de las líneas de pensamiento que ha permeado el medio académico es la noción de que la enseñanza de la programación trasciende la mera transmisión de los mecanismos y conceptos técnicos necesarios para escribir un código formalmente correcto. En muchos escenarios educativos se considera la programación “el latín del sílabo escolar” [7], queriendo implicar que el proceso de aprender a programar es uno que desarrolla y fortalece habilidades que van más allá de lo que usualmente se considera, robusteciendo particularmente aquellas de comprensión, descomposición y resolución de problemas, y no solamente creando capacidades técnicas. En ese sentido, resulta necesario separar dos espacios conceptuales fundamentales que en muchas ocasiones se consideraron no solamente adyacentes, sino incluso intercambiables: la habilidad conceptual de resolución de problemas y la habilidad técnica para la escritura de código, es decir, resulta necesario comprender que, como diría Elliot Solloway, saber dónde poner un punto y coma en un programa no lleva forzosamente a una mejor resolución de problemas [8]. Sin embargo esta propuesta que suena sólida y natural en su concepto teórico, se enfrenta con problemas al momento de ser puesta en práctica. Y esto sucede por varios motivos. En primer lugar, a pesar de que efectivamente puede argumentarse que los programadores expertos poseen habilidades de descomposición y solución de problemas que no están disponibles de manera natural para los programadores novicios, no es clara la ruta a través de la cual se llega a ese estado. En la mayor parte de los casos, los programadores no pueden explicar de una manera no ambigua el camino que los llevó al nivel de abstracción y comprensión en el que se encuentran. La transmisión de herramientas y habilidades para descomponer un problema, plantear una solución al mismo, escribirla en un lenguaje determinado

75 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 76 — #76

i

i

Revista Elementos - Número 1 - Junio de 2011 y finalmente identificar y resolver los errores que puedan presentarse durante la implementación es un proceso que ha demostrado no ser para nada simple, y en muchas ocasiones difícilmente repetible. Por otro lado, la separación de la solución del problema y su posterior implementación en un lenguaje específico no resulta tan simple como se desearía, pues muchas de las alternativas existentes para resolver una situación dependen de las herramientas y opciones que ofrezca el lenguaje a utilizar [7]. Es claro entonces que la enseñanza de las habilidades y competencias asociadas con la programación presentan retos que deben ser superados, si se pretende obtener un nivel de aprendizaje adecuado y parejo en los estudiantes. Buscando soluciones en este sentido, se han planteado un número de enfoques que abordan la cuestión desde diferentes perspectivas. Sin embargo, una aproximación resulta evidente en esta área de conocimiento, y es apoyada en diversos espacios y escenarios educativos: el uso de herramientas tecnológicas para superar la brecha cognitiva que existe entre los estudiantes y el tema a aprender. El trabajo en este sentido ha sido abundante y ha producido un sinnúmero de herramientas que pueden clasificarse en varias categorías [9]: Herramientas de organización semántica: son herramientas que apoyan a los educandos para que apropien el conocimiento a través de un proceso de estructuración del mismo. En esta categoría se encuentran los motores de bases de datos y las herramientas para la generación de mapas conceptuales. Herramientas de modelado dinámico: este tipo de herramientas permite encontrar y representar los vínculos que existen entre las ideas que se trabajan. Aquí están herramientas tales como hojas electrónicas, los sistemas expertos, y los micromundos. Herramientas de interpretación de información: en esta categoría se encuentran herramientas que permiten organizar y procesar grandes volúmenes de información. Herramientas tales como las de visualización de datos están en este grupo. Herramientas de conversación y construcción: se agrupan aquí herramientas que permiten la construcción de conocimiento a través del intercambio de información. Ejemplos de este tipo de herramienta son los chats y las teleconferencias. De particular interés en esta taxonomía es el grupo de los micromundos. Las aplicaciones que pueden ser catalogadas en esta división ofrecen al usuario un conjunto de herramientas con las que puede manipular el comportamiento de elementos que existen dentro del ambiente modelado por el software, de acuerdo con un conjunto de reglas previamente definidas. Esta aproximación experimental y que permite la modificación a voluntad del comportamiento de un escenario, se presta de manera natural y muy efectiva para la enseñanza de las habilidades cognitivas relacionadas con la programación. La mayor parte de las aplicaciones de software en esta categoría, se adhieren a una metáfora conceptual

76 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 77 — #77

i

i

Enseñanza de programación en el Politécnico Grancolombiano que encapsula las abstracciones de comportamiento, características y secuencia que resultan centrales al proceso de programación. Ejemplos de este tipo de herramientas de software son: Scratch [10], Phrogram [11], JKarel [12], Alice [13], CeeBot-3 [14]. Algunas de estas herramientas asumen una aproximación que utilizan estructuras gráficas reminiscentes de los diagramas de flujo (Scratch por ejemplo emplea una representación estructural que genera una secuencia visual de ejecución que, a pesar de no ser un diagrama de flujo en el sentido tradicional del concepto, guía visualmente el comportamiento del algoritmo diseñado), sin embargo los autores no encontraron herramientas que utilicen de manera completa el concepto ortodoxo de diagrama de flujo. Existen desde luego plataformas integradas de software/hardware, la más conocida de las cuales es probablemente, LEGO Mindstorms [15]. En general, todas estas herramientas comparten una aproximación que genera un lenguaje bien sea visual o conceptual, utilizado para describir el universo, sus reglas, y los elementos del algoritmo que pueden ser implementados en el escenario que dicho universo y sus reglas describen.

3.

Contexto local

En el escenario de formación del Politécnico Grancolombiano pueden encontrarse dos asignaturas que buscan ofrecer al estudiante las herramientas básicas para enfrentarse a problemas de programación de computadores: Pensamiento Algorítmico y Programación de Computadores1 . La asignatura Pensamiento Algorítmico es una adición más o menos reciente al pensum que busca introducir de manera informal conceptos asociados con estrategias de resolución de problemas y con la utilización de conceptos matemáticos, geométricos, algebraicos y lógicos en dichas estrategias. La metodología utilizada en las clases se apoya muy fuertemente en la resolución de problemas de tipo lógico – matemático, en primera instancia mediante una aproximación intuitiva por parte de los estudiantes, para luego mostrarles patrones básicos de solución de problemas que siembren las semillas de métodos más formales como “dividir y vencer”, o que utilicen conceptos más rigurosos como la inducción. Luego de aprobar esta asignatura, los estudiantes pasan a cursar Programación de Computadores, donde tienen su primer encuentro con los elementos formales del proceso de construcción de algoritmos y su posterior implementación en un lenguaje de programación. En esa asignatura se ofrecen las bases conceptuales necesarias para la programación de computadores, y se dispone de los espacios prácticos para poner a prueba dichas bases. En términos de paradigma y alcance, la asignatura promueve el estudio de la programación estructurada, por cuanto este enfoque muestra los componentes fundamentales para la implementación de 1

Evidentemente, existen otras asignaturas que tocan temas más avanzados, pero en el contexto de este documento no se pretende abordar estos temas. El foco principal de atención del trabajo aquí presentado es la construcción de habilidades básicas en programación que puedan servir de base a procesos de enseñanza – aprendizaje posteriores.

77 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 78 — #78

i

i

Revista Elementos - Número 1 - Junio de 2011 un algoritmo sin complicar el proceso más allá de lo necesario para esta etapa básica de formación. Como lenguaje de programación, actualmente se utiliza Java para ofrecer a los estudiantes el contacto con uno de los lenguajes con más penetración en el mercado laboral en la actualidad, al mismo tiempo que tienen contacto con un lenguaje abierto, con una gran comunidad de usuarios y un vasto conjunto de recursos de aprendizaje fuera del aula. Como metodología, se cuenta con tres sesiones semanales, una de las cuales está dedicada a la introducción teórica de conceptos nuevos ilustrados por ejemplos y talleres elaborados con apoyo del docente, mientras que las otras dos están enfocadas en trabajo práctico autónomo por parte de los estudiantes con asistencia del docente cuando el estudiante encuantra dificultades. A continuación se relacionan las dificultades más relevantes que se han encontrado al momento de articular el proceso de enseñanza – aprendizaje con los estudiantes: • A pesar de la inclusión de Pensamiento Algorítmico, los estudiantes llegan a la asignatura Programación de Computadores con deficiencias conceptuales en términos de la aplicación de conceptos matemáticos adquiridos previamente en su educación media. Se aprecian deficiencias para identificar dichos conocimientos como herramientas válidas de solución a problemas prácticos, así como para aplicarlos de manera correcta una vez son identificados como una opción teórica de solución. • La decisión de utilizar Java como lenguaje de programación para la asignatura ha tenido resultados mixtos. Mientras por un lado es evidente la ventaja que presenta el tener contacto temprano con un lenguaje que está siendo utilizado actualmente en la mayor parte de los escenarios productivos, y que es fruto de un proceso de maduración riguroso, también resulta evidente que las herramientas de desarrollo e incluso los conceptos mismos inherentes al lenguaje resultan en ocasiones ser contraproducentes al tratarse de una asignatura básica con estudiantes de primeros semestres. Concretamente, el IDE2 utilizado en las clases (actualmente Eclipse (16), aunque se han hecho pruebas utilizando NetBeans [17], y BlueJ [18]) puede ser intimidante para los alumnos, y el hecho de enseñar programación estructurada utilizando un lenguaje orientado por objetos genera la necesidad de ignorar ciertos elementos y características del código (clases, constructores, etc.), lo que no resulta ideal. • A pesar de que las herramientas utilizadas ofrecen opciones como la ejecución paso a paso del código, este proceso no resulta intuitivo para los alumnos. Esto resulta infortunado por cuanto una de las dificultades más notorias es la de “visualizar” el funcionamiento de un algoritmo en el tiempo. Para los estudiantes resulta complejo entender cómo una serie estática de instrucciones se comporta en tiempo de ejecución; particularmente las sentencias condicionales y los ciclos resultan confusos en términos de su interpretación en el tiempo. Las pruebas de escritorio ayudan mucho en este sentido, pero en muchos de los casos no son prácticas en términos de tiempo. 2

Integrated Development Environment, Entorno Integrado de Desarrollo.

78 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 79 — #79

i

i

Enseñanza de programación en el Politécnico Grancolombiano • La sintaxis del lenguaje se convierte en un obstáculo adicional a la complejidad que presenta la conceptualización de la solución. Existen escenarios en los que los alumnos tienen claridad respecto al proceso a seguir para solucionar un problema, pero presentan inconvenientes a la hora de escribir la solución que diseñan en el lenguaje de programación. La apropiación del conjunto de reglas inherentes a un lenguaje de alto nivel añade otro nivel de dificultad al aprendizaje de programación. A pesar de ser claro que la mayor parte de las dificultades aquí expresadas son naturales y deben ser manejadas y eliminadas a lo largo del proceso de aprendizaje, este proceso resultaría mucho más fluido si fuera posible eliminarlas o reducirlas en un momento temprano de la dinámica enseñanza-aprendizaje.

4.

Solución propuesta

Con los conceptos y situaciones presentados anteriormente, y teniendo en cuenta el escenario local esbozado, es posible ahora presentar la propuesta de solución a la que se refiere este documento. En aras de solventar los inconvenientes experimentados en el proceso de enseñanza de programación en el Politécnico Grancolombiano, se propone la implementación de una herramienta de software que apoye la dinámica en el aula y sirva, a la vez, como herramienta de estudio y solución de problemas de programación para los estudiantes de la asignatura. Como características generales, a través de las cuales se busca paliar los inconvenientes presentados previamente, se tienen: • Utilización del enfoque de programación estructurada. Temprano en el proceso de definición de la solución a proponer se decidió seguir utilizando la programación estructurada como aproximación. Esto se debió al hecho de que sin duda no es la aproximación más utilizada en términos profesionales, sí es una que ofrece un compromiso muy adecuado e interesante en términos de facilidad de aprendizaje versus flexibilidad y potencia de aplicación. Además de esto, con los conceptos claros de programación estructurada es posible migrar a otras aproximaciones más complejas de una manera más sencilla. • Abstracción del lenguaje de programación. Dado que uno de los inconvenientes mencionados se debe a la dificultad añadida de apropiar la sintaxis de un lenguaje de programación de alto nivel, se sugiere enfocar el proceso de enseñanza-aprendizaje de una forma tal que no sea necesario involucrar este proceso extra. Por ello, resulta evidente que abordar el aprendizaje de un lenguaje de programación particular es necesario para un proceso completo de aprendizaje de programación, y además se considera importante que en esta fase inicial de dicho proceso se cimienten las bases conceptuales y se apropien los constructos básicos del área disciplinar. • Representación visual del proceso. De la mano del punto anterior, y como consecuencia del mismo, se propone una herramienta que coloque la base de la solución, así como la validación de la misma, en representaciones

79 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 80 — #80

i

i

Revista Elementos - Número 1 - Junio de 2011

3

visuales de fácil comprensión. En este sentido, y luego de explorar otras alternativas, se decidió optar por la utilización de diagramas de flujo; ya que por definición, un diagrama de flujo es la representación gráfica de un proceso, donde el control fluye de manera explícita a través de un conjunto de figuras interconectadas [19], porque resulta apenas natural utilizar este tipo de representación, por demás estándar, en la aproximación propuesta. Facilidad en el proceso de construcción de la solución. Un elemento absolutamente fundamental a tener en cuenta durante la conceptualización e implementación de la herramienta fue el hecho de que ésta no debía convertirse en un obstáculo para el proceso. El foco debía estar en la solución del problema, no en el aprendizaje alrededor de la herramienta que permitiría implementar dicha solución. Luego de enfrentar dificultades en este sentido con las herramientas de programación utilizadas hasta ese momento, resultaba imperativo que ese no fuera el caso. Facilidad en el proceso de seguimiento durante la ejecución. Teniendo en cuenta que una de las mayores dificultades a la que se enfrentan los estudiantes es la comprensión del proceso de ejecución en la dimensión “tiempo”, un factor decisivo al momento de considerar una solución de software al problema fue la facilidad con la que el usuario pudiera verificar el estado de la ejecución del algoritmo construido; así como la fácil comprensión de la ruta seleccionada en los puntos de decisión y repetición (sentencias condicionales y ciclos). Asociado a este punto, fue necesario considerar un esquema de gestión de variables, valores y tipos que permitiera una fácil adición y eliminación, así como la evaluación clara de su valor durante la ejecución del algoritmo. Cercanía a los paradigmas técnicos asociados con la programación. No obstante la tentación que existió de abordar el proceso utilizando una metáfora “blanda” para la construcción de los algoritmos (ambientes virtuales, como en Alice [13], o elementos móviles animados como en Scratch [10]), se decidió que teniendo en cuenta el nivel académico de los estudiantes, y en aras de ofrecer una transición lo más suave posible hacia aproximaciones más formales de desarrollo, tanto la interfaz como la metodología de construcción de algoritmos y soluciones debería ser lo más “espartana” y “técnica” posible, sin dejar de lado en ningún momento la facilidad de uso3 . Este fue otro motivo por el cual se utilizó el concepto de diagrama de flujo y la utilización de variables con tipos formales. Se propendió sin embargo, por la eliminación de elementos gráficos innecesarios, y por la limpieza en la interfaz, de tal manera que, de nuevo, el foco se encontrara en la solución, y no en la herramienta. Generación de código. Como característica que facilitara la transición a ambientes más formales de desarrollo, se consideró necesario que la herramienta tuviera la capacidad de generar código a partir del diagrama de flujo

No se pretende en ningún momento desvirtuar la utilidad de este tipo de enfoques “blandos”. Es indiscutible el aporte que hacen a la comprensión de algunos conceptos; y de hecho, la integración de este tipo de herramientas se contempla como un desarrollo futuro para la herramienta. Sin embargo, en este punto del desarrollo y el proceso general de aplicación, se consideró de mayor importancia el acercarse de una manera más formal al proceso de conceptualización e implementación de algoritmos.

80 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 81 — #81

i

i

Enseñanza de programación en el Politécnico Grancolombiano que representa el algoritmo diseñado. Inicialmente, y de acuerdo con la orientación de la formación en programación en el Politécnico Grancolombiano, se decidió que la generación de código Java era lo más recomendable. Teniendo en cuenta los aspectos mencionados previamente, y buscando atacar las debilidades encontradas en el proceso de formación en programación en el Politécnico Grancolombiano, se diseñó e implementó Ariadna, una herramienta de software basada en la construcción de diagramas de flujo con elementos propios de la programación estructurada, que puede ser utilizada en el aula en cursos de programación, y que tiene como foco esencial el soporte de la construcción de soluciones algorítmicas a través de la simplificación de las herramientas y procesos asociados con esta dinámica, sin perder de vista el formalismo esencial en un proceso de educación superior. Una descripción detallada de Ariadna y el flujo de trabajo asociado con su uso están fuera del alcance del presente documento, y se reservan para un documento posterior. Sin embargo, se presentan a continuación algunas imágenes de su interfaz y elementos básicos. En primera instancia se muestra en la figura 1, la interfaz de configuración de variables de algoritmo. En esta ventana es posible adicionar y eliminar las variables que estarán disponibles en Ariadna durante la construcción y ejecución del algoritmo. Se muestra aquí, pues es un ejemplo de la aproximación simple y directa a la gestión de información y procesos dentro de la herramienta. Como nota adicional, se mantienen los tipos de datos en su notación formal, para facilitar el paso desde una notación simbólica estándar, y hacia una notación técnica formal.

Figura 1. Interfaz de configuración de variables de algoritmo.

En la figura 2, se muestra el área de trabajo de la aplicación, con un algoritmo de prueba desplegado en ella. Nótese que los elementos utilizados para representar los bloques constructivos del diagrama, que son a su vez la representación del algoritmo construido, son los utilizados de manera estándar en la generación de diagramas de flujo. Es de resaltar también que restricciones a lo largo del proceso de construcción del algoritmo hacen que la estructura del diagrama resultante sea

81 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 82 — #82

i

i

Revista Elementos - Número 1 - Junio de 2011 no sólo formalmente correcta (a través de la prohibición de colocar elementos en posiciones no válidas), sino fácil de leer y seguir (el “crecimiento” del diagrama siempre se da de izquierda a derecha y de arriba hacia abajo, garantizando de esta forma que no sea posible incurrir en errores estructurales de programación, como por ejemplo retornar a puntos previos en el código).

Figura 2. Área de trabajo de Ariadna, con un diagrama de prueba.

5.

Trabajo futuro

El siguiente paso en el proceso de aplicación de la solución es extender el escenario de pruebas a las aulas de programación en el Politécnico Grancolombiano. Hasta el momento se han realizado pruebas limitadas con resultados alentadores, pero debido a la dinámica semestral de los cursos, y que es necesario integrar la herramienta al principio de los mismos, las pruebas formales comenzarán en el primer semestre de 2011. En términos de características del software, se pretende integrar un ambiente de simulación en el que se pueda verificar de una manera visual la ejecución del algoritmo diseñado, más allá de las herramientas de seguimiento que ofrece la herramienta actualmente, y que están orientadas a seguir la ejecución sobre el diagrama de flujo. La posibilidad de controlar la actividad de un elemento visual animado, como por ejemplo un robot u otra representación de ese estilo podría, en conjunto con las características ya expuestas de Ariadna, facilitar aún más el proceso de apropiación de los conceptos básicos de programación. Gracias a la arquitectura de diseño de Ariadna, la idea de adicionar lenguajes para los cuales se genere código, es de simple implementación. Esto ofrecerá flexibilidad a la herramienta a la vez que da la posibilidad al estudiante de comparar la sintaxis de varios lenguajes en su proceso de aprendizaje.

82 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 83 — #83

i

i

Enseñanza de programación en el Politécnico Grancolombiano En general, se pretende que el proceso de prueba de Ariadna en ambientes reales de formación, con un número grande de estudiantes, ofrezca información y una perspectiva más amplia de las posibilidades que ofrece el software como herramienta educativa. Con base en este proceso de retroalimentación se pretende seguir adelante con el desarrollo del software, ampliando cada vez más sus capacidades y su alcance en el contexto de la enseñanza de programación.

Referencias 1. Rosheim, M. E.: Robot Evolution: The Development of Anthrobotics. s.l: WileyInterscience. (2008) 2. Heide, L.: Punched-Card Systems and the Early Information Explosion, 1880–1945 (Studies in Industry and Society). s.l: The Johns Hopkins University Press. (2009) 3. Wilford, J. N.: Discovering How Greeks Computed in 100 B.C. The New York Times. 31 de Julio de 2008. (2008) 4. Wexelblat, R. L.: History of Programming Languages (Acm Monograph Series). s.l: Academic Press, (1981) 5. Bergin, T. J., Gibson, R. G.: History of Programming Languages, Volume 2. s.l: Addison-Wesley Professional, (1996) 6. Dijkstra, E. W., Hoare, C. A. R. y Dahl, OJ.: Structured Programming (A.P.I.C. Studies in Data Processing, No. 8). s.l: Academic Press, (1972) 7. Sleeman, D.: The Challenges of Teaching Computer Programming. Communications of the ACM. Septiembre de 1986. 8. Solloway, Elliot.: Learning to program = learning to construct mechanisms and explanations. Communications of the ACM. Septiembre de 1986. 9. Jonassen, David H. y Reeves , Thomas C.: Association for Educational Communications and Technology. Learning With Technology: Using Computers As Cognitive Tools. [En línea] [Citado el: 21 de Agosto de 2010.] http://www.aect.org/edtech/ed1/24/index.html. 10. Scratch. [En línea] MIT. [Citado el: 22 de Agosto de 2010.] http://scratch.mit.edu/. 11. Phrogram. [En línea] The Phrogram Company. [Citado el: 22 de Agosto de 2010.] http://phrogram.com/. 12. JKarel. [En línea] [Citado el: 22 de Agosto de 2010.] http://www.cs.tufts.edu/comp/10F/JKarel.htm. 13. Alice. [En línea] Carnegie Mellon University. [Citado el: 22 de Agosto de 2010.] http://www.alice.org/. 14. CeeBot-3. [En línea] Epsitec. [Citado el: 22 de Agosto de 2010.] http://www.ceebot.com/ceebot/3/3-e.php. 15. LEGO Mindstorms. [En línea] LEGO. [Citado el: 22 de Agosto de 2010.] http://mindstorms.lego.com/en-us/overview/NXT_Software.aspx. 16. Eclipse. [En línea] The Eclipse Foundation. [Citado el: 23 de Agosto de 2010.] http://www.eclipse.org/. 17. NetBeans. [En línea] Oracle Corporation. [Citado el: 23 de Agosto de 2010.] http://netbeans.org/. 18. BlueJ. [En línea] La Trobe University, University of Kent at Canterbury, Sun Microsystems. [Citado el: 23 de Agosto de 2010.] http://www.bluej.org/. 19. Fitter, M., Green, T.: When do diagrams make good computer languages?. International Journal of Man-Machine Studies, Vol. 11. (1979)

83 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 84 — #84

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 85 — #85

i

i

Revisión del estado del arte en modelos de localización y relocalización de vehículos para atención de emergencias Oscar Javier Parra Ortega? Politécnico Grancolombiano

Fecha de recepción: Junio 19 de 2010 Fecha de aprobación: Noviembre 26 de 2010

Resumen El presente artículo hace una revisión del estado del arte en modelos para la localización y relocalización de vehículos para la atención de emergencias entre los cuales se encuentran los sistemas de atención de emergencias médicas, de reparación de fallas en la prestación de servicios públicos, y de control de incendios. Este artículo organiza el trabajo existente en dicho campo, basándose en el enfoque de modelaje utilizado, y presentando de forma cronológica el desarrollo de cada enfoque. Como complemento a los trabajos de corte analítico, se reseñan adicionalmente los artículos orientados a aplicaciones y estudios de caso, desarrollados hasta el momento. Abstract This paper is a review of the state of the art in location and relocation models of emergency vehicles, which include the emergency medical systems, public services maintenance systems and fire departments. Also includes the existing work in this subject, based on the modeling approach used, and presented in chronological order. To complement the analytical works, another application-oriented articles and case studies developed so far are reviewed in this article. Palabras Clave: modelos de localización, servicios para atención de emergencias. Keywords: location models, emergency systems.

?

Docente de Planta. Ingeniero Industrial Universidad Industrial de Santander. Director del grupo de investigación Métodos Cuantitativos e Investigación Operativa. oparraor@poligran.edu.co. El proyecto de investigación del cual es producto este documento, ha sido financiado por la Fundación Politécnico Grancolombiano, mediante el contrato de investigación No: 2010-FICB-MCIO-TC-16, del 14 de diciembre de 2009.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 86 — #86

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introducción

Los sistemas de atención de fallas en las ESP (Empresas de Servicios Públicos), así como los sistemas de respuesta a emergencias médicas EMS (Emergency Medical Services) son componentes esenciales en la infraestructura de toda área urbana o rural. Su adecuado funcionamiento garantiza el pronto reestablecimiento de la prestación de servicios esenciales, en el caso de las ESP, y es crítico para incrementar las probabilidades de supervivencia de los pacientes a atender en el caso de las EMS. En ambos casos, quienes gestionan dichos sistemas deben tomar decisiones relacionadas con: • El número y tipo de vehículos a utilizar a lo largo de la red. • La localización de los puntos desde los cuales despachan los vehículos para la atención de fallas o emergencias. • La regla de asignación para el despacho de vehículos cuando se presenta una emergencia o una falla. • La relocalización de los recursos cuando una zona se encuentra desatendida por efecto del despacho de las unidades que allí operan. Este proceso de decisión influye directamente en el tiempo de respuesta del sistema para llegar al punto de demanda (dónde se ha presentado o reportado la falla, o dónde se encuentra el paciente en el caso de las emergencias médicas). Adicionalmente, el proceso de localización y relocalización de móviles se hace más complejo día a día, ya que la demanda se va incrementando proporcionalmente con el cambio demográfico del área a la que se ofrece cobertura con dichos servicios [62]. En las últimas cuatro décadas se han realizado estudios tendientes al modelaje y diseño de herramientas para la localización y relocalización de equipos para la atención de emergencias, principalmente asociados con la gestión y operación de EMS y, en menor medida, con sistemas de atención a incendios (Fire Systems) y de atención de fallas en ESP. La intención de este artículo es, por una parte, dar una visión global de los enfoques existentes en la literatura desde el punto de vista analítico, y por otra parte, enunciar los casos más relevantes en los cuales se han aplicado exitosamente las herramientas de OR en la toma de decisiones para el proceso de localización y relocalización de móviles.

2.

Descripción básica de la operación de un ESVS

Un ESVS (Emergency Service Vehícle System), independientemente de si está dedicado a la reparación de fallas de servicios públicos, o a la atención de emergencias médicas o incendios, presenta el siguiente mecanismo de operación: 1. Reporte o detección del incidente, de forma automática, o a través de una llamada a una línea de emergencia. 2. Valoración de la severidad del incidente.

86 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 87 — #87

i

i

Relocalización de vehículos para atención de emergencias 3. Asignación de un vehículo y despacho del mismo al punto del incidente. 4. Atención del incidente. 5. Retorno del vehículo a la estación de origen, en espera de un nuevo servicio [13].

3.

Modelaje de un ESVS

Desde el punto de vista de los modelos en investigación de operaciones, los ESVS tienen como objetivo primario garantizar la atención de la mayor proporción de incidentes dentro de un tiempo establecido. Para simplificar el análisis de este tipo de sistemas, se suele agregar la demanda en zonas, de forma que los tiempos de atención de un incidente son calculados desde la estación que despacha un vehículo hasta el centro de la zona donde ocurre el incidente. De la misma forma, se suele categorizar el resultado del proceso de atención de los incidentes de acuerdo con un tiempo de referencia conocido como tiempo estándar. Si el vehículo llega al punto del incidente en un tiempo inferior a Ts , se considera que dicho servicio fue exitoso. Según el tipo de función objetivo bajo el cual operan, los modelos de localización y relocalización pueden estar orientados a: 1. Minimizar el tiempo de atención (promedio o total) de la totalidad de los incidentes por período de tiempo. 2. Minimizar el tiempo máximo de atención hacia cualquier incidente. 3. Maximizar el área cubierta en un tiempo inferior, al tiempo determinado como estándar (Ts ), o 4. Maximizar el número de incidentes atendidos en un tiempo inferior, al tiempo determinado como estándar. En algunas ocasiones se utiliza una combinación de estos criterios de decisión para obtener la configuración más apropiada para el EMS [5]. De acuerdo con la categoría de gravedad del incidente, se define un valor diferente de Ts para cada categoría. Por ejemplo, la USEMSA (United States Emergency Medical Services Act) establece como estándar que en áreas urbanas de los Estados Unidos, el 95 % de las emergencias médicas sean atendidas en un lapso inferior a 10 minutos [6]. Cabe resaltar que en el caso especial de los EMS suelen existir dos tipos de equipos para la atención de incidentes, de acuerdo con la gravedad de los mismos, definidos como unidades básicas de soporte de vida BLS (Basic Life Support) y unidades avanzadas de soporte de vida ALS (Advanced Life Support) [50]. Otros criterios para el modelaje de la función – objetivo pueden incluirse en el análisis del desempeño de los ESVS: 1. Maximización del balance en cobertura: es clave garantizar que no haya un desequilibrio entre el nivel de servicio de zonas al interior del ESVS, teniendo en cuenta que el nivel de servicio es medido como la proporción de incidentes atendidos en un tiempo inferior a Ts [54].

87 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 88 — #88

i

i

Revista Elementos - Número 1 - Junio de 2011 2. Minimización de costos: dicha función de costos suele incluir los componentes fijos de adquisición de los vehículos, e instalación y operación de las estaciones, así como los costos variables de mano de obra de los equipos de atención [61].

4.

Categorización de los modelos analíticos de localización y relocalización

Una vez definidos los componentes básicos de los modelos en investigación de operaciones, asociados con la localización y relocalización de vehículos, vale la pena resaltar que el modelaje de estos problemas ha evolucionado de la mano con las herramientas disponibles para la implementación de los modelos propuestos. Conforme fueron apareciendo mejores herramientas para el desarrollo de algoritmos de búsqueda, tales como la ‘búsqueda Tabú’ [35], la formulación de los modelos de localización fue aproximándose más a la naturaleza dinámica del comportamiento de los ESVS. A continuación se enuncian los principales componentes que presentan modificaciones en la formulación de modelos de localización y relocalización, y que a su vez sirven como criterios de categorización. 1. Disponibilidad de los vehículos a través del tiempo: (a) Modelos determinísticos: aquellos en los cuáles se modela el recurso llamado vehículos como un parámetro con disponibilidad del 100 % al momento en que se reporta un incidente. Estos modelos no tienen en cuenta el hecho de que la cobertura de un área se pierde parcialmente cuando un vehículo es despachado a atender un incidente. (b) Modelos probabilísticos estáticos: en estos modelos, los vehículos pueden o no estar disponibles, ya que son modelados como servidores en un sistema de colas. Al sistema van ingresando llamadas o reportes de incidentes que son asignados a otros servidores disponibles en el sistema, si es que el servidor (vehículo a despachar) por defecto, se encuentra ocupado. (c) Modelos dinámicos: son más recientes, y se enfocan en resolver el problema de relocalizar a los vehículos conforme algunas zonas han quedado sin cobertura en el momento que el vehículo es ocupado por un incidente en progreso. 2. Función objetivo: los modelos pueden variar respecto a la función objetivo a utilizar, tal como se describió en la función anterior o si utilizan una función multi-criterio o no. 3. Restricciones asociadas con el número de vehículos por estación de localización: en los primeros modelos, se partía del supuesto de que cada punto de origen (estación o base) solo podría tener asignado un vehículo. Sin embargo, modelos más recientes tienen en cuenta la posibilidad de asignar uno o más vehículos de acuerdo con el uso de cotas sobre el número de vehículos por estación. 4. Restricciones asociadas con la cobertura: mientras que algunos modelos utilizan el mismo criterio de cobertura para todas las zonas que componen el

88 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 89 — #89

i

i

Relocalización de vehículos para atención de emergencias ESVS, otros modelos más recientes aplican criterios diferentes de cobertura para zonas con distinta prioridad de atención al interior del ESVS. 5. Cantidad disponible y tipos de vehículos: la cantidad de vehículos puede ser constante o estar acotada. En algunos modelos propuestos, se utiliza más de un tipo de vehículo de acuerdo con las velocidades de los mismos y al tipo de incidente que están en capacidad de atender.

4.1.

Modelo LSCM [64]

El modelo de cobertura de conjuntos de locaciones (Location Set Covering Model) es uno de los primeros modelos de grafos propuestos para la localización de vehículos en un ESVS. Tiene como función – objetivo minimizar el número de móviles o vehículos requeridos para cubrir todos los puntos de demanda. Cuenta con dos conjuntos principales de restricciones: • Todo punto de demanda tiene asignada al menos una estación. • Toda estación tiene asignado a lo sumo un vehículo. Adicionalmente, este modelo tiene una cota inferior sobre el número de vehículos requeridos para alcanzar cobertura total. Entre sus debilidades principales se resalta que es un modelo determinístico (no tiene en cuenta la demanda desatendida que se genera al despachar un vehículo) y que al agregar la demanda en forma discreta se pueden generar varios tipos de errores, producto de la pérdida de precisión. Respecto a esta pérdida de precisión, los errores que este tipo de agregación en las zonas de demanda, pueden generar: 1. Errores tipo A: errores en el cálculo de distancias, causadas al ubicar erróneamente el punto de ocurrencia de un incidente. 2. Errores tipo B: errores en el cálculo de distancias, causadas al ubicar erróneamente la ubicación de una estación. 3. Errores tipo C: errores en la asignación de vehículos a incidentes [39]. Si bien estos errores suelen afectar los resultados de los modelos de demanda agregada, cada vez se requiere menos agregación en los datos a utilizar. Sin embargo para los casos en los cuáles sea requerido modelar la demanda de forma agregada, existen técnicas orientadas a reducir la incidencia de estos errores en los resultados de los modelos de localización [27], así como procedimientos para eliminar dichos errores, dadas ciertas condiciones sobre el tipo de función objetivo a utilizar [21]. Finalmente, se cita el trabajo [29] asociado con la obtención de cotas para los errores asociados con la agregación de la demanda en diversos modelos de localización. Una aplicación de este modelo puede encontrarse en [41], donde se alcanza una reducción de 200 a 145 vehículos en la mejor solución obtenida.

89 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 90 — #90

i

i

Revista Elementos - Número 1 - Junio de 2011 4.2.

Modelo MCLP [19]

Mientras el modelo LSCM busca calcular el mínimo número requerido de móviles para operar, el problema de localización con cobertura máxima (Maximal Covering Location Problem) aborda el problema de maximizar la cobertura alcanzada para cada uno de los puntos de demanda, teniendo como parámetro del problema el número disponible de móviles (p) a asignar. Adicionalmente, este modelo mejora la formulación del problema al asignar un peso o demanda relativa a cada punto de demanda, de forma que se tiene en cuenta que algunas zonas agregadas pueden presentar un mayor número de incidentes. En este modelo se elimina la restricción de cubrir el 100 % de los puntos de demanda, ya que esto depende del valor de p. Para solucionar esto, una variación de este modelo consiste en incrementar gradualmente el valor de p hasta alcanzar un 100 % de cobertura. En varios estudios de caso, se muestran los beneficios de la implementación del modelo MCLP tanto en la reducción de costos fijos y variables [24] como en la reducción del tiempo promedio de atención de emergencias en EMS [25]. Entre ellos, se resalta el trabajo [17], en el cual se compilan diversas implementaciones del modelo MCLP. 4.3.

Modelo TEAM [63]

Uno de los inconvenientes de los modelos LSCM y MCLP reside en la restricción para manejar solo una categoría de vehículos y de tipos de incidentes. En muchas ocasiones, dependiendo del tipo de incidente, es enviado un tipo diferente de vehículo. En otras ocasiones, dos tipos diferentes de vehículos son requeridos en el lugar del accidente, con tiempos estándar diferentes para cada uno (tal como sucede con los EMS en los cuales un equipo primario BLS llega al lugar del accidente, mientras que un segundo equipo ALS va en camino para dar atención más específica). El Tandem Equipment Allocation Model (TEAM) se basa en el MCLP, con la diferencia de que existe un conjunto de variables adicionales para el segundo tipo de vehículos. Por lo tanto, un punto de demanda no se considera cubierto si no hay disponible un vehículo de cada tipo para atenderlo dentro del tiempo estándar asignado para cada categoría. Años más tarde, una versión ampliada de este modelo, se propuso para ser aplicada en sistemas de atención de incendios con dos categorías de vehículos [51]. En [48] se describe la aplicación del modelo TEAM para una red de transporte de desechos radioactivos (Waste Isolation Project Facility). 4.4.

Modelo FLEET [63]

El modelo Facility Location Equipment Emplalcement Technique (FLEET) es una derivación del modelo TEAM, en la cual se agrega la decisión de seleccionar las instalaciones para la ubicación de las estaciones, junto con la selección de los vehículos a asignar en las instalaciones definidas. Este modelo no presenta ninguna relación de jerarquía entre los tipos de vehículos a asignar en las distintas

90 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 91 — #91

i

i

Relocalización de vehículos para atención de emergencias estaciones. De esta forma, una estación seleccionada puede tener asignado un vehículo de una sola categoría o un tandem de vehículos de cada tipo, según sea el caso. Tal como se menciona en el artículo [10], este modelo fue aplicado a un conjunto de datos en Austin, Texas. 4.5.

Modelo MCLP multiobjetivo (HOSC) [23]

Este modelo es el primero que incorpora las ventajas de la programación jerárquica y multi-objetivo en el modelo básico MCLP, ya que propone: 1. Minimizar el número requerido de vehículos para alcanzar la cobertura deseada, y 2. Dado el número de vehículos disponibles, maximizar la cobertura múltiple de los puntos de demanda. De esta forma, se obtienen mejores resultados que con el modelo MCLP bajo condiciones de alta congestión. Esto se logra al maximizar el número de puntos cubiertos por más de un vehículo. Si en un estado de congestión, el vehículo idóneo para atender un incidente está ocupado, el segundo vehículo que cubre dicho punto podrá atender el incidente. El modelo así propuesto se conoce como Hierarchical Objective Set Covering. En [23] se muestra la implementación del modelo HOSC para una instancia de 33 zonas en el sistema de atención de emergencias en Austin, Texas. 4.6.

Modelo MEXCLP [22]

Es una extensión del modelo HOSC en el cual se incluye y se simplifica el cálculo de la probabilidad de que un vehículo esté ocupado, utilizando un supuesto de independencia en la operación de los vehículos en el sistema. Además de proponer una heurística para la localización de los móviles, se analiza el efecto del cambio en el número de vehículos disponibles, sobre la cobertura de la demanda. Su importancia radica en la inclusión del componente probabilístico en el modelo propuesto. En cuanto a las aplicaciones del modelo MEXCLP (Maximal Expected Covering Location Problem), se resalta la implementación del mismo en la ciudad de Bangkok [30], así como la inclusión de la variabilidad en los tiempos de viaje, en el diseño de un EMS en Tucson, Arizona [37]. En cuanto a otras variaciones de este modelo, se encuentra el TIMEXCLP, el cual incluye el efecto de la variación de la velocidad de desplazamiento a lo largo del día, y es evaluada bajo un entorno de simulación [58]; así como el AMEXCLP o MEXCLP ajustado [9] en el cual se aplica un factor de ajuste a la función – objetivo, para tener en cuenta el hecho de que los vehículos de emergencia no operan de forma independiente. Otra variación propuesta para los modelos SCLM y MCLP tiene en cuenta que muchas veces se requiere más de un vehículo para atender un reporte de emergencia en un punto de demanda [8]. Esta variación se conoce como MLLSCP o Multi Level Location Set Covering, y también es analizada en [18].

91 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 92 — #92

i

i

Revista Elementos - Número 1 - Junio de 2011 4.7.

Modelos BACOP1 & BACOP2 multiobjetivo [40]

Estos modelos pueden ser vistos como una combinación de los modelos LSCM y MCLP, en los cuyos se agrega a la función – objetivo inicial, una segunda función objetivo que busca maximizar el número de vehículos que estén dentro del tiempo máximo de atención de los puntos de demanda. Con esto, se apunta al objetivo de proteger al sistema de variaciones en la demanda al maximizar la cobertura de respaldo de los puntos de demanda. Este modelo se conoce como Backup Coverage Model. Una extensión de este modelo, donde se aplican técnicas de programación por objetivos, puede encontrarse en [3]. En esta formulación, se busca minimizar los costos de operación y de instalación, así como la distancia a recorrer, a la vez que se maximiza la cobertura de demanda. En [26] se implementa una variación de los modelos LSCP y MCLP, que incluyen los conceptos básicos de los modelos BACOP. 4.8.

Modelos MALP I & MALP II [61]

Consisten en dos versiones de un modelo probabilístico que busca maximizar la cobertura de demanda, con una probabilidad α. Este modelo estima la fracción de ocupación de cada estación y, con base en dicha estimación, efectúa la localización de un número dado de vehículos. Mientras que el modelo MALP I asume que la fracción de tiempo ocupado es la misma para todos los móviles, el modelo MALP II relaja esta restricción. En [43] se hace una crítica a la implementación de este tipo de modelos, dadas las dificultades técnicas encontradas al aplicarlos con datos pertenecientes a sistemas reales. 4.9.

Modelo Rel-P [6]

Como complemento al modelo LSCM, este modelo busca minimizar los costos fijos asociados con el conjunto de vehículos requeridos por el sistema. Entre sus restricciones y variaciones sobre los modelos previamente enunciados, se resalta la posibilidad de ubicar más de un vehículo en una misma estación. El componente probabilístico de este modelo está orientado a asegurar que las llamadas sean atendidas con una probabilidad α dada. En [6] también se describe en detalle la implementación de dicho modelo, así como los resultados computacionales obtenidos. 4.10.

Modelo DDSM [34]

Este modelo responde al problema de relocalización de vehículos que ya había sido detectado en un trabajo previo [44], en el cual se encontró que cuando un móvil es enviado a atender un incidente debe realizarse un proceso de relocalización para mantener la cobertura en todas las zonas. La diferencia con el problema inicial de localización reside en que este procedimiento es dinámico, y se debe

92 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 93 — #93

i

i

Relocalización de vehículos para atención de emergencias llevar a cabo de forma periódica conforme los vehículos son despachados y dejan zonas sin cobertura al movilizarse a los incidentes asignados. Uno de los enfoques que se puede asumir para este problema de relocalización, consiste en resolver continuamente y en tiempo real, problemas de localización para reasignar los vehículos disponibles. Otro enfoque, propuesto por Gendreau [33], consiste en utilizar un algoritmo heurístico de ‘búsqueda Tabú’ para maximizar la demanda cubierta al menos dos veces, teniendo en cuenta unas penalizaciones por efecto de la relocalización de los móviles. Dichas penalizaciones buscan evitar que se movilicen vehículos hacia otras estaciones que estén demasiado alejadas o que se efectúen bucles sucesivos de vehículos entre las mismas dos estaciones. La implementación de este modelo conocido como Dynamic Double Standard Model (DDSM), permite que el sistema se anticipe al despacho del siguiente vehículo para que el proceso de relocalización se pueda ejecutar de forma simultánea con la atención de una llamada o reporte entrante. Se diferencia de su predecesor, el Double Standard Model (DSM), en que el proceso se hace de forma dinámica incluyendo las penalizaciones por relocalización. Finalmente, en [45], describen una implementación del modelo DDSM en la isla de Montreal. También mencionan la implementación del modelo estático DSM en conjuntos de datos de Montreal, Austria, y Wallonie.

5.

Enfoque descriptivo basado en la teoría de colas

Mientras que los anteriores modelos han abordado el problema desde el punto de vista determinístico o probabilístico con base en la formulación matemática de un problema de optimización, otros autores han hecho un análisis descriptivo de los ESVS como sistemas de colas para obtener expresiones que permitan el cálculo de diversas medidas de desempeño de dichos sistemas. Entre ellos se resalta la formulación del modelo ‘hipercubo de colas’ [46], junto con un procedimiento propuesto para implementarlo [47], y una implementación de una variación de dicho modelo en el EMS de Greenville County, Carolina del Sur [14]. Otras implementaciones del Hypercube Queueing Model se encuentran en [52,55,42]. En esta categoría también se encuentra una variación de tipo probabilístico del LSCM, conocida como Queueing Probabilistic Location Set Covering Problem o Q-PLSCP, en la cual el número de servidores requeridos para atender determinado punto de demanda, se calcula teniendo en cuenta la probabilidad de que los servidores que están atendiendo dicho punto estén ocupados, esta variación permite modelar su comportamiento como un sistema de colas [53], así como una variación del mismo, conocida como Q-RLSCP o Queueing Probabilistic Location Set Covering Problem, [11], en la cual se combina el concepto de confiabilidad mínima para atender cada punto de demanda con la probabilidad de que una llamada no pueda ser atendida en caso de congestión del EMS.

93 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 94 — #94

i

i

Revista Elementos - Número 1 - Junio de 2011

6.

Técnicas meta-heurísticas y modelos de simulación

En ocasiones, dada la complejidad del problema, o el tamaño del mismo en términos del número de puntos de demanda y posibles estaciones de despacho, se determina que un modelo de optimización no es la herramienta más apropiada para resolver dicho problema. Esto se resalta especialmente en el caso en el que el tiempo para obtener una solución aproximada es determinante a la hora de seleccionar la herramienta a implementar [4]. En este campo, vale la pena mencionar la implementación de un modelo de simulación en conjunto con una rutina meta-heurística para resolver el problema de localización de ambulancias en la ciudad de Austin, Texas [28]. Se resalta que el uso de meta-heurísticas puede incrementar el grado de realismo del modelo implementado, respecto a los modelos de optimización determinísticos. También se encuentra el trabajo realizado en [31], en el cual se implementa el modelo MCLP, a partir de una heurística de relajación lagrangiana, con el fin de obtener mejores aproximaciones a la solución del MCLP, en especial para instancias de mayor tamaño.

7.

Otros artículos de revisión sobre modelos de localización

Entre los principales artículos que han reseñado el estado del arte en modelos de localización, se encuentran tanto trabajos orientados hacia todo tipo de problema de localización, incluido el diseño de redes y la localización de bodegas [12], así como otros orientados al problema específico de localización de servicios de emergencias [59] y, en especial, el de la localización de estaciones de bomberos y ambulancias [60]. Igualmente se resaltan los trabajos [38,15,13,36] en el área de revisión de modelos de localización.

8.

Investigaciones y estudios de caso más recientes

A continuación se enuncian los contenidos de otras investigaciones más recientes, asociadas con la formulación y/o implementación de modelos asociados con el problema de localización en ESVS. 8.1.

Weintraub, Aboud, Fernández, Laporte, Ramírez, 1999 [65]

Este artículo se resalta, ya que es la única implementación asociada directamente con la atención de fallas en un sistema de distribución de energía eléctrica, disponible en la literatura. En este caso se aplica una modificación del método GENI propuesto en [32] para localizar la flota de vehículos de Emergency Services Division of Chilectra S.A.

94 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 95 — #95

i

i

Relocalización de vehículos para atención de emergencias 8.2.

Church, Scaparra, Middleton, 2004 [20]

En este artículo se proponen dos modelos (r-interdiction median, y r-interdiction coverage) para identificar cuáles son las instalaciones o vehículos más críticos y relevantes en el funcionamiento de un EMS. También se analiza el efecto de la pérdida de uno de estos recursos críticos en la eficiencia y cobertura del sistema. 8.3.

Alsalloum, Rand, 2003 & Alsalloum, Rand, 2006 [2,1]

Se propone un modelo de programación por objetivos para determinar el mínimo número de vehículos requeridos para la atención de emergencias en Riyadh City, Arabia Saudita, así como la localización de los mismos, con un componente probabilístico en la cobertura de los puntos de demanda. 8.4.

Liu, Huang, Chandramouli, 2006 [49]

En este estudio se aplica un algoritmo de ‘colonia de hormigas’, en conjunto con el uso de GIS (Geographic Information System) para localizar estaciones de bomberos en función de las rutas autorizadas para el transporte de HAZMAT (Hazardous Materials) en la Ciudad de Singapur. 8.5.

Monarchi, Hendrick, Plane, 2007 [56]

Este estudio compara los resultados de un modelo de simulación versus la formulación de modelos clásicos de localización para la configuración de un sistema de control de incendios en Nueva York. 8.6.

Cheu, Huang, Huang, 2008 [16]

Se propone una variación del modelo propuesto por ReVelle y Snyder (conocido como FAST - Fire and Ambulance Service Technique), y se valida su eficacia con base en la simulación del comportamiento del sistema de atención de incendios en la ciudad de Singapur. 8.7.

Murray, Matisziw, Wei, Tong, 2008 [57]

En este artículo se formula un modelo para maximizar la cobertura del espacio continuo, y su implementación a partir de un heurístico geocomputacional es comparada en términos de cobertura versus un procedimiento MCLP. 8.8.

Batanovic, Petrovic, Petrovic, 2009 [7]

Este trabajo está orientado a la implementación de herramientas de cobertura para la localización de instalaciones, aplicando herramientas de lógica difusa para modelar la incertidumbre en los tiempos de desplazamiento entre nodos de la red.

95 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 96 — #96

i

i

Revista Elementos - Número 1 - Junio de 2011 8.9.

Sasaki, Comber, Suzuki, Brunsdon, 2010 [62]

Se complementa el uso de algoritmos ‘genéticos’ para la localización actual de móviles en un EMS, junto con un pronóstico del crecimiento de la demanda futura para evaluar la localización potencial de los vehículos de emergencias bajo el escenario proyectado en la prefectura de Niigata, Japón.

9.

Tendencias en trabajos futuros

La cantidad de trabajos analíticos existentes sobre el tema de localización de vehículos sugiere que el área donde se requiere mayor trabajo en la actualidad y hacia futuro, es en la implementación de estas herramientas para el tratamiento de problemas de localización y relocalización en tiempo real. Transferir los conocimientos sobre este tipo de modelos hacia su implementación en sistemas de atención de emergencias es una labor que apenas inicia, y que tiene un potencial sustancial en el futuro cercano. No solamente por la reducción obtenida en los costos de operar dichos sistemas, sino por el incremento en la cobertura y la mejora en los tiempos de atención que se podrían alcanzar si se utilizan herramientas de apoyo para la toma de decisiones, como las enunciadas en este artículo. La bibliografía listada a continuación representa y resume en gran mayoría el trabajo desarrollado durante los últimos 40 años en la formulación y aplicación de modelos de localización, y es un punto de partida para profundizar más en este tema.

Referencias 1. Alsalloum, O. I., Rand, G. K.: A goal-programming model applied to EMS system at Riyadh City, Saudi Arabia. Lancaster, UK: Lancaster University Management School. (2003) 2. Alsalloum, O. I., Rand, G. K.: Extensions to emergency vehicle location models. Computers Operations Research, 33 (9), 2725-2743. (2006) 3. Badri, M. A., Mortagy, A. K., Alsayed, C. A.: A multiobjective model for locating fire stations. European Journal of Operational Research, 110 (2), 243-260. (1998) 4. Baker, D., Byrd, J.: A lesson in timing: a nonemergency solution to an emergency service decision. Interfaces„ 10 (3), 30-33. (1980) 5. Baker, J. R., Clayton, E. R., Taylor, B. W.: A Non-Linear Multi-Criteria Programming Approach for Determining County Emergency Medical Service Ambulance Allocations. The Journal of the Operational Research Society, 40 (5), 423-432. (1989) 6. Ball, M. O., Lin, F. L.: A reliability model applied to emergency vehicle location. Operations Research, 41 (1), 18-36. (1993) 7. Batanovic, V., Petrovic, D., Petrovic, R.: Fuzzy logic based algorithms for maximum covering location problems. Information Sciences, 179, 120-129. (2009) 8. Batta, R., Mannur, N. R.: Covering-location models for emergency situations that require multiple response units. Management Science, 36 (1), 16-23. (1990) 9. Batta, R., Dolan, J., Krishnamurthy, N. N.: The Maximal Expected Covering Location Problem Revisited. Transportation Science, 23 (4), 277-287. (1989)

96 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 97 — #97

i

i

Relocalización de vehículos para atención de emergencias 10. Bianchi, G., Church, R.: A heuristic for a hybrid FLEET model. Computers & Operations Research, 17 (5), 481-494. (1990) 11. Borras, F., Pastor, J.: The ex-post evaluation of the minimum local reliability level: an enhanced probabilistic location set model. Annals of Operations Research, 111 (1), 51-74. (2002) 12. Brandeau, M., Chiu, S. S.: An Overview Of Representative Problems In Location Research. Management Science, 35 (6), 645-674. (1989). 13. Brotcorne, L., Laporte, G., Semet, F.: Ambulance location and relocation models. European Journal of Operational Research, 147, 451-463. (2003) 14. Burwell, T. H., McKnew, M. A., Jarvis, J. P.: An application of a spatially distributed queuing model to an ambulance system. Socio-Economic Planning Sciences, 26 (4), 289-300. (1992) 15. Caccetta, L., Dzator, M.: Models for the location of emergency facilities. The Modelling and Simulation Society of Australia, 2149-2154. New Zealand: MSSANZ. (2001) 16. Cheu, R., Huang, Y., Huang, B.: Allocating emergency service vehicles to serve critical transportation infrastructures. Journal of Intelligent Transportation Systems, 12 (1), 38-49. (2008) 17. Chung, C. H.: Recent Applications of the Maximal Covering Location Planning (M.C.L.P.) Model. The Journal of the Operational Research Society, 37 (8), 735-746. (1986) 18. Church, R. L., Gerrard, R. A.: The Multi-level Location Set Covering Model. Geographical Analysis, 35 (4), 277-289. (2003) 19. Church, R. L., ReVelle, C.: The maximal covering location problem. Papers in Regional Science, 32 (1), 101-118. (1974) 20. Church, R., Scaparra, M. P., Middleton, R. S.: Identifying Critical Infrastructure: The Median and Covering Facility Interdiction Problems. Annals of the Association of American Geographers, 94 (3), 491-502. (2004) 21. Current, J., Ratick, S., ReVelle, C.: Dynamic facility location when the total number of facilities is uncertain: A decision analysis approach. European Journal of Operational Research, 110 (3), 597-609. (1997) 22. Daskin, M. S.: A maximum expected covering location model Formulation, properties and heuristic solution. Transportation Science, 17 (1), 48-70. (1983) 23. Daskin, M. S., Stern, E. H.: A hierarchical objective set covering model for emergency medical service vehicle deployment. Transportation Science, 15 (2), 137-152. (1981) 24. Eaton, D. J., Daskin, M. S., Simmons, D., Bulloch, B., Jansma, G.: Determining emergency medical deployment in Austin, Texas. Interfaces, 15 (1), 96-108. (1985) 25. Eaton, D., Sanchez, U., Hector, M., Lantigua, R. R., Morgan, J.: Determining Ambulance Deployment in Santo Domingo, Dominican Republic. The Journal of the Operational Research Society, 37 (2), 113-126. (1986) 26. Erdemir, E., Rajan, B., Rogerson, P., Alan, B.: Joint ground and air emergency medical services coverage models: A greedy heuristic solution approach. European Journal of Operational Research, 2 (1), 736-749. (2010) 27. Erkut, E., Bozkaya, B.: Analysis of aggregation errors for the p-median problem. Computers Operations Research, 26, 1075-1096. (1999) 28. Fitzsimmons, J. A., Srikar, B. N.: Emergency ambulance location using the contiguous zone search routine. Journal of Operations Management, 2 (4), 225-237. (1982) 29. Francis, R. L., Lowe, T. J., Tamir, A.: Aggregation error bounds for a class of location models. Operation Research, 48 (2), 294-307. (2000)

97 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 98 — #98

i

i

Revista Elementos - Número 1 - Junio de 2011 30. Fujiwara, O., Makjamroen, T., Gupta, K. K.: Ambulance deployment analysis: A case study of Bangkok. European Journal of Operational Research, 31 (1), 9-18. (1987) 31. Galvao, R. D., ReVelle, C.: A Lagrangean heuristic for the maximal covering location problem. European Journal of Operational Research, 88, 114-123. (1996) 32. Gendreau, M., Hertz, A., Laporte, G.: New Insertion and Postoptimization Procedures for the Traveling Salesman Problem. Operations Research, 40 (6), 1086-1094. (1992) 33. Gendreau, M., Laporte, G., Semet, F.: A dynamic model and parallel tabu search heuristic for real-time ambulance relocation. Parallel Computing, 27, 1641-1653. (2001) 34. Gendreau, M., Laporte, G., Semet, F.: Solving an ambulance location model by tabu search. Location Science, 5 (2), 75-88. (1997) 35. Glover, F., Laguna, M.: Tabu Search. Boston: Kluwer. (1997) 36. Goldberg, J. B.: Operations Research Models for the Deployment of Emergency Services Vehicles. EMS Management Science, 1 (1), 20-39. (2004) 37. Goldberg, J., Dietrich, R., Chen, J. M., Mitwasi, G., Valenzuela, T., Criss, E.: Validating and applying a model for locating emergency medical vehicles in Tuczon, AZ. European Journal Of Operational Research, 49 (3), 308-324. (1990) 38. Hesse-Owen, S., Daskin, M. S.: Strategic facility location A review. European Journal of Operational Research, 111 (3), 423-447. (1998) 39. Hillsman, E., Rhoda, R.: Errors in measuring distances from population to service centers. Annals of Regional Science, 12, 74-88. (1978) 40. Hogan, K., ReVelle, C.: Concepts and applications of backup coverage. Management Science, 32 (11), 1434-1444. (1986) 41. Hong, J., Yeong, Y.: Application Of The Set-Covering Model For The Minimum Cost Transportation Problem. (2008) 42. Iannoni, A. P., Morabito, R.: A multiple dispatch and partial backup hypercube queuing model to analyze emergency medical systems on highways. Transportation Research, 43, 755-771. (2007) 43. Ingolfsson, A., Budge, E., Erkut, E.: Optimal ambulance location with random delays and travel times. Health Care Management Science, 11 (3), 262-274. (2007) 44. Kolesar, P., Walker, W. E.: An algorithm for the dynamic relocation of ?re companies. Operations Research, 22 (2), 249-274. (1975). 45. Laporte, G., Louveaux, F., Frédéric, S., Thirion, A.: Application of the Double Standard Model for Ambulance Location. Innovations In Distribution Logistics, 619,235-249. (2009) 46. Larson, R.: A hypercube queuing model for facility location and re-sub-areaing in urban emergency services. Computers and Operations Research, 1 (1), 67-95. (1974) 47. Larson, R.: Approximating the performance of urban emergency service system. Operations Research, 23 (5), 845-868. (1975) 48. List, G., Turnquist, M.: Routing and Emergency Response Team Siting for HighLevel Radioactive Waste Shipments. IEEE Transactions on Engineering Management, 45 (2), 141-152. (1998) 49. Liu, N., Huang, B., Chandramouli, M.: Optimal Siting of Fire Stations Using GIS and ANT Algorithm. Journal of computing in civil engineering, 20 (5), 361-369. (2006) 50. Mandell, M.: Covering models for two-tiered emergency medical services systems. Location Science, 6 (1-4), 355-368. (1998)

98 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 99 — #99

i

i

Relocalización de vehículos para atención de emergencias 51. Marianov, V., ReVelle, C.: The capacitated standard response fire protection siting problem: Deterministic and probabilistic models. Annals of Operations Research, 40 (1), 303-322. (1992) 52. Marianov, V., ReVelle, C.: The Queueing Maximal availability location problem: A model for the siting of emergency vehicles. European Journal of Operational Research, 93 (1), 110-120. (1996) 53. Marianov, V., ReVelle, C.: The Queuing Probabilistic Location Set Covering Problem and some Extensions. Socio-Economic Planning Sciences, 28 (3), 167-178. (1994) 54. Mars, M., Schilling, D.: Equity Measurement in Facility Location Analysis: A Review and Framework. European Journal of Operational Research, 74 (1), 1-17. (1994) 55. Mendonca, F. C., Morabito, R.: Analysing emergency medical service ambulance deployment on a Brazilian highway using the hypercube model. Journal of the Operational Research Society, 52, 261-270. (2001) 56. Monarchi, D. E., Hendrick, T. E., Plane, D. R.: Simulation for fire department deployment policy analysis. Decision Sciences, 8 (1), 211-227. (2007) 57. Murray, A. T., Matisziw, T. C., Wei, H., Tong, D.: A Geocomputational Heuristic for Coverage Maximization in Service Facility Siting. Transactions in GIS, 12 (6), 757-773. (2008) 58. Repede, J., Bernardo, J.: Developing and validating a decision support system for locating emergency medical vehicles in Louisville, Kentucky. European Journal of Operational Research, 75 (3), 567-581. (1994) 59. ReVelle, C.: Review, extension and prediction in emergency service siting models. European Journal of Operational Research, 40 (1), 58-69. (1989) 60. ReVelle, C.: Siting Ambulances and Fire Companies: New Tools for Planners. Journal of the American Planning Association, 57 (4), 471-484. (1991) 61. ReVelle, C., Hogan, K.: The Maximum Availability Location Problem. Transportation Science, 23 (3), 192-200. (1989) 62. Sasaki, S., Comber, A., Suzuki, H., Brunsdon, C.: Using genetic algorithms to optimise current and future health planning - the example of ambulance locations. International Journal of Health Geographics, 9 (4), 1-10. (2010) 63. Schilling, D., Elzinga, D. J., Cohon, J., Church, R., ReVelle, C.: The TEAM FLEET models for simultaneous facility and equipment sitting. Transportation Science, 13 (2), 163-174. (1979) 64. Toregas, C., Swain, R., ReVelle, C., Bergman, L.: The Location of Emergency Service Facilities. Operations Research, 19 (6), 1363-1373. (1971) 65. Weintraub, A., Aboud, J., Fernández, C., Laporte, G., Ramírez, E.: An emergency vehicle dispatching system for an electric utility in Chile. Journal of the Operational Research Society, 50, 690-696. (1999)

99 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 100 — #100

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 101 — #101

i

i

El aprendizaje comprensivo como soporte de la formación básica en matemáticas. Una aproximación desde el trabajo investigativo en educación matemática Edgar Alberto Barón Poveda? , Hugo Edver Zamora Coronado?? Politécnico Grancolombiano

Fecha de recepción: Noviembre 1 de 2010 Fecha de aprobación: Febrero 20 de 2011 Resumen Las tensiones entre requerimientos sociales respecto de una formación básica en matemáticas para un profesional en ciernes y los imaginarios colectivos construidos alrededor de dicha formación, requieren de reflexión y propuestas que acerquen las posiciones con objeto de contribuir desde la educación superior a una formación de calidad. En este artículo, proponemos dos partes. En la primera, presentamos una reflexión acerca de cómo es entendida la escolarización del conocimiento matemático desde la enseñanza y cómo desde el aprendizaje y en la segunda, un acercamiento a lo que ha significado para el grupo de investigación comenzar a trabajar en lo disciplinar con una mirada histórica, epistemológica para construir una propuesta de reorientación de la actividad escolar en matemáticas que se fundamente en el aprendizaje comprensivo de nociones y conceptos, específicamente en ecuaciones. Abstract The tensions among social requirements with respect to a basic training in mathematics for a potential professional and the collective imagination built around such training require reflection and proposals that bring together the different positions in order to contribute from the higher education to have quality training. In this article, two parts are proposed. The first one is a reflection about the way the education of mathematical knowledge is understood from the teaching and from the learning position. The second one is an approach to the meaning that working within the disciplinary field has for the research group with a historical, and an epistemological point of view in order to create a ?

??

CMg Educación. Licenciado en Matemáticas. Profesor de planta del Politécnico Grancolombiano. Entre sus intereses académicos se encuentran la educación matemática, el problema de la elección colectiva y el bienestar social, y la topología. eabaron@poli.edu.co CMg Educación. Especialista en Educación a Distancia. Profesor de planta del Politécnico Grancolombiano. Entre sus intereses académicos se encuentran la educación matemática y la formación de docentes de matemáticas en educación básica. hzamora@poli.edu.co

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 102 — #102

i

i

Revista Elementos - Número 1 - Junio de 2011 reorientation proposal regarding school activities in mathematics based on the comprehensive learning of notions and concepts, specifically equations. Palabras Clave: escolarización del conocimiento matemático, enseñanza, aprendizaje, red de análisis didáctico, ecuación. Keywords: education of mathematical knowledge, teaching, learning, didactic analysis network, equation.

Parte I 1.

Sistema escolar y construcción de imaginarios colectivos

Desde diferentes entornos sociales se han formulado interrogantes acerca de las características de las experiencias escolares con el conocimiento matemático, y de las estrategias que se proponen para posibilitar que las actividades escolares con base en el conocimiento matemático contribuyan al desarrollo del pensamiento necesario para que un individuo ejerza en el mundo que le espera. Las respuestas han sido de diverso orden, desde los intentos individuales por mejorar la práctica docente, pasando por la conformación de amplios programas de investigación que apuntan a la reflexión, indagación y proposición de soluciones a las problemáticas derivadas de la escolarización del conocimiento matemático, y culminando en las reformas escolares que expresan la voluntad de acercar la escolaridad a las exigencias sociales. Sin embargo, una afirmación desde diferentes voces sociales ronda en forma permanente estos esfuerzos: los aprendizajes en matemáticas logrados por los egresados del sistema escolar son mecánicos y no corresponden a los requerimientos del entorno donde ejerce el nuevo profesional. Es pertinente entonces la mirada a la responsabilidad que compete a los diferentes estamentos del sistema escolar, respecto de la afirmación dada, con el propósito de reflexionar y actuar en pos del logro en los estudiantes de aprendizajes comprensivos en matemáticas. En particular, el reconocimiento y estudio de los supuestos que orientan la acción escolar en torno a las matemáticas, en los ambientes de educación superior, es requisito esencial para la reflexión y para el diseño de propuestas que, por un lado, repercutan en la decisión de un egresado respecto a su elección de carrera profesional y, por otro lado, en la calidad de formación del egresado de la universidad. Los procesos que relacionan el conocimiento matemático escolar, con la formación básica de un estudiante que accede a la educación superior, están sometidos a tensiones propias de las exigencias sociales, los supuestos del sistema escolar y las creencias de los actores involucrados en dichos procesos. El sistema escolar asume en general que la secuencialidad en los procesos educativos entrega a la universidad un estudiante con herramientas intelectuales básicas de desempeño académico y, en particular, con un bagaje de conocimiento matemático escolar que le habilita para comenzar trabajos alrededor de la estructuración de un pensamiento que le permita hacer abstracciones y dar explicaciones desde lo disciplinar a sus procesos de elaboración de conocimiento matemático.

102 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 103 — #103

i

i

El aprendizaje comprensivo en matemáticas El estudiante que comienza su proceso de formación profesional, parte del hecho de que su fundamentación en matemáticas corresponde a lo que le fue enseñado y tiene una mirada acerca de las matemáticas de tipo mecánico, que además no siempre puede replicar correctamente en situaciones similares a las enseñadas. De alguna manera, funda su accionar en la creencia que tanto el sistema escolar como la sociedad conocen las fortalezas y debilidades de los procesos en la educación básica y que por lo tanto los vacíos que tiene en cuanto a dominio de nociones y conceptos en matemáticas, serán suplidos por los planes de estudio de la educación superior. Además cree firmemente que la responsabilidad con el conocimiento matemático escolar es propiedad del sistema escolar y en particular de su representante visible: el docente, pues el maestro es quien sabe y por tanto a quien hay que entregar cuentas y quien juzga el desempeño estudiantil. El maestro de matemáticas, punto de encuentro de intereses sociales, escolares y estudiantiles, soporta su práctica docente en creencias vinculadas usualmente a visiones como: 1. El estudio profundo del conocimiento matemático inmerso en nociones y conceptos que se desarrollan en matemáticas escolares es suficiente y necesario para garantizar un ejercicio docente que contribuya a la formación básica del estudiante. “De la necesidad no hay duda, no así de la suficiencia” [7]. 2. Es responsabilidad del estudiante identificar herramientas intelectuales que le aproximen al conocimiento propuesto en el aula de clase y logre por tanto dominios similares a los que muestra el docente cuando enseña. 3. Las herramientas de la pedagogía son mediadores entre el ejercicio docente y la responsabilidad que tiene el estudiante frente a los procesos de aprendizaje y que contribuyen a acortar distancias en visiones sobre el trabajo con matemáticas escolares, sin exonerar a estudiantes y maestros del papel que les corresponde en el proceso. Las dinámicas impuestas por las tensiones brevemente descritas se configuran en un círculo de responsabilidades frente al conocimiento matemático escolar: la sociedad responsabiliza al sistema escolar, éste responsabiliza al docente, el docente responsabiliza al estudiante quien devuelve la responsabilidad al representante de la sociedad y el sistema escolar: el docente. En esta dinámica de ires y venires, se ha abandonado al elemento central del proceso: el aprendizaje comprensivo de nociones y conceptos en matemáticas. El conocimiento matemático es concebido como un conocimiento terminado y por tanto elaborado por otros, de tal forma que los procesos escolares se entienden como caminos que permiten acceso a los resultados vinculados con algoritmos, fórmulas o procedimientos donde actúan nociones y conceptos, éstos últimos relegados en su importancia frente a la aplicación de algoritmos. Con el objeto de conciliar exigencias, supuestos y creencias en torno al aprendizaje en entornos escolares, sobre nociones y conceptos de matemáticas, es preciso repensar los roles de los actores del sistema escolar frente al conocimiento matemático escolar. Las visiones que se construyan en este sentido deben redefinir los compromisos con el conocimiento e identificar los elementos centrales que

103 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 104 — #104

i

i

Revista Elementos - Número 1 - Junio de 2011 posibiliten que el aprendizaje comprensivo de nociones y conceptos sea el núcleo central de la actividad de docentes, estudiantes y demás entes que intervienen en el acto educativo.

2.

Concepción de la función de la escolaridad en dos perspectivas

Los procesos de identificación y descripción de nuevos roles dentro del sistema escolar en la perspectiva enunciada atienden a una gran complejidad, la cual debe ser materia de investigación amplia y profunda. Aquí se plantea una observación acerca de un aspecto de esta problemática: la concepción de escolaridad. Es de anotar el esfuerzo de la comunidad educativa global por tratar de caracterizar una escolaridad que refleje las exigencias sociales. En “La educación encierra un tesoro”, Jacques Delors delinea los cuatro pilares sobre los cuales debería soportarse la educación en el siglo XXI y hacia los cuales debería enfocarse la acción de los niveles de escolaridad para que sean asumidos por un niño o adolescente en proceso de formación ciudadana. Aprender a conocer, aprender a hacer, aprender a ser y aprender a vivir juntos constituyen la utopía de los quehaceres y metas de la escolaridad formal o informal en la visión de Delors. Este derrotero marca expectativas de reflexión y acción, sobre el papel a desempeñar por la institución escolar y por sus actores: estudiantes, maestros, administradores escolares y currículos en la concreción de propósitos y fines de la educación. En especial el ítem que señala un requerimiento sobre el aprender a conocer intenta orientar los procesos escolares hacia la consecución de aprendizajes que promuevan la autonomía intelectual y desencadenen en el individuo procesos que lo lleven a niveles de comprensión cada vez mejores. Para el ente universitario se señala implícitamente la tarea de contribuir solidariamente con el desarrollo del estudiante, especialmente con un pensamiento superior, pero también se le exige que asuma con responsabilidad el real estado intelectual del individuo respecto de los supuestos y exigencias para abordar dichas tareas. Por lo tanto, se sitúa la función de docencia de la educación superior en un plano que compromete seriamente los planteamientos institucionales, en cuanto no es suficiente insertar en los planes de estudio unas cuantas asignaturas de matemáticas, sino que es imprescindible la declaratoria del tipo de formación básica en matemáticas que se persigue con ellas y de las formas como se propone la nivelación del estudiante para lograr alcanzar los mínimos requeridos por tal tipo de formación. Desarrollar planes, en coherencia con nuevas visiones del papel de la docencia universitaria en matemáticas, significa el reconocimiento de las posibilidades de “unas matemáticas para todos”, entendida esta expresión en términos de la real posibilidad que se da a quienes ingresan a las aulas universitarias, de vivenciar la experiencia escolar matemática y de dotarla de sentido en el marco de su formación profesional. Ahora, el desarrollo de los planes antes referidos requiere de la reflexión que supere la consideración metodológica o la técnica como el soporte de su diseño.

104 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 105 — #105

i

i

El aprendizaje comprensivo en matemáticas En este sentido es necesaria la mirada a la función asignada por la sociedad a la escolaridad para caracterizarla e identificar la viabilidad de estrategias y planes que replanteen la función de docencia. La investigación en educación matemática ha identificado la enseñanza como la función esencial de la escolaridad. La función de “enseñar” ha sido caracterizada en elementos fundamentales y en relaciones entre ellos, que para el caso de las matemáticas, se pueden describir a la manera de Ortíz [5], en este caso, sin profundizar la reflexión en ninguno de ellos: • Maestros de matemáticas formados para que cumplan la función de enseñar transmitiendo conocimientos, y evaluar a sus alumnos según los resultados obtenidos a partir de la enseñanza. • Conocimientos matemáticos elaborados por otros, que por razones no explícitas se convierten en conocimientos escolares o contenidos a enseñar. • Alumnos que aprenden, en general, por repetición de datos que no alcanzan a ser información y mucho menos conocimiento. • Enseñanza de conocimientos matemáticos que una vez adquiridos por el alumno se supone deben ser aplicados por transferencia a los contextos en que se requieran. Esta enseñanza se enmarca en valores como la meritocracia; trato igual para todos los alumnos, a todos se les dan las mismas posibilidades y se les plantean las mismas exigencias; méritos individuales justifican la desigualdad de los resultados, y la evaluación como mecanismo de selección, aplicado al final de un período lectivo. El maestro a través de la evaluación califica o descalifica a los alumnos por sus logros frente a lo enseñado. • Enseñanza que tiene como meta la transferencia y aplicación eficiente de conocimientos, se enmarca en un por qué y para qué no claramente explicitados, con los cuales, alumnos y maestros tienen poca o ninguna identificación, es decir, maestros y estudiantes que no se hacen responsables del aprendizaje. Para unos y otros siempre hay causas ajenas que justifican los resultados deficientes. La enseñanza tradicional se soporta en la concepción filosófica del conocimiento expuesto desde diferentes corrientes del positivismo, la cual asume el conocimiento como objeto de transmisión, más que como objeto de construcción. Los conocimientos enseñados se aceptan como verdaderos, inmodificables, correspondientes con la realidad e independientes del tiempo, el espacio y los individuos que enseñan y aprenden. Las exigencias sociales a la escolaridad, en los términos de nuevos requerimientos intelectuales a sus egresados sitúan teóricamente al aprendizaje como el eje central de su razón de ser. Con una nueva función para la institución educativa, es necesario redefinir los elementos que intervienen en el aprendizaje y lo determinan, así como las relaciones entre éstos. En esencia son los mismos que constituyen la enseñanza, pero con características y relaciones diferentes, pues se soportan en una concepción epistemológica opuesta a la tradicional. Tales elementos han sido caracterizados así [5]: • Maestros de matemáticas formados para orientar el aprendizaje. Profesionales de la docencia, trabajadores intelectuales, que viven y propician una cultura

105 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 106 — #106

i

i

Revista Elementos - Número 1 - Junio de 2011

• •

académica. Maestros comprometidos con el aprendizaje y que responden solidariamente por él. Conocimientos matemáticos escolares contextualizados que llegan a ser tales, porque a través de su proceso de difusión y aplicación o histórico de construcción mostraron ser, y aún son válidos y necesarios para la vida, la ciencia y la tecnología, convirtiéndose en lo que hemos denominado “conocimientos socialmente aceptados y exigidos” y por tanto necesarios de aprender. Estudiantes que asumen conscientemente y con responsabilidad la tarea de construcción de sus conocimientos y, por ende, la modificación y construcción de sus estructuras mentales. La transformación intelectual es una decisión del estudiante y, por tanto, un acto de la razón. Aprendizaje que en contraste con la enseñanza es particular, depende de las experiencias individuales, las capacidades, posibilidades y limitaciones del estudiante y su entorno que sólo se da en la medida que se posibilite y genere en conocimientos anteriores y estructuras de pensamiento logradas, y se obtiene a través de procesos de construcción basados en la actividad individual, colectiva y por la confrontación social. Evaluación autocrítica permanente que revisa el proceso de construcción en que están comprometidos estudiantes y maestros y permite identificar oportunamente: lo realizado y el cómo se realizó; los logros y lo que aún no se puede considerar como tal porque no se ha comprendido suficientemente; las dificultades y carencias enfrentadas, las que se superaron y las que aún están presentes; y las modificaciones y ajustes que el proceso mismo requiere. Evaluación que permite ajustar la marcha a partir del reconocimiento de lo que ha sido y lo que se quiere que sea. Aprendizaje cuya razón fundamental sea el desarrollo mental y cultural del estudiante y con él, el logro de las capacidades de trabajo intelectual y físico que le permitan comprender y modificar su entorno social, técnico y científico donde le toque actuar y contribuir a su transformación, con miras a su realización personal y social.

Parte II La perspectiva de pensar el sistema escolar y en particular la educación superior como un espacio centrado en el aprendizaje genera problemas de diversa complejidad, respecto de los caminos a seguir para concretar el supuesto teórico referenciado. Pero a la vez, visualiza expectativas esperanzadoras de lograr a partir de la exploración y la experimentación, el diseño de planes que impacten en profundo al sistema escolar y canalicen adecuadamente las expectativas sociales sobre su función. Con el objeto de aproximar la noción de ecuación desde la perspectiva del aprendizaje, se propone un estudio de las relaciones entre diversos aspectos conexos con la noción. Aspectos como el disciplinar, el entorno, el epistemológico entre otros se consideran y examinan con miras a estructurar una red de análisis didáctico que posibilite identificar formas de escolarizar la noción. La complejidad de la red exige la construcción paulatina de segmentos que se centres en nodos.

106 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 107 — #107

i

i

El aprendizaje comprensivo en matemáticas Como nodo de la red, se considera un punto de donde salen y a donde confluyen elementos a considerar en la aproximación escolarizada del concepto de ecuación. Dicho nodo puede estar constituido por pre-requisitos del concepto (a su vez pueden ser conceptos), elementos del entorno, conocimientos anteriores vinculados con el concepto (presaberes que no alcanzan a ser nociones), acciones cotidianas que expresan el concepto, expresiones del lenguaje, experiencias del individuo. RELACIÓN

IDENTIDAD

INECUACIÓN

COTIDIANIDAD

ECUACIÓN

IGUALDAD

EQUIVALENCIA

ORDEN

COMPARAR En este caso el segmento de la red permite una lectura de las relaciones de la cotidianidad con otros aspectos. Desde la cotidianidad es posible caracterizar el contexto donde accionan experiencias vinculadas con las ecuaciones cuando se identifican situaciones o problemas que informalmente usan elementos del concepto. El propósito de la identificación de la situación cotidiana es enunciarla y analizarla desde la aritmética informal del individuo (en el caso de las ecuaciones) para determinar, cómo se comprende la situación problema y en qué medida se es capaz de relacionar datos conocidos y desconocidos del mismo. Una mirada al manejo que se da del problema posibilita por parte del maestro determinar cómo piensa el estudiante en el camino de la solución de la problemática vinculada con el concepto; de esta manera posibilitará la identificación y diseño de actividades que permitan acceder a un nivel de mayor comprensión sobre el accionar del concepto. El acceder a un mayor nivel de comprensión está vinculado con el hecho que en las matemáticas cada elaboración del individuo tiene niveles propios de abstracción y generalización, y por tanto se requieren formas de pensar diferentes que posibiliten saltos cualitativos hacia niveles de mayor abstracción y generalización. En este sentido, la escuela poco tiene en cuenta la cotidianidad del individuo o sus experiencias anteriores e incluso desconoce las experiencias históricas precedentes a la escritura, con lo que refuerza la visión instrumental

107 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 108 — #108

i

i

Revista Elementos - Número 1 - Junio de 2011 del concepto en consideración (en este caso las ecuaciones) y el carácter idealista de la matemática. Admitir en el individuo un manejo de elementos relacionados con un concepto que a la vez sea mecánico y comprensivo, es decir, saber de qué se habla y “ser consciente” de lo que se dice, requiere el esfuerzo de comprender (por parte del maestro y del sistema escolar) que la cotidianidad de cada individuo es diferente y por tanto le da carácter particular a la red conceptual. El maestro como regulador de los procesos del aula debe mantener dentro de los propósitos de su acción docente, la identificación de metas en cuanto a aproximación al concepto que se aborda en el aula y sobre todo debe pensar cómo adelantarse a las posibilidades del estudiante. Esto requiere una posición comprometida con el conocimiento, en oposición a un falso constructivismo fundado en un dejar “hacer cualquier cosa” al estudiante. Al realizar una mirada (desde la experiencia docente) sobre los procedimientos que realiza un estudiante cuando trata de resolver una ecuación, en general, se aprecia: que si hay un interés por efectuar la tarea, ésta se basa esencialmente en el uso memorístico del algoritmo y no hay un ejercicio de reflexión y elaboración sobre el proceso que subyace al procedimiento. De hecho los procedimientos están en relación directa con las experiencias escolares mediadas por los hábitos, costumbres, formas de actuar y de pensar en tal entorno. Detrás de estos procedimientos se encuentran carencias, las cuales es necesario caracterizar con el objeto de diseñar actividades que ayuden a desarrollar el pensamiento del estudiante en torno a los elementos de las ecuaciones y por consiguiente en los procesos de solución. Algunas preguntas que acercan la identificación de carencias en el trabajo con ecuaciones son: ¿qué es una ecuación? ¿A qué se refieren las variables de una ecuación? ¿En qué conjuntos numéricos trabajamos las ecuaciones? En este mismo sentido es preciso una exploración de nociones vinculadas a la noción de ecuación, tales como: identidad, igualdad, equivalencia, valor numérico. El proceso de solución de ecuaciones es uno de los aspectos centrales de la noción de ecuación y tiene vinculaciones profundas con la caracterización de los elementos de los conjuntos numéricos y con el estudio detallado de significaciones en cada uno de ellos de las operaciones y sus propiedades. La situación de uso del signo menos (−) en el proceso de solución debe caracterizarse en cada conjunto numérico donde se van a trabajar las ecuaciones. Por ejemplo en los naturales, el uso del signo no presenta mayores problemas pues significa disminución desde el punto de vista de operador. Al considerar el uso del signo (−) en los enteros, se presenta un problema distinto en cuanto que se conserva el significado que tiene en los naturales y se amplía al uso en cantidades referidas a situaciones contrarias. Aún más, al considerar el uso del signo menos (−) en otros conjuntos numéricos, se presenta una situación particular en la expresión 2−1 donde el significado es un acuerdo de notación, diferente a los dos usos antes mencionados y próximo al trabajo con fracciones equivalentes y a propiedades de la potenciación. 5 1 1 = 10 = 21−1 = = 5 · = 5 · 5−1 5 5 108 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 109 — #109

i

i

El aprendizaje comprensivo en matemáticas Por tanto aproximar al estudiante, a tareas relacionadas con la solución de ecuaciones, requiere identificar conocimientos anteriores vinculados con el proceso, con objeto de posibilitar la construcción de explicaciones de carácter matemático en los procedimientos de solución de ecuaciones. Un aspecto a considerar en el análisis didáctico de las ecuaciones, y en particular el relacionado con el procedimiento de resolución, es el histórico, entendido como el proceso de examinar las realizaciones de culturas primeras de la humanidad en torno al objeto de estudio. El propósito de la mirada es tratar de encontrar las múltiples experiencias repetitivas de la cotidianidad que posibilitaron la elaboración de las “ideas” próximas a las ecuaciones y a su proceso de solución. Las referencias históricas respecto de las ecuaciones registran elaboraciones de los egipcios en torno las ecuaciones. En particular se encuentra la solución de la ecuación x + 17 x = 19. Los egipcios trabajaron con base en fracciones unitarias, vinculadas posiblemente a la cotidianidad del individuo y a problemas que se plantea desde ésta. Es esta la explicación del antropólogo Frank Hernández quien considera que ha debido ser “más” necesario la acción de “partir por mitades” que la de duplicar, relacionada directamente con la noción de equilibrio, fundamental como visión de mundo en las culturas primeras de la humanidad. Concretamente el equilibrio se puede evidenciar en acciones como poder transportar agua en dos recipientes unidos por un palo y cargados a hombros del individuo, de forma que se garantice “comodidad y efectividad” en dicho transporte. Luego aquí se intuye el significado de “un medio” y se puede intentar una elaboración que en principio tenga relación con el hecho de partir por mitades. Para el caso de la ecuación planteada veamos una posible explicación de la solución de la ecuación en términos del paso de “uno” o “un montón”, a “varias veces uno mismo” o “varias veces el mismo montón”. Si se asume que se tenía una conciencia de la relación “parte – todo” donde se identifica como x un montón desconocido, es posible asumir también que se poseía la intuición de que al partir en 7 partes iguales el montón desconocido nombrado como x, y juntar de nuevo las siete partes, se obtiene el montón original. Una posible interpretación de la ecuación en términos “prácticos” apunta a conseguir una expresión para un montón desconocido, de tal forma que 8 “veces” un séptimo del montón equivalga a 19. En término de cantidades discretas es posible el siguiente esquema y el correspondiente procedimiento. • El montón de 19 objetos debe ser partido en 8 partes iguales. Cada una de estas partes iguales equivaldrá a 17 del montón desconocido nombrado como x. • Se observa que 17 del montón desconocido equivaldrá a 2 más una parte de los tres objetos restantes.

109 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 110 — #110

i

i

Revista Elementos - Número 1 - Junio de 2011 • Al partir los tres objetos restantes en mitades no se alcanza el propósito de partir en 8 partes iguales, así que estas mitades se parten a su vez en mitades. • Ahora se obtienen 8 partes iguales y cada una equivale a un cuarto de uno de los 19 objetos. • Se aprecia que quedan 4 partes a repartir de nuevo.

1 2

1 4

• Estas cuatro partes restantes se parten por mitades obteniéndose 8 partes iguales, cada una de las cuales equivale a 18 de uno de los 19 objetos partidos. • Por lo tanto 18 del montón buscado equivale a 2 + 14 + 18 . • En consecuencia el montón buscado es 7 veces 2 + 14 + 81 .

1 8

El procedimiento ilustrado es un intento de explicar los procesos posiblemente abordados por una cultura que carecía del símbolo de fracción, pero que evidentemente hacía de la elaboración y la reflexión parte de su cotidianidad con objeto de solucionar inquietudes relacionadas con acciones repetitivas que llevan a interrogantes o a planteamiento de problemas. Es claro que aquí hay una consideración sobre “lo que se conoce” como medio de elaborar “ideas” y aproximarse a la construcción del “nuevo” objeto, camino que sin duda hace de la explicación matemática el elemento que soporta la justificación del procedimiento que soluciona el problema planteado. Para la universidad queda el cuestionamiento respecto de las formas en que se considera el conocimiento anterior de los estudiantes como elemento que ayuda a aproximarlos a “nuevos” conocimientos y lograr un desarrollo de pensamiento que posibilite acceder a niveles propios de abstracción y generalización, necesarios en diferentes fases de la formación. La intuición de “partir” por mitades, mitades de mitades, etc. también posibilita un intento de solución de algunas ecuaciones (aquellas donde son posibles particiones referidas) en un continuo como el de los números reales y su representación en la recta numérica. La solución de la ecuación 43 x = 2 es posible plantearla en estos términos: Se busca un número desconocido x, tal que 4 veces un tercio del número x equivalga a 2. Gráficamente se puede efectuar así:

110 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 111 — #111

i

i

El aprendizaje comprensivo en matemáticas

0

1

2

4 veces

x

1 3

de x

En el gráfico se aprecia entonces que x = 32 . Es factible explorar también un proceso de solución de ecuaciones del tipo ax + b = c, con a, b, c números tales que a 6= 0 de la siguiente forma: x=3 x + 5 = 3 + 5 Acción: Agregar 5 x+5=8 2(x + 5) = 2(8) Acción: Duplicar (tomar dos veces) las cantidades

3.

Conclusiones

El sistema escolar y sus componentes deben repensar sus responsabilidades y compromisos frente al aprendizaje. La historia de la evolución de la humanidad es evidencia de los logros alcanzados, cuando el aprendizaje ha sido el elemento central de los proceso de educación y formación del individuo. El aprendizaje de nociones y conceptos en matemáticas, para estudiantes que acceden a la Universidad, plantea la identificación de elementos que contribuyan bien a la construcción de nuevas nociones y conceptos o bien a destrabar procesos de pensamiento con objeto de re-elaborar nociones y conceptos supuestamente “ya vistos” en la educación básica. El aprendizaje de nociones y conceptos en matemáticas, cuestiona al docente en cuanto a los soportes de su práctica docente y lo conmina a incorporar a su bagaje intelectual elementos del proceso de investigación como soporte de su intervención pedagógica. Al respecto es preciso revelar y consolidar posiciones respecto a la naturaleza del conocimiento, la importancia del estudio de la disciplina (desde miradas históricas, de evolución del conocimiento y de desarrollos propios de ella) en el progreso de sus visiones sobre el acto educativo y sobre la construcción de su rol en la perspectiva del aprendizaje. Los recursos del sistema escolar, y en particular los relacionados con las actividades en el aula, deben ser objeto de indagación, reflexión y transformación para alcanzar logros coherentes con los propósitos de una educación matemática desde la perspectiva del aprendizaje como proceso de construcción.

Referencias 1. Barón E. A., Zamora H. E.: Estrategias para contribuir al aprendizaje comprensivo de nociones y conceptos en Matemáticas, Informe Técnico Final, Politécnico Grancolombiano, Institución Universitaria. (2003)

111 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 112 — #112

i

i

Revista Elementos - Número 1 - Junio de 2011 2. Bell, A.: Approaches to algebra. Perspective for research and teaching. Kuwer Academic Publishers. Dordreh, The Netherlands. (1996) 3. Kline, M.: El pensamiento matemático de la antiguedad a nuestros días. Alianza Editorial. Madrid. (1992) 4. Mardones, J.M.: Filosofía de las ciencias humanas y sociales. Materiales para una fundamentación científica. Editorial Anthropos. Barcelona. (1991) 5. Ortíz, M.: Iniciación a la aritmética. Una propuesta de formación de maestros desde la perspectiva del aprendizaje. Tesis de doctorado. Centro de estudios avanzados del Instituto Politécnico Nacional de México. D.F. Departamento de Matemática Educativa. México. D.F. (1995) 6. Ursini, S., Trigueros, M.: Understanding of different uses of variable. Twenty–First Annual Conference of PME. Lathi, Finlandia. (1997) 7. Vasco C.E.: Pedagogías para la comprensión en las disciplinas académicas, Unipluri/versidad, Vol. 4, No. 1. (2004)

112 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 113 — #113

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 114 — #114

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 115 — #115

i

i

LabVIEW y la instrumentación virtual aplicados a la docencia y la investigación en ciencias básicas César Quiñones? , Miguel Bernal?? Politécnico Grancolombiano

Fecha de recepción: Diciembre 1 de 2010 Fecha de aprobación: Marzo 23 de 2011

Resumen Este artículo muestra las principales características del lenguaje de programación gráfica LabVIEW y la instrumentación virtual. Muestra las características más importantes de este tipo de instrumentación, las ventajas y posibilidades que ofrece en el entorno de las ciencias básicas como una herramienta para la docencia y la investigación. Es un articulo de divulgación que busca servir de material introductorio para profesores y estudiantes que quieran trabajar con este tipo de tecnología y buscan entender los conceptos básicos antes de enfrentarse a un manual, un libro de texto o un curso virtual. Abstract This article shows the main characteristics of the graphical programming language LabVIEW as well as virtual instrumentation. It describes the most important characteristics of this type of instrumentation. Also, the advantages and possibilities it offers within the environment of basic sciences as a tool for teachers and researchers. This is an informative article that can be used as introductory material for teachers and students who want to work with this type of technology and understand its basic concepts before dealing with manuals, text books, or virtual courses. Palabras Clave: LabVIEW, instrumentación virtual. Keywords: LabVIEW, virtual instrumentation.

? ??

Ph.D Química. Universidad Nacional de Colombia. caquinones@poli.edu.co Licenciado en Física, Universidad Pedagógica Nacional UPN. Profesor de planta del Politécnico Grancolombiano. Campos de interés: física computacional, atómica y de la materia condensada. mabernal@poli.edu.co

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 116 — #116

i

i

Revista Elementos - Número 1 - Junio de 2011

1.

Introducción

LabVIEW 1.0 fue lanzado al mercado en 1986 por la compañía National Instruments. Desde entonces integró características importantes que aun hoy después de dos décadas de desarrollo y mejoras siguen siendo el núcleo fundamental de este entorno de programación. El remplazo de líneas de texto por iconos gráficos y la escritura de código por el enlace de estos iconos ha logrado disminuir mucho los tiempos de desarrollo que se requieren para crear un instrumento virtual. Originalmente creado para computadores mac, hoy este tipo de instrumentación abarca una gran variedad de sistemas operativos desde Windows hasta sistemas en tiempo real. La instrumentación virtual integra este lenguaje de programación con hardware especializado para crear soluciones que permiten adquirir, analizar y presentar datos en laboratorios de ciencia básica e ingeniería aprovechando al máximo las capacidades de calculo y comunicación de los computadores modernos. El éxito de este tipo de instrumentación ha sido muy grande y puede atribuirse a la facilidad de uso del entorno gráfico de programación y a los dispositivos de hardware auto configurables plug and play que permiten a profesionales de muchas áreas trabajar en monitoreo y control de sistemas sin ser especialistas en software, programación o electrónica. Otro parámetro importante ha sido la capacidad de integración con áreas específicas del conocimiento por medio del desarrollo de Tools Kits especializados que permiten crear aplicaciones avanzadas utilizando herramientas prediseñadas [1].

2.

Presentación del entorno LabVIEW

Un programa desarrollado en LabVIEW es llamado un instrumento virtual y tiene la extensión .VI. Está compuesto por un panel frontal y un diagrama de bloques. El primero es la interface humano máquina en la cual se encuentran controles e indicadores que permiten al usuario interactuar con el instrumento virtual. Los controles e indicadores simulan la apariencia de un instrumento real. De esta forma el operador puede manipular las variables del programa sin tener ningún conocimiento en programación. Este panel frontal ha sido uno de los grandes logros de LabVIEW ya que es fácilmente entendido y manejado por científicos e ingenieros de todas las ramas. Todos los controles pueden ser modificados por el usuario en posición, tamaño y color. Además, cuenta con algunos paquetes adicionales altamente especializados que permiten colocar controles e indicadores propios de campos muy específicos, algunos de esos paquetes son por ejemplo el DSSC (Data Login Sytem Control) que facilita la adquisición de datos y el control de instrumentos industriales y el Multisim para el diseño de aplicaciones con circuitos. Todos los controles e indicadores se encuentran en la paleta de controles que esta disponible solo para el panel frontal, esta paleta se muestra en la figura 1. En el diagrama de bloques se encuentra el código de programación el cual esta basado en iconos que se conectan para establecer un flujo de datos, cada control

116 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 117 — #117

i

i

LabVIEW y la instrumentación virtual en ciencias básicas. e indicador del panel frontal tiene un terminal que lo representa en el diagrama de bloques y desde o hacia este terminal viajan datos a través de alambres de conexión. Todas las herramientas y funciones se obtienen de la paleta de funciones que esta disponible en el diagrama de bloques, las diferentes funciones están agrupadas en sub paletas según su utilidad. Existen subpaletas tales como instrument i/o (para comunicación con instrumentos externos), Mathematics (para cálculos estadísticos, ajuste de datos o trabajo en álgebra lineal) y signal processing para el tratamiento de señales, entre muchas otras. De esta manera y conociendo la organización de las funciones dentro de cada una de las subpaletas, la programación puede hacerse de manera totalmente intuitiva. Aunque LabVIEW puede entender subrutinas basadas en lenguajes de texto importadas desde otros lenguajes de programación, los instrumentos virtuales pueden ser hechos en su totalidad colocando iconos gráficos, que representan funciones, dentro de estructuras de ejecución. La figura 1 muestra un instrumento virtual sencillo para generar ondas y mostrarlas en el panel frontal. El panel frontal tiene un indicador (la gráfica) y tres controles (selector signal type, frecuencia y control start/stop). En el diagrama de bloques se observan los terminales de los controles e indicadores que se han colocado en el panel frontal, la estructura de programación while que ejecuta las rutinas que se encuentran dentro de ella hasta que el control stop sea activado y la función generar de señales, todas ellas conectadas por medio de alambres cuyos diferentes colores indican los diferentes tipos de datos que viajan a través de ellos.

3.

Instrumentación virtual

La instrumentación virtual nace de la utilización del computador como una herramienta de medida y análisis de datos en el laboratorio. Aunque los programas que se desarrollan en LabVIEW se llaman instrumentos virtuales, en su forma mas general un instrumento virtual es la unión de un computador con el software y el hardware especializado que le permiten realizar las mismas funciones que un instrumento real. Estas funciones son adquirir, almacenar, analizar, mostrar y comunicar datos y tomar acciones de control sobre determinado proceso cuando así se requiera. Un instrumento virtual no es una simulación, el termino virtual se refiere a que el instrumento no existe como un instrumento tradicional por separado si no como parte de un sistema basado en software. Software que, en la pantalla del computador simula la apariencia de un instrumento real [2]. Las ventajas de utilizar instrumentación virtual son esencialmente todas aquellas que se derivan de la utilización de un computador y son entre otras: alta velocidad de procesamiento de datos, capacidad prácticamente ilimitada de almacenamiento de datos, comunicación de datos a diferentes niveles y altas velocidades, toma de decisiones según argumentos lógicos preestablecidos y capacidad comunicación con instrumentos externos o interfases de adquisición de datos por diferentes tipos de interfaces o buses disponibles.

117 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 118 — #118

i

i

Revista Elementos - Número 1 - Junio de 2011

Figura 1. Estructura de un instrumento virtual. a. Panel frontal con controles e indicadores. b. Paleta de controles. c. Diagrama de bloques con funciones y terminales d. Paleta de funciones e. Paleta de herramientas.

Un instrumento virtual es un instrumento de medida de arquitectura abierta lo que permite que pueda ser fácilmente escalable en caso de que se requiera aumentar el tipo o clase de señales que se están monitoreando o controlando. Es además reconfigurable y puede ser diseñado de manera tal que se acople a los requerimientos de un usuario particular. Cuando nos referimos a hardware especializado hacemos referencia específicamente a dos clases de hardware. Primero, diferentes instrumentos de medida disponibles en un laboratorio como osciloscopios, multímetros o medidores de pH que cuentan con interfaces de comunicación que les permiten ser conectados al computador y controlados desde LabVIEW. Segundo, interfaces de conversión análogo/digital o digital/análogo de National Instruments u otra compañía de instrumentación. LabVIEW cuenta con una gran cantidad de drivers para diferentes instrumentos de laboratorio e interfaces de adquisición de datos de otros fabricantes disponibles de forma gratuita en el sitio Web de la compañía. De esta manera las posibilidades para escoger o acoplar hardware ya existente en el laboratorio son muy amplias.

118 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 119 — #119

i

i

LabVIEW y la instrumentación virtual en ciencias básicas.

4.

La instrumentación virtual como herramienta docente

El concepto sobre el cual se desarrollo LabVIEW permite que el tiempo necesario para el desarrollo de aplicaciones sea muy corto si se compara con otros lenguajes de programación gracias a que es un lenguaje grafico e intuitivo. Estas características hacen posible la inclusión del estudiante en el desarrollo de sistemas de adquisición de datos en laboratorios de química o física experimental, por tal motivo LabVIEW ha sido incluido dentro de currículo de varias carreras científicas y de ingeniería e incorporado como un a herramienta docente en laboratorios de instrumentación, análisis y adquisición de datos [3], [4], [5]. Dentro de un laboratorio de docencia LabVIEW puede ser utilizado para hacer adquisición de datos [6], [7], establecer correlaciones [8], generar reportes en una practica de laboratorio los cuales pueden asemejarse a un informe de laboratorio [9], hacer simulaciones [10], mejorar y automatizar medidas de laboratorio que previamente se realizaban manualmente [11], mejorar el proceso de enseñanza [12], o diseñar sistemas de adquisición remotos [13]. La instrumentación virtual es ampliamente utilizada en la industria en la actualidad, razón por la cual trabajar con este tipo de instrumentación tiene como valor agregado el entrenamiento del estudiante con herramientas que encontrara en su entorno profesional. Las estructuras de programación en LabVIEW permiten que el estudiante tenga una idea clara y jerarquizada de los procesos de adquisición, análisis y presentación y comunicación de datos. El trabajo con instrumentación virtual en el laboratorio ha demostrado que cuando el estudiante es involucrado en el proceso de diseño y montaje de un sistema de monitoreo o control de alguna variable física o química, entiende mas fácilmente el fenómeno bajo estudio y puede proponer y comprobar hipótesis relacionadas con el fenómeno bajo estudio.

5.

La instrumentación virtual como herramienta investigativa

La mayoría de las interfaces de adquisición de datos son multipropósito lo cual hace de los instrumentos virtuales instrumentos muy versátiles. Existen muchos ejemplos de instrumentación virtual avanzada aplicada a laboratorios de investigación [14], [15], [16], [17] y en todos ellos el computador juega un papel fundamental como herramienta de análisis y almacenamiento de datos. Las variables más comunes en este tipo experimentos son temperatura, nivel, presión, voltaje y resistencia. Otras que pueden monitorearse son pH, concentración de especies químicas en solución, flujo, aceleración y corriente eléctrica y cualquier otra en la que se cuente con un sensor adecuado que produzca una señal analógica o digital que pueda ser leída por una interfase de datos que se conecte al computador. Cuando los experimentos así lo requieran puede contarse con interfaces de especificaciones muy altas ya sea alta velocidad de adquisición, amplificación o filtrado de señales o respuesta en tiempo real. En general puede decirse que un sistema monitoreo y control basado en instrumentación virtual puede tomar

119 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 120 — #120

i

i

Revista Elementos - Número 1 - Junio de 2011 decisiones acerca del almacenamiento, muestreo, análisis y control de variables en experimento dado, facilitado de esta manera la labor investigativa ya que libera tiempo del investigador, suministra mejores datos y permite hacer un análisis detallado de los datos.

6.

Conclusión

LabVIEW y la instrumentación virtual basada en computadores son herramientas poderosas en la academia a nivel investigativo y docente. Este lenguaje de programación puede ser ejecutado sobre diferentes plataformas y proporciona acceso a la capacidad de almacenamiento, análisis y comunicación propia de los computadores modernos. Las aplicaciones son tan diversas como numerosas y pueden dar una idea clara de la versatilidad de las posibles aplicaciones que pueden lograrse. Libros especializados, blogs, foros y cursos libres disponibles en internet son algunas de las múltiples posibilidades que existen para aprender a manejar este lenguaje de programación. El logro más grande de este tipo de programación e instrumentación es poner al alcance de científicos, ingenieros docentes e investigadores una gran cantidad de nuevas posibilidades antes reservadas solamente a programadores e instrumentadores expertos.

Referencias 1. Lajara, J., Pelegri, J.: LabVIEW: Entorno gráfico de programación. Alfaomega, Mexico D. F. (2007) 2. Lázaro, A., Río, J.: LabVIEW: Programación grafica para el control de instrumentación. Thomson, Madrid. (2005) 3. Mason, D. S.: Preparing the Professional Chemist . J. Chem. Educ., Vol. 80 No. 6. (2003) 4. Drew, S. M.: Integration of National Instruments LabVIEW Software in to the Chemistry Curriculum. J. Chem. Educ. Vol. 73 No. 12. (1996) 5. Gostowski, R.: Teaching Analytical Instrument Design with LabVIEW 1, J. Chem. Educ. Vol. 73 No. (1996) 6. Muyskens, M. A., Glass, S. V., Wietsma, T. W., Gray T. M.: Data Acquisition in the Chemistry Laboratory Using LabVIEW Software, J. Chem. Educ. Vol. 73 No. 12. (1996) 7. Ogren, P. J., Jones, T. P.: Laboratory Interfacing Using the LabVIEW Software Package, J. Chem. Educ.Vol. 73 No 12. (1996) 8. Hovick, J. W., Murphy, M., Poler J. C.: An Introduction to Correlation Techniques, “Audibilization” in the Chemistry Laboratory: for Data Extraction, J. Chem. Educ., Vol. 84 No. 8. (2007) 9. Belletti, A., Borromei, R., Ingletto, G.: EQVAPSIM: A Vapor–Liquid Equilibria of Binary Systems, Computer Simulation by LabVIEW , J. Chem. Educ., Vol. 85 No. 6. (2008) 10. Belletti, A., Borromei, R., Ingletto, G.: Teaching Physical Chemistry Experiments with a Computer Simulation by LabVIEW, J. Chem. Educ., Vol. 83 No. 9. (2006) 11. Urian, R. C., Khundkar, L. R.: A Diode-Laser-Based Automated Timing Interface for Rapid Measurement of Liquid Viscosity, Department of Chemistry, Northeastern University, Boston, J. Chem. Educ., Vol. 75 No. 9. (1998)

120 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 121 — #121

i

i

LabVIEW y la instrumentación virtual en ciencias básicas. 12. Bell, M. A., Gladwin, R. P., Drury, T. A.: Computer-assisted learning. Implementing CAL in Chemistry, J. Chem. Educ., Vol. 75 No. 6. (1998) 13. Baran, J., Currie, R.: Remote Instrumentation for the Teaching Laboratory Chemical Technology, J. Chem. Educ., Vol. 81 No. 12. (2004) 14. Malina, E. G., Nakhleh, M. B.: How Students Use Scientific Instruments to Create Understanding: CCD Spectrophotometers, J. Chem. Educ., Vol. 80 No. 6. (2003) 15. Martinez, L. M., Videa, M., Mederos, F., Mesquita, J.: Differential Thermal Analysis Device for Teaching and Research, J. Chem. Educ.,Vol. 84 No. 7. (2007) 16. Spanoghe, P., Cocquyt, J., Van der Meeren, P.: A Low-Cost Dynamic Surface Tension Meter with a LabVIEW Interface and Its Usefulness in Understanding Foam Formation, J. Chem. Educ. Vol 78, No 3. (2001) 17. Jensen, M. B.: Integrating HPLC and Electrochemistry: A LabVIEW – Based Pulsed Amperometric Detection System, Vol. 79 No. 3. (2002) 18. Bailey, R. A., Desai, S. B., Hepfinger, N. F., Hollinger, H. B., Locke, P. S., Miller, K. J.: Simultaneous Recording of Multiple Cooling Curves, J. Chem. Educ., Vol 74, No 6. (1997)

121 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 122 — #122

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 123 — #123

i

i

Reseñas

Elementos de análisis funcional Teófilo Abuabara y Jaime Lesmes C. Editorial Universidad de los Andes (Bogotá, Colombia) Facultad de Ciencias y Departamento de Matemáticas, 2010 ISBN 9789586954914 Reseña: El propósito principal de este libro es servir como texto para un primer curso de Análisis funcional. En él se hace una presentación completa y rigurosa de la teoría básica de los espacios de Banach y de los espacios de Hilbert, así como de la teoría espectral de los operadores compactos de estos. Se incluyó también un capítulo preliminar sobre la topología de los espacios métricos. Durante más de veinticinco años transcurridos desde su aparición, se ha usado frecuentemente como texto para el curso de Análisis Funcional en la Universidad de los Andes y en la Universidad Nacional de Colombia. En esta nueva edición se modificaron algunos ejercicios, se actualizó la bibliografía y se agregó un índice analítico con el fin de facilitar las labores de búsqueda. El libro además expone los progresos alcanzados en la materia y presenta los tratados de Análisis Funcional que se han escrito en los últimos años. Autores: Jaime Lesmes Camacho estudió matemáticas e ingeniería civil en la Universidad Nacional de Colombia. Posteriormente se doctoró en la Universidad de Fráncfort, en Alemania. Trabajó en la Universidad Nacional de Colombia y en el Instituto de Matemáticas Pura e Aplicada (IMPA) de Río de Janeiro. Desde 1980 es profesor en la Universidad de los Andes, de cuyo departamento ha sido director. El profesor Lesmes es uno de los pioneros de las matemáticas en Colombia y uno de los matemáticos más reconocidos por sus trabajos en análisis funcional. Teófilo Abuabara es matemático de la Universidad Nacional y realizó estudios de maestría y doctorado en el Instituto Nacional de Matemática Pura y Aplicada (IMPA). Trabajó en la Universidad Federal de Santa Catarina, en Florianápolis y luego en la Universidad Estadual Paulista Júlio de Mesquita Filho (UNESP), en Rio Claro, Brasil.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 124 — #124

i

i

Revista Elementos - Número 1 - Junio de 2011

El universo LATEX

Rodrigo de Castro Korgi

Editorial Universidad Nacional de Colombia (Sede Bogotá) Facultad de Ciencias Departamento de Matemáticas, 2003 (segunda edición) Cuarta reimpresión, 2010 ISBN 9587010604 Reseña: El presente libro de Rodrigo De Castro Korgi está concebido como guía de aprendizaje y manual de referencia para LATEX 2ε , y suple las necesidades tanto de principiantes como de TEX-nócratas consumados. Este texto tiene un doble propósito de servir de guía de aprendizaje y de manual de referencia para la nueva versión estándar de LATEX, denominada LATEX 2ε . No presenta una lista escueta de comandos, sino que ilustra el uso de los distintos comandos por medio de abundantes ejemplos. Puesto que el usuario utiliza LATEX para producir documentos concretos, la manera más eficiente de aprender el programa es a través del examen de ejemplos concretos, lejos de las descripciones sintácticas abstractas. La presentación de todas las ilustraciones LATEX es, no obstante, exhaustiva y rigurosa. Esta edición incluye material adicional: una espléndida versión interactiva de El Universo LATEX y un CD con útil y abundante software de dominio público. Otro aporte novedoso es la descripción conjunta y completa de muchos paquetes y programas que se ejecutan en el ambiente LATEX. Trae, además, una descripción de las herramientas de LATEX 2ε y de numerosos paquetes que se ejecutan en su ambiente con más de 450 ejemplos e ilustraciones a todo color; manejo de textos matemáticos con los paquetes amsmath, amssymb para el empleo de expresiones y textos matemáticos y diagramas conmutativos con el paquete pb-diagram; elaboración de gráficas con los versátiles paquetes gráficos PSTricks y PICTEX; creación de documentos LATEX interactivos con el programa pdfLATEX y el paquete hyperref; elaboración de índices alfabéticos y de materias con el programa MakeIndex y manipulación y confección de bibliografías extensas con el programa BibTEX; construcción de tablas con mayores opciones y herramientas gracias al paquete array, y la colección PSNFSS de fuentes alternas PostScript. Algunas de las ventajas y de los objetivos de este texto son: • Después del éxito de la primera edición, en esta muy esperada segunda edición se incluye material adicional y un CD con útil y variado software. • Descripción completa de las herramientas de LATEX 2ε y de numerosos paquetes que se ejecutaran en su ambiente, con más de 450 ejemplos, e ilustraciones a todo color. • Manejo de textos matemáticos con el paquete amsmath y diagramas conmutativos con el paquete pb-diagram.

124 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 125 — #125

i

i

Reseñas • Elaboración de gráficas con los paquetes PSTricks y PICTEX. • Creación de documentos Latex interactivos con el programa pdfLATEX y el paquete hyperref. • Elaboración de índices alfabéticos tonel programa MakeIndex y de bibliografías con el programa BibTEX. • Uso de fuentes alternas PostScript. Incluye una espléndida versión interactiva de El Universo LATEX y abundante software de dominio público.

Matemáticas básicas para economistas. Vol. 1. Álgebra lineal (Con notas históricas y contextos económicos) Sergio Monsalve (Editor) Editorial Universidad Nacional de Colombia (Sede Bogotá) Facultad de Ciencias Económicas, 2010 ISBN 9789587193053 Reseña: Una vez presentado el volumen 0 (Fundamentos) de Matemáticas básicas para economistas, el primer paso en la formación matemática de todo economista moderno es afrontar el estudio de aquellas herramientas que permiten abordar “problemas lineales”; es decir, de lo que hoy se llama álgebra lineal. Al plantearlo así, deciden tomar, como hilo articulador, la solución de un sistema de ecuaciones lineales, pues este problema, aparentemente simple, es el verdadero origen de una gran cantidad de conceptos e ideas del álgebra lineal: matriz, determinante, base, dimensión, etc. Y aunque el tratamiento formal de este texto lo podría asemejar a otros de este mismo nivel y objetivo, se diferencia de ellos en varios aspectos: en primer lugar, en la orientación que han dado a la conformación de las lecciones, alrededor de los sistemas de ecuaciones lineales, y el hacerlo siempre acompañado de su respectiva conexión geométrica. En segundo lugar, la presentación (en los “contextos económicos” de final de cada lección), de los más importantes modelos económicos lineales, que son aún hoy estudiados en las carreras de economía, así sólo sea, en algunos casos, para propósitos de fundamentación teórica (el modelo Walras-Cassel, el modelo de Leontief, el modelo de von Neumann, el modelo de Sraffa, el modelo IS-LM lineal, el modelo de juegos de von Neumann-Morgenstern, y el modelo de mercado competitivo de Koopmans); y, finalmente, las notas históricas que permiten, de cierta forma, trazar el devenir de los conceptos matemáticos y económicos que han desarrollado. Una observación pedagógica. Este texto ha sido elaborado, no pensando exclusivamente en los estudiantes de pregrado de economía; también es apropiado para estudiantes de maestría y doctorado. Sólo que en la presentación del material,

125 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 126 — #126

i

i

Revista Elementos - Número 1 - Junio de 2011 al profesor o instructor le correspondería hacer el énfasis adecuado que mejor se adapte al curso o seminario que tenga a cargo.

Diseño de experimentos. Métodos y aplicaciones Óscar Orlando Melo Martínez, Luis Alberto López Pérez y Sandra Esperanza Melo Martínez Editorial Universidad Nacional de Colombia (Sede Bogotá) Facultad de Ciencias, 2007 ISBN 9789589127490 Reseña: Esta obra que ponemos a consideración de la comunidad estadística, se concibió ante el incremento constante del manejo de métodos experimentales en diferentes campos de la investigación científica, por eso presenta temas de interés relevantes en muchas áreas del conocimiento científico en un lenguaje asequible a los investigadores a quienes se le demanda conocimiento básico de Métodos Estadísticos. La temática que se aborda, en general puede encontrarse en muchos otros textos del área de los Diseños de Experimentos, los Modelos Lineales y la Superficie de Respuesta, sin embargo, el enfoque teórico práctico que le damos el libro da una particularidad especial dentro del marco de los diferentes textos de Diseños de Experimentación de los cuales tenemos conocimiento. Nuestra motivación fundamental lo constituyen los trabajos de Hikelmann y Kempthorne (1993, 2005), como libros básicos, estos autores contribuyeron a darnos una visión más amplia de las estadísticas experimental.

Introducción a la confiabilidad y evaluación de riesgos. Teoría y aplicaciones en ingeniería Mauricio Sánchez-Silva Editorial Universidad de los Andes (Bogotá, Colombia), 2011 ISBN 9586955117 Reseña: Este libro compila aspectos conceptuales y teóricos fundamentales para evaluar y comprender la importancia del riesgo dentro del proceso de toma de decisiones en ingeniería. El libro presenta métodos incluidos en los últimos avances y describe la teoría que los soporta. Los conceptos esenciales se discuten ampliamente y el detalle de los métodos analíticos se ilustran con ejemplos y aplicaciones prácticas. El libro está estructurado para que pueda utilizarse como texto guía en varios cursos de ingeniería de pregrado y posgrado con énfasis en análisis de riesgos y confiabilidad. Además, el libro contiene información y métodos de análisis específicos de gran utilidad para ingenieros que trabajan en diseño y consultoría. Los aspectos más importantes que cubre este libro incluyen:

126 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 127 — #127

i

i

Reseñas • Revisión y discusión de conceptos básicos en confiabilidad y análisis de riesgos. • Descripción del proceso de toma de decisiones en ingeniería y de métodos aproximados para la evaluación de riesgos. • Presentación de los métodos para la evaluación de la confiabilidad de componentes y sistemas. • Descripción y explicación de métodos de simulación básicos y avanzados para la evaluación de la confiabilidad y para aplicaciones en diferentes áreas de ingeniería. • Revisión de técnicas de optimización en ingeniería con aplicaciones a problemas de análisis de riesgos y confiabilidad. • Discusión de estrategias y modelos para la evaluación del ciclo de vida de infraestructura (sistemas y componentes) con el fin de definir criterios óptimos de diseño y operación. Autor: Mauricio Sánchez-Silva es ingeniero civil y magíster de la Universidad de los Andes; y Ph.D. de la Universidad de Bristol, UK en Evaluación de Riesgos. Actualmente es profesor asociado del Departamento de Ingeniería Civil y Ambiental de la Universidad de los Andes. Sus áreas de trabajo principales incluyen confiabilidad y evaluación de riesgos, procesos estocásticos, modelación de sistemas y deterioro de materiales. En particular, trabaja en la evaluación y manejo de riesgos en problemas relacionados con infraestructura física (estructuras, redes y sistemas). Su trabajo incluye la utilización de modelos probabilísticos, métodos para el análisis de datos, toma de decisiones, inteligencia artificial y optimización. Sus intereses incluyen además estudios de riesgo en problemas donde el contexto socioeconómico y el medio ambiente son muy importantes y, en consecuencia, los modelos tradicionales utilizados para la evaluación del riesgo sólo se pueden utilizar parcialmente. Para mayor información puede visitar: http://risk-reliability.uniandes.edu.co/wiki/doku.php.

127 i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 128 — #128

i

i

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 129 — #129

i

i

Revista Elementos Información para los autores

Las instrucciones que a continuación se presentan tienen el propósito de estandarizar la presentación de artículos para ser sometidos al proceso de evaluación del comité editorial. Pretenden establecer una coherencia en la presentación que dé identidad y estructura a la publicación y, además, tener presente variables importantes en el momento de evaluar la calidad de los artículos por autoridades externas. Se publicarán artículos de investigación científica y tecnológica, de reflexión y de revisión, en su mayoría. Los mismos serán escritos tanto por investigadores de la institución como por profesionales externos. Aunque se pueden publicar artículos de cualquiera de los once tipos existentes, el mayor énfasis se hará en artículos de los tipos: 1, 2 y 3, de acuerdo con las definiciones dadas por Colciencias para su proceso de indexación. A saber: 1. Artículo de investigación científica y tecnológica. Documento que presenta de manera detallada los resultados originales de un proyecto de investigación. La estructura por lo general utilizada contiene cuatro apartes importantes: introducción, metodología, resultados y discusión. 2. Artículo de reflexión. Documento que presenta resultados de investigación, desde una perspectiva analítica, interpretativa o crítica del autor, sobre un tema específico, recurriendo a fuentes originales. 3. Artículo de revisión. Documento que surge de una investigación en la que se analizan, sistematizan e integran los resultados de investigaciones, publicadas o no, sobre un campo en ciencia o tecnología con el fin de dar cuenta de los avances y las tendencias de desarrollo. Se caracteriza por presentar una cuidadosa revisión bibliográfica de por lo menos cincuenta referencias. 4. Artículo corto. Documento breve que presenta resultados originales, preliminares o parciales, de una investigación científica o tecnológica, que por lo general requiere de una pronta difusión. 5. Reporte de caso. Documento que presenta los resultados de un estudio sobre una situación particular, con el fin de dar a conocer las experiencias técnicas y metodológicas consideradas en un caso específico. Incluye una revisión sistemática comentada de la literatura sobre casos análogos. 6. Revisión de tema. Documento que resulta de la revisión crítica de literatura sobre un tema en particular. 7. Cartas al editor. Posiciones críticas, analíticas o interpretativas sobre los documentos publicados en la revista que, a juicio del comité editorial, constituyen un aporte a la discusión del tema por parte de la comunidad científica de referencia. 8. Editorial. Documento escrito por el editor, un miembro del comité editorial o un investigador invitado, sobre orientaciones en el dominio temático de la revista. 9. Traducción. Traducciones de textos clásicos o de actualidad, o transcripciones de documentos históricos o de interés particular en el dominio de publicación de la revista. 10. Documento de reflexión que no es producto de una investigación. 11. Reseña bibliográfica. 12. Otros.

Temáticas Elementos recibirá artículos escritos principalmente por docentes, investigadores, empresarios, investigadores externos (nacionales y extranjeros) y semilleros de investigación, quienes aportarán a los campos de conocimiento de la Ingeniería y Ciencias Básicas. Los textos pueden referirse, entre otros, a los siguientes temas de las disciplinas de Computación e Informática, Ingeniería Industrial, Ingeniería de Telecomunicaciones y Ciencias Básicas: Infraestructura de hardware y software. Desarrollo y construcción de software. Análisis y diseño de algoritmos. Informática y sociedad. Nuevas tecnologías: NGN, cloud computing, virtualización, etc. Matemáticas puras (álgebra, análisis, topología, lógica) Matemáticas aplicadas (criptografía, procesamiento de señales, computación gráfica, bioinformática, etc) Matemáticas discretas.

Análisis multivariado y factorial. Series de tiempo. Educación matemática. Investigación de operaciones. Optimización. Minería de datos. Modelamiento, simulación y gestión de producción y de procesos. Cadenas productivas. Instrumentación virtual. Matemáticas financieras. Análisis de riesgo.

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 130 — #130

i

i

Presentación de los Artículos Los trabajos presentados deben ser inéditos y serán sometidos a una evaluación del comité científico y editorial y de árbitros anónimos. Estos estudiarán cada artículo y decidirán si es conveniente su publicación. En algunos casos, podrán aceptar el artículo con algunas modificaciones o podrán sugerir la forma más adecuada para su presentación. El artículo definitivo se remite al autor o a los autores para la aprobación de su versión final. La aceptación y el rechazo para la publicación de este serán notificadas al autor o a los autores, quienes conocerán el concepto de los jueces anónimos que lo evaluaron. En caso de ser aceptado, el autor o los autores deben firmar una autorización (cuyo formato ya está establecido por la editorial). El autor o los autores recibirán tres ejemplares de la publicación. Si alguien ajeno al autor o a los autores presentan un artículo, deben adjuntar una prueba de representación si actúan como apoderados o una prueba de adquisición del derecho a publicar. En ningún caso serán devueltos los artículos originales. Para su publicación, los artículos deben ser enviados en las fechas establecidas dentro del cronograma del proceso de edición. Recepción de artículos Proceso abierto durante todo el año. Cierre editorial Los artículos pueden ser entregados en la facultad a la que pertenece o pertenecen los respectivos docentes. En caso de que sean el resultado de una investigación institucional, serán recibidos en el Departamento de Investigación, si el artículo es de un autor externo se debe remitir a: Departamento Editorial del Politécnico Grancolombiano Calle 57 No. 3-00 este Bloque A, primer piso Bogotá, Colombia Correo electrónico: ednorman@poligran.edu.co, elementos@poli.edu.co. La editorial solo iniciará el proceso de edición con los artículos que cumplan con las características incluidas en este documento. En caso de que un artículo no clasifique, el editor enviará una comunicación formal al autor o a los autores por correo electrónico o carta impresa.

Características de Recepción de los Artículos 1. Los trabajos que se propongan deben presentar resultados de investigación originales o reportes con experiencias relevantes y no deben estar publicados ni en proceso de evaluación para otras revistas. 2. Se recibirán artículos en el formato LATEX 2ε . Para lo anterior se debe usar la plantilla LNCS de Springer disponible en http://www.springer.com/lncs. 3. Los artículos deben ser enviados en formato tex y también su versión en pdf, al correo electrónico elementos@poli.edu.co. 4. En la primera página debe estar la siguiente información: título del artículo (en español), datos del autor o los autores con los nombres y apellidos completos, fecha de recepción y aceptación del artículo, una corta reseña del autor o de los autores con una extensión máxima de 700 caracteres, correo electrónico del autor o de los autores, dirección, teléfono fijo, celular y filiación institucional. 5. En caso de contener mapas, cuadros, tablas, fórmulas o ilustraciones deben estar claramente descritas, y en orden. Se prefiere la entrega de gráficas externas en formatos vectoriales como pdf o eps, o tambén en formato jpg o png. Tener en cuenta que la revista es en blanco y negro y por tanto se debe usar escala de grises o convenciones adecuadas para este perfil. La información de texto, gráficos e imágenes debe ser presentada en una sola tinta y presentar la correspondiente autorización para su publicación. Los cuadros se enumerarán en forma consecutiva y lo mismo se hará con las figuras, que deben llevar una enumeración independiente. 6. El artículo debe traer un resumen en español con una extensión máxima de 700 caracteres, en el que se sinteticen los objetivos, métodos de estudio, resultados y conclusiones. Se deben adicionar las palabras clave (de 4 a 6). 7. Además, se debe presentar el resumen (Abstract) y las palabras clave (Key Words) en inglés. En caso de no contener esto, la editorial procederá a realizar la traducción por medio del Departamento Académico de Idiomas de la institución. 8. Se recibirán artículos presentados con el sistema de referencias correspondiente al ejemplo de uso typeinst.zip de la plantilla LNCS de Springer disponible en http://www.springer.com/lncs. A continuación se ilustra dicho tipo de referencia: 1. Foster, I., Kesselman, C.: The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann, San Francisco (1999)

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 131 — #131

i

i

Elementos Magazine Information for Authors

The instructions presented below are intended to standardize the presentation of articles to be evaluated by the editorial committee. These instructions establish coherence in the presentation that provides the publication with identity and structure. Also, they establish important variables when external authorities evaluate the quality of articles. Mostly, articles of scientific and technological research, reflection and revision will be published. These will be written not only by researches of the institution, but also by external professionals. Although articles of any of the eleven existing types can be published, the biggest emphasis will be made in articles of 1, 2, and 3 types, according to the definitions given by Colciencias for its indexation process. As follows: 1. Scientific and Technological Research Article. Document that presents, in detail, the original results of the research projects that were finished. Generally, the structure used has four important parts: introduction, methodology, results, and discussion. 2. Reflection Article. Document that presents the results of a research that was finished from an analytical, interpretative, or critical point of view of the author on a specific topic, based on original sources. 3. Review Article. Document that is the result of a finished research where the results of published and unpublished researches about science or technology are analyzed and systematized. This is in order to report development advances and tendencies. It is characterized by presenting a thorough bibliographic review of at least fifty references. 4. Short Article. Brief document that presents original, preliminary, or partial results of scientific or technological research that usually requires a quick spreading. 5. Case Study. Document that presents the results of a study about a particular situation in order to present the methodological and technical experiences considered in a specific case. It includes a commented systematic review of the literature about analog cases. 6. Topic Review. Document that results from the critical review of the literature of a specific topic. 7. Letters to the Editor. Critical, analytical, or interpretative positions about the documents published in the magazine, and that, according to the editorial committee, contribute to the discussion of the topic by the scientific community being referred to. 8. Editorial. Document written by the editor, a member of the editorial committee, or a guest researcher about orientations related to the thematic command of the magazine. 9. Translation. Translations of classic or current texts, or transcriptions of historical or of particular interest documents related to the publishing command of the magazine. 10. Reflection document that is not product of a research. 11. Bibliographic Review. 12. Others.

Topics Elementos will receive articles written mainly by teachers, researches, entrepreneurs, external researches (national and foreigner) and research seedbed, who will contribute to the knowledge fields of Engineering and Basic Sciences. The texts can refer, among others, to the following topics of Computing and Computer Science, Industrial Engineering, Telecommunication Engineering, and Basic Sciences: Hardware and Software Infrastructure. Software Development and Construction. Algorithm Analysis and Design. Computer Science and Society. New Technologies: NGN, cloud computing, virtualization, etc. Pure Mathematics (algebra, analysis, topology, logic). Applied Mathematics (cryptography, sign processing, graphic computing, bioinformatics, etc.) Discrete Mathematics. Multi-varied and factorial analysis.

Time Series. Mathematical Education. Operation Research. Optimization. Data Mining. Production and Process Modeling, Simulation, and Management. Productive Chains. Virtual Implementation. Financial Mathematics. Risk Analysis

i

i i

i


i

i “ElementosNumUnoPapel” — 2011/5/27 — 13:42 — page 132 — #132

i

i

Presentation of the Articles The articles presented should be unpublished and will be submitted to an evaluation from the scientific and editorial committee and the anonymous peers. These will study each article and will decide if it is convenient to publish them. In some cases, the article can be accepted with some modifications or a better suitable presentation can be suggested. The definite article is sent to the author for his approval. The acceptance and rejection for the publication of the article will be notified to the author or authors, who will know the decision of the anonymous peers that evaluated it. If accepted, the author or authors have to sign an authorization (the format has already been established by the editorial.) The author or authors will receive three samples of the publication. If someone apart from the author or authors present an article, it is necessary to attach a proof of representation, if they act as a representative, or a proof of acquisition of the publishing rights. The original articles will never be return under any circumstances. In order to be published, the articles must be sent within the dates established in the editing process schedule. Reception of the Articles This process is open throughout the year. Editorial Closing Date The articles can be handed in the school the respective teacher or teachers belong to. If they are the result of an institutional research, they will be received at the Research Department. If the article belongs to an external author, it should be sent to: Departamento Editorial del Politécnico Grancolombiano Calle 57 No. 3-00 este Bloque A, primer piso Bogotá, Colombia Correo electrónico: ednorman@poligran.edu.co, elementos@poli.edu.co. The editorial will start the editing process with the articles that fulfill all the characteristics included in this document. If an article is not classified, the editor will send a formal communication to the author or authors by email or printed letter.

Reception Characteristics of the Articles 1. The articles to be proposed must present original research results or reports with relevant experiences and must not be published or being evaluated by other magazines. 2. Articles in LATEX 2ε format will be received. For this, it is necessary to use the Springer LNCS template, available at http://www.springer.com/lncs. 3. The articles must be sent in tex format along with their pdf version to the email elementos@ poli.edu.co. 4. The following information should be on the first page: title of the article (in Spanish), data of the author or authors with the full name, reception date, and article acceptance, a brief review of the author or authors with a maximum extension of 700 characters, email of the author or authors, address, landline number, cell phone number, and institutional relationship. 5. If the article has maps, charts, formulas, or drawings, they must be clearly described and in order. We prefer the delivery of external graphics in vectorial formats, such as pdf or eps, or also in jpg or png format. Keep into account that the magazine is black and white and for this reason, you should use gray scale or conventions suitable for this profile. The information of text, graphics, and images must be presented in one ink along with its corresponding publishing authorization. The charts and the figures will be numbered consecutively, but the latter will also have to have an independent numbering. 6. The article must have an abstract in Spanish with a maximum extension of 700 characters, where the objectives, study methods, results, and conclusions are synthesized. Keywords must be added (from 4 to 6.) 7. Also, the abstract and the keywords must be presented in English. If the article does not have this, the editorial will translate it through the Academic Language Department of the institution. 8. Articles presented with the reference system corresponding to the typeinst.zip use example of the Springer LNCS template, available at http://www.springer.com/lncs, will be received. This type of reference is illustrated below: 1. Foster, I., Kesselman, C.: The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann, San Francisco (1999)

i

i i

i


ELEMENTOS