Morfismos, Vol 23, Num 1, 2019

Page 1


Chief Editors - Editores Generales • Isidoro Gitler • Jesús González

Associate Editors - Editores Asociados • Ruy Fabila • Onésimo Hernández-Lerma • Héctor Jasso Fuentes • Miguel Maldonado • Carlos Pacheco • Enrique Ramı́rez de Arellano • Enrique Reyes • Dai Tamaki • Enrique Torres Giese

Apoyo Técnico • Idalı́ Amaya Chagolla • Adriana Aranda Sánchez • Omar Hernández Orozco • Anabel Lagos Córdoba • Roxana Martı́nez Trujillo • Pedro Uribe Flores

Morfismos está disponible en la dirección http://www.morfismos.cinvestav.mx. Para mayores informes dirigirse al teléfono +52 (55) 5747-3871. Toda correspondencia debe ir dirigida a la Sra. Anabel Lagos, Departamento de Matemáticas del Cinvestav, Apartado Postal 14-740, México, D.F. 07000, o por correo electrónico a la dirección: morfismos@math.cinvestav.mx.




Morfismos, Volumen 23, Número 1, enero a junio de 2019, es una publicación semestral editada por el Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional (Cinvestav), a través del Departamento de Matemáticas. Avenida Instituto Politécnico Nacional número 2508, colonia San Pedro Zacatenco, Delegación Gustavo A. Madero, C.P. 07360, D.F., Tel. 55-57473800, www.cinvestav.mx, morfismos@math.cinvestav.mx, Editores Generales: Drs. Isidoro Gitler y Jesús González Espino Barros. Reserva de Derechos No. 04-2012-011011542900-102, ISSN: 1870-6525, ambos otorgados por el Instituto Nacional del Derecho de Autor. Certificado de Licitud de Tı́tulo No. 14729, Certificado de Licitud de Contenido No. 12302, ambos otorgados por la Comisión Calificadora de Publicaciones y Revistas Ilustradas de la Secretarı́a de Gobernación. Impreso por el Departamento de Matemáticas del Cinvestav, Avenida Instituto Politécnico Nacional 2508, Colonia San Pedro Zacatenco, C.P. 07360, México, D.F. Este número se terminó de imprimir en julio de 2020 con un tiraje de 50 ejemplares. Las opiniones expresadas por los autores no necesariamente reflejan la postura de los editores de la publicación. Queda estrictamente prohibida la reproducción total o parcial de los contenidos e imágenes de la publicación, sin previa autorización del Cinvestav.



Information for Authors The Editorial Board of Morfismos calls for papers on mathematics and related areas to be submitted for publication in this journal under the following guidelines: • Manuscripts should fit in one of the following three categories: (a) papers covering the graduate work of a student, (b) contributed papers, and (c) invited papers by leading scientists. Each paper published in Morfismos will be posted with an indication of which of these three categories the paper belongs to. • Papers in category (a) might be written in Spanish; all other papers proposed for publication in Morfismos shall be written in English, except those for which the Editoral Board decides to publish in another language. • All received manuscripts will be refereed by specialists. • In the case of papers covering the graduate work of a student, the author should provide the supervisor’s name and affiliation, date of completion of the degree, and institution granting it. • Authors may retrieve the LATEX macros used for Morfismos through the web site http://www.math.cinvestav.mx, at “Revista Morfismos”. The use by authors of these macros helps for an expeditious production process of accepted papers. • All illustrations must be of professional quality. • Authors will receive the pdf file of their published paper. • Manuscripts submitted for publication in Morfismos should be sent to the email address morfismos@math.cinvestav.mx.

Información para Autores El Consejo Editorial de Morfismos convoca a proponer artı́culos en matemáticas y áreas relacionadas para ser publicados en esta revista bajo los siguientes lineamientos: • Se considerarán tres tipos de trabajos: (a) artı́culos derivados de tesis de grado de alta calidad, (b) artı́culos por contribución y (c) artı́culos por invitación escritos por lı́deres en sus respectivas áreas. En todo artı́culo publicado en Morfismos se indicará el tipo de trabajo del que se trate de acuerdo a esta clasificación. • Los artı́culos del tipo (a) podrán estar escritos en español. Los demás trabajos deberán estar redactados en inglés, salvo aquellos que el Comité Editorial decida publicar en otro idioma. • Cada artı́culo propuesto para publicación en Morfismos será enviado a especialistas para su arbitraje. • En el caso de artı́culos derivados de tesis de grado se debe indicar el nombre del supervisor de tesis, su adscripción, la fecha de obtención del grado y la institución que lo otorga. • Los autores interesados pueden obtener el formato LATEX utilizado por Morfismos en el enlace “Revista Morfismos” de la dirección http://www.math.cinvestav.mx. La utilización de dicho formato ayudará en la pronta publicación de los artı́culos aceptados. • Si el artı́culo contiene ilustraciones o figuras, éstas deberán ser presentadas de forma que se ajusten a la calidad de reproducción de Morfismos. • Los autores recibirán el archivo pdf de su artı́culo publicado. • Los artı́culos propuestos para publicación en Morfismos deben ser dirigidos a la dirección morfismos@math.cinvestav.mx.


Editorial Guidelines Morfismos is the journal of the Mathematics Department of Cinvestav. One of its main objectives is to give advanced students a forum to publish their early mathematical writings and to build skills in communicating mathematics. Publication of papers is not restricted to students of Cinvestav; we want to encourage students in Mexico and abroad to submit papers. Mathematics research reports or summaries of bachelor, master and Ph.D. theses of high quality will be considered for publication, as well as contributed and invited papers by researchers. All submitted papers should be original, either in the results or in the methods. The Editors will assign as referees well-established mathematicians, and the acceptance/rejection decision will be taken by the Editorial Board on the basis of the referee reports. Authors of Morfismos will be able to choose to transfer copyrights of their works to Morfismos. In that case, the corresponding papers cannot be considered or sent for publication in any other printed or electronic media. Only those papers for which Morfismos is granted copyright will be subject to revision in international data bases such as the American Mathematical Society’s Mathematical Reviews, and the European Mathematical Society’s Zentralblatt MATH.

Morfismos

Lineamientos Editoriales Morfismos, revista semestral del Departamento de Matemáticas del Cinvestav, tiene entre sus principales objetivos el ofrecer a los estudiantes más adelantados un foro para publicar sus primeros trabajos matemáticos, a fin de que desarrollen habilidades adecuadas para la comunicación y escritura de resultados matemáticos. La publicación de trabajos no está restringida a estudiantes del Cinvestav; deseamos fomentar la participación de estudiantes en México y en el extranjero, ası́ como de investigadores mediante artı́culos por contribución y por invitación. Los reportes de investigación matemática o resúmenes de tesis de licenciatura, maestrı́a o doctorado de alta calidad pueden ser publicados en Morfismos. Los artı́culos a publicarse serán originales, ya sea en los resultados o en los métodos. Para juzgar ésto, el Consejo Editorial designará revisores de reconocido prestigio en el orbe internacional. La aceptación de los artı́culos propuestos será decidida por el Consejo Editorial con base a los reportes recibidos. Los autores que ası́ lo deseen podrán optar por ceder a Morfismos los derechos de publicación y distribución de sus trabajos. En tal caso, dichos artı́culos no podrán ser publicados en ninguna otra revista ni medio impreso o electrónico. Morfismos solicitará que tales artı́culos sean revisados en bases de datos internacionales como lo son el Mathematical Reviews, de la American Mathematical Society, y el Zentralblatt MATH, de la European Mathematical Society.

Morfismos


This issue of Morfismos is devoted to the best works presented by the students registered at the third school of Topological Data Analysis and Stochastic Topology that took place in January 2017 at the Abacus Computer Center of Cinvestav. The survey paper highlighting this issue, on the origins and fast developments behind the idea of persistence, provides an important landmark, and should be of great value to experts, practitioners and students in the field. The organizers of the school are deeply thankful to the instructors, Leo Betthauser, Peter Bubenik, Samir Chowdhury, Carina Curto, Vladimir Itskov, and Facundo Mémoli, for having prepared high quality material and brilliant expositions of the three theoretical-practical courses delivered during the school. Jesús González Jose Perea Vı́ctor Pérez Abreu Gelasio Salazar



Third School of Topological Data Analysis and Stochastic Topology

Courses Topology for Data Science Peter Bubenik, Leo Betthauser University of Florida Applications of Topology to Neuroscience Carina Curto, Vladimir Itskov Pennsylvania State University Network Data Analysis: Metrics and Persistent Homology Facundo Mémoli, Samir Chowdhury Ohio State University

School Organizers: Jesús González (Cinvestav) Jose Perea (Michigan State University) Vı́ctor Pérez Abreu (CIMAT) Gelasio Salazar (Universidad Autónoma de San Luis Potosı́)


Description of Courses Topology for Data Science: Algebraic topology has been successful in developing machinery for synthesizing complex geometric information into global invariants. The new field of applied topology seeks to implement and build on these tools for the purpose of analyzing modern data. We will give an introduction to topological data analysis (TDA) and show how it can be combined with other approaches popular in data science. We will start by introducing the underlying mathematics, simplicial complexes and homology, and proceed to study the main tool of the subject, persistent homology. In order to allow our results to be more easily combined with statistics and machine learning, we will introduce the persistence landscape. With these tools, we will analyze a number of biological applications and see how we can combine TDA with permutation tests, principal component analysis and support vector machines. The course will include a practical component where we will use R to implement all of the above. Applications of Topology to Neuroscience: The brain represents information via neural codes, and “cracking the neural code” is one of the fundamental challenges of neuroscience. In this course we will learn how topology can help us to understand basic properties of neural codes. We will also see how TDA can be used to detect principles of neural coding from experimental recordings of neural activity. These ideas will be illustrated in a variety of systems, whose neural circuits support vision, spatial navigation, and olfaction. Network Data Analysis: Metrics and Persistent Homology: Networks are representations of (possibly asymmetric) relationships between objects that have long been used in the sciences, and techniques for their analysis have a rich history in mathematics. In this course, we view networks as generalized metric spaces and extend the mathematical tools available for studying finite metric spaces to the setting of networks. We will show how the Gromov- Hausdorff distance between finite metric spaces can be extended to define a distance on the collection of all networks under a suitable notion of isomorphism. We will cover both the main theoretical properties of this metric and discuss the computational complexity associated with its calculation. We will then explore certain network signatures (isomorphism invariants) —the local and global spectrum— that can be used to perform clustering/classification tasks on databases of networks. As a second component of the course, in order to extend our collection of network signatures, we will consider the tool of persistent homology, and explain how it can be adapted to the setting of directed networks. We will describe the stability properties of the resulting constructions under the notion of metric alluded to above. Throughout the course we will supplement theoretical concepts with computational examples (in MatLab), demonstrations, and extension projects.


Contents - Contenido

A Brief History of Persistence Jose A. Perea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Aplicaciones de técnicas de ATD con datos del INEGI José de Jesús Aguirre-Tepole and Angel Emilio de León-Gutiérrez . . . . . . . 17

Análisis Topológico de Datos y Homologı́a Persistente, usando el lenguaje R José de Jesús Aguirre-Tepole and Angel Emilio de León-Gutiérrez . . . . . . . 27

Diseño de grafos pesados con n-ciclos persistentes Omar Radhames Urquı́dez Calvo and Marı́a Alejandra Valdéz Cabrera . . . 37



Morfismos, Vol. 23, No. 1, 2019, pp. 1–16 Morfismos, Vol. 23, No. 1, 2019, pp. 1–16

A Brief History of Persistence Jose A. Perea

1

Abstract Persistent homology is currently one of the more widely known tools from computational topology and topological data analysis. We present in this note a brief survey of how the subject has evolved over the last few years.

2010 Mathematics Subject Classification: 55N99, 68W05, 55U99 Keywords and phrases: Persistent homology, barcodes, stability, zigzags, quivers

1

The Early Years: Computer Science Meets Geometry, Algebra and Topology

Our current view of persistent homology can be traced back to work of Patrizio Frosini (1992) on size functions [29], and of Vanessa Robins (1999) [44] on using experimental data to infer the topology of attractors in dynamical systems. Both approaches rely on singular homology as a shape descriptor, which leads to what is known today as the “homology inference problem”: Given a finite set X (the data) sampled from/around a topological space X (e.g., the attractor), how can one infer the homology of X from X with high confidence? See for instance [41] for the case when X is a compact Riemannian submanifold of Euclidean space, and X ⊂ X is sampled according to the intrinsic uniform distribution. From here on out it will be useful to think of X and X as subspaces of a bounded metric space (M, ρ). In this case, one can ∗

Invited Paper. This work was partially supported by the NSF (DMS-1622301) and DARPA (HR0011-16-2-003). 1

1


2

Jose A. Perea

formalize the statement “X approximates X” by saying that if Z ⊂ M, ≥ 0, and Z ( ) := {x ∈ M : ρ(x, Z) ≤ }, then the Hausdorff distance dH (X, X) := inf > 0 : X ⊂ X( ) and X ⊂ X ( ) is small. The goal is then to approximate the topology of X by that of X ( ) . Below in Figure 1 we illustrate the evolution of X ( ) as increases.

Figure 1: Some examples of X ( ) for X ⊂ R2 sampled around the unit circle, and values 0 < 1 < 2 < 3 . In order to capture the multiscale nature of X = {X ( ) } , and deal with the instability of topological features in X ( ) as changes, Frosini and Robins introduced (independently) the idea of homological persistence: for , δ ≥ 0 let ι ,δ : X ( ) → X ( +δ) be the inclusion, and consider the induced linear map in homology with coefficients in a field F ( ) ( +δ) ι ,δ ;F ∗ : Hn X ; F −→ Hn X The image of ι ,δ ∗ is the δ-persistent n-th homology group of the filtered space X at , denoted Hn ,δ (X ; F); and rank ι ,δ ∗ is the persistent Betti number βn ,δ (X ; F). The design of algorithms to efficiently compute/approximate these integers is of course predicated on first replacing the spaces X ( ) by finite, combinatorial models of their topology. Fortunately there is a vast literature on how to do this. Take for instance the Vietoris-Rips complex, first introduced by Leopold Vietoris in the nineteen-twenties


A Brief History of Persitence

3

in an attempt to define a homology theory for general metric spaces [47]. It is defined, for Z ⊂ M and ≥ 0, as the abstract simplicial complex R (Z) := {z0 , . . . , zk } ⊂ Z : ρ(zi , zj ) ≤ for all 0 ≤ i, j ≤ k Below in Figure 2 we show an example of how R (Z) evolves as increases, for Z ⊂ R2 sampled around the unit circle, and for values 0 < 1 < 2 < 3 .

Figure 2: Some examples of the Rips complex, for points sampled around the unit circle in R2 . Notice that R (Z) ⊂ R +δ (Z) whenever δ ≥ 0; in other words, R(Z) = {R (Z)} is a filtered simplicial complex. Janko Latschev shows in [35] that when X is a closed Riemannian manifold, there is an 0 > 0, so that if 0 < ≤ 0 , then there exists δ > 0 for which dH (X, X) < δ implies that the geometric realization of R (X) is homotopy equivalent to X. Discarding the manifold hypothesis — which is not expected to hold in general applications — highlights the value of persistence as a homology inference tool. Indeed, in [17] Chazal, Oudot and Yan show that if X ⊂ Rd is compact with positive weak feature size 2 [16], and X ⊂ Rd is finite with dH (X, X) small, then there exists a range for > 0 where Hn ,3 (R(X); F) is isomorphic to Hn X( ) ; F . It is worth noting that while these theorems deal with small , far less is known about the large-scale regime. Indeed, aside from trivial examples, the circle is (essentially) the only space Z for which the homotopy type of R (Z) is known explicitly for all > 0 [1, 2]. The efficient computation of the persistent Betti numbers of a finite filtered simplicial complex K = {K0 ⊂ K1 ⊂ · · · ⊂ KJ = K}, was addressed by Edelsbrunner, Letscher and Zomorodian in (2000) [27], for subcomplexes of a triangulated 3-sphere and homology with coefficients in F2 = {−1, 1}. This restriction was a tradeoff between 2

this is a notion of how complex the embedding of X into Euclidean space is.


4

Jose A. Perea

generality and speed: the algorithm was based on previous work of Delfinado and Edelsbrunner [22] to compute (standard) Betti numbers incrementally in time O(N α(N )), where N is the number of simplices of K and α is the inverse of the Ackermann function [19]. Since the Ackermann function grows very rapidly, its inverse α grows very slowly. Though limited in generality, the approach by Delfinado and Edelsbrunner highlights the following idea: If Kj is obtained from Kj−1 by adding a single simplex τ ∈ K, and Hn (Kj−1 ; F) −→ Hn (Kj ; F) is not surjective, then either τ is an n-simplex creating a new homology class, or it is an n + 1-simplex eliminating a class from Kj−1 . Thus, simplices in K that either create or annihilate a given persistent homology class can be put in pairs (τ, σ) of the form creator-annihilator. These pairings are in fact a byproduct of the incremental algorithm of Delfinado and Edelsburnner. The barcode is also introduced in [27] as a visualization tool for persistence: each pair (τ, σ) yields an interval [j, ), where j (birth time) is the smallest index so that τ ∈ Kj , and > j (death time) is the smallest index for which σ ∈ K . Thus, long intervals indicate stable homological features throughout K, while short ones reflect topological noise. The resulting multiset of intervals (as repetitions are allowed) is called a barcode. The notation is bcdn (K). Moreover, the barcode subsumes the persistent Betti numbers, since βn ,δ (K; F) is the number of intervals [j, ) ∈ bcdn (K) with j ≤ and > + δ. Below in Figure 3 we show an example of a filtered simplicial complex, the simplicial pairings (τ, σ), and the resulting barcodes.

2

Here Comes the Algebra

The developments up to this point can be thought of as the computational and geometric era of persistent homology. Around 2005 the focus started to shift towards algebra. Zomorodian and Carlsson introduced in [50] the persistent homology

P Hn (K; F) := Hn (Kj ; F) , K = {Kj }j∈Z j∈Z

of a filtered complex K, as the graded module over F[t] with left multiplication by t on j-homogeneous elements given by the linear map φj : Hn (Kj ; F) −→ Hn (Kj+1 ; F)


5

A Brief History of Persitence

Figure 3: A filtered simplicial complex K = {K0 ⊂ · · · ⊂ K8 }, along with the simplicial pairings (τ, σ), and the resulting barcodes for homology in dimensions 0 (orange) and 1 (green). induced by the inclusion Kj → Kj+1 . Since then, P Hn (K; F) is referred to in the literature as a persistence module. More generally [6, 7], let J and C be categories with J small (i.e., so that its objects form a set). The category of J-indexed persistence objects in C is defined as the functor category Fun(J, C); its objects are functors F : J → C, and its morphisms are natural transformations ϕ : F1 ⇒ F2 . The typical indexing category comes from having a partially ordered set (P, ), and letting P denote the category with objects Obj(P ) = P , and a unique morphism from p1 to p2 whenever p1 p2 . We’ll abuse notation and denote this morphism by p1 p2 , instead of the categorical notation p1 → p 2 . It can be readily checked that if ModR denotes the category of (left) modules over a commutative ring R with unity, and gModR[t] is the category of Z-graded modules over the polynomial ring R[t], then

(1)

Fun(Z, ModR ) −→ gModR[t] M , ϕ

→ M (j) , ϕj j∈Z

j∈Z

is an equivalence of categories. On the graded R[t]-module side, multiplication by t on j-homogeneous elements is given by M (j ≤ j + 1) : M (j) −→ M (j + 1). This equivalence shows why/how the evolution of


6

Jose A. Perea

homological features in a Z-filtered complex K, can be encoded as the algebraic structure of the persistence module P Hn (K; F).

2.1

Persistence Modules and Barcodes

When P Hn (K; F) is finitely generated as an F[t]-module — e.g. if Kj = Kj is finite — then one has a graded isomorphism ∅ for j < 0 and j∈Z

⎛ (2)

P Hn (K; F) ∼ =⎝

Q

⎞ tnq · F[t]⎠ ⊕

q=1

L

(tm · F[t]) /(tm +d )

=1

for nq , m ∈ Z and d ∈ N [48]. The decomposition (2) is unique up to permutations, and thus the intervals [n1 , ∞), [n2 , ∞), . . . ,[nQ , ∞), [m1 , m1 + d1 ), [m2 , m2 + d2 ), . . . , [mL , mL + dL ) provide a complete discrete invariant for (i.e., they uniquely determine) the F[t]-isomorphism type of P Hn (K; F). Moreover, this multiset recovers the barcode bcdn (K) of Edelsbrunner, Letscher and Zomorodian [27]. Carlsson and Zomorodian also observe that P Hn (K; F) is in fact the homology of an appropriate chain complex of graded F[t]-modules. Hence, a graded version of the Smith Normal Form [24] computes the barcode decomposition (2), providing a general-purpose algorithm. This opened the flood gates; barcodes could now be computed as a linear algebra problem for any finite filtered simplicial complex K0 ⊂ · · · ⊂ KJ = K, over any (in practice finite) field of coefficients, and up to any homological dimension. The resulting matrix reduction algorithm, implemented initially in the JPlex library (now javaPlex) [3], runs in polynomial time: its worst time complexity is O(N 3 ), where N is the number of simplices of K. In fact Dmitriy Morozov exhibits in [40] a finite filtered complex of dimension 2, attaining the worst-case. This shows that the cubic bound is tight for general barcode computations. While this sounds potentially slow, specially compared to the time complexity O(N · α(N )) of the sequential algorithm, Morozov’s example should be contrasted with filtrations arising from applications. In practice the matrices to be reduced are sparse, and computing their associated barcode decomposition takes at worst matrix-multiplication


A Brief History of Persitence

7

time O(N ω ) [38], where ω ≈ 2.373 [49]. Over the last ten years or so there has been a flurry of activity towards better implementations and faster persistent homology computations. A recent survey [42] compares several leading open source libraries for computing persistent homology. All of them implement different optimizations, exploit new theoretical developments and novel heuristics/approximations. For instance, one improvement is to first simplify the input filtered complex without changing its persistent homology (e.g., using discrete Morse theory [39]); or to compute persistent cohomology, since it is more efficient than persistent homology and gives the same answer [21]. The shift towards algebra has had other important consequences; specifically: 1) a better understanding of stability for barcodes, and 2) several theorems describing how the choice of categories J and C impacts the computability of isomorphism invariants for objects in Fun(J, C). Let me say a few words about stability.

2.2

The Stability of Persistence

Let X be a triangulable topological space (e.g., a smooth manifold) and let f : X −→ R be a tame function (this is a generalization of being Morse). The prototypical example in TDA arises from a compact set X ⊂ Rd , and letting fX : Rd −→ R be fX (y) = inf x − y . x∈X

−1 (−∞, ] = X ( ) . Given f : X −→ R, let bcdn (f Thus fX ) denote the −1 barcode for the n-th persistent homology of f (−∞, ] ∈R . Drawing inspiration from Morse theory, Cohen-Steiner, Edelsbrunner and Harer introduced in (2007) [18] two foundational ideas: (1) the bottleneck distance dB ( · , · ) between barcodes, and (2) the stability theorem asserting that for tame f, g : X −→ R one has that3

dB (bcdn (f ), bcdn (g)) ≤ f − g ∞ In particular, if X, Y ⊂ Rd are compact and X = X ( ) , Y = Y ( ) , then dB (bcdn (X ), bcdn (Y)) ≤ dH (X, Y ). This inequality implies that slight changes to the input data change the barcodes slightly, which is key for applications where (Hausdorff) noise plays a role. 3

A similar result was established in [25] for n = 0.


8

Jose A. Perea

Towards the end of 2008 Chazal et. al. solidified the idea of stability with the introduction of interleavings for R-indexed persistence modules [13]. The construction is as follows. For δ ≥ 0 let Tδ : R −→ R be the translation functor Tδ ( ) = + δ. An δ-interleaving between two persistence vector spaces V, W : R −→ ModF is a pair (ϕ, ψ) of natural transformations ϕ : V ⇒ W ◦ Tδ

and

ψ : W ⇒ V ◦ Tδ

so that ψ +δ ◦ ϕ = V ( ≤ + 2δ) and ϕ +δ ◦ ψ = W ( ≤ + 2δ) for all ∈ R. The interleaving distance between V and W , denoted dI (V, W ), is defined as the infimum over all δ ≥ 0 so that V and W are δ-interleaved, if interleavings exist. If there are no interleavings, the distance is defined as ∞. It readily follows that dI is an extended (since infinity can be a value) pseudometric on Fun(R, ModF ), and that dI (V, W ) = 0 whenever V ∼ = W . The converse, however, is false in general (more on this later). Chazal et. al. [13] show that if V : R −→ Mod satisfies rank V ( < F ) < ∞ for all pairs < , this is called being q-tame, then V has a well-defined barcode bcd(V ) (see [20] for a shorter proof when dimF V ( ) < ∞ for all ; this is called being pointwise finite). Moreover, if V, W are q-tame, then one has the algebraic stability theorem dB (bcd(V ), bcd(W )) ≤ dI (V, W ). This turns out to be an equality: dB (bcd(V ), bcd(W )) = dI (V, W ) which nowadays is referred to as the Isometry Theorem; the first known proof is due to Lesnick [36]. As I said earlier, dI (V, W ) can be zero for V and W nonisomorphic, and thus bcd(V ) is not a complete invariant in the q-tame R-indexed case. This can be remedied as follows. Let qFun(R, ModF ) denote the full subcategory of Fun(R, ModF ) comprised of q-tame persistence modules. The ephemeral category eFun(R, ModF ), is the full subcategory of qFun(R, ModF ) with objects V : R −→ ModF satisfying V ( < ) = 0 for all < . The observable category oFun(R, ModF ) is the quotient category qFun(R, ModF )/eFun(R, ModF ) As shown by Chazal et. al. in [14], dI descends to an extended metric on the observable category, and taking barcodes bcd : oFun(R, ModF ), dI −→ Bcd, dB


A Brief History of Persitence

9

is an isometry. Hence, the barcode is a complete invariant for the isomorphism type of observable R-indexed persistence vector spaces. In summary, the modern view of stability is algebraic; persistence modules are compared via interleavings, which one then tries to relate to the bottleneck distance between the associated barcodes if they exist.

2.3

Changing Indexing Categories: Multi-d Persistence, Quivers and Zigzags

One of the early realizations in TDA was the usefulness of having filtrations indexed by more than one parameter (1999) [30]. For instance, given a data set X ⊂ Rd one might want to focus on densely-populated regions [9], or portions with high/low curvature [12]. This leads naturally to Zn -filtered complexes: {Ku }u∈Zn , u = (u1 , . . . , un ), where Ku ⊂ Kv whenever u v (i.e., u1 ≤ v1 , . . . , un ≤ vn ). In this multifiltered complex, each filtering direction u1 , . . . , un is meant to capture an attribute: e.g. distance/scale, density, curvature, etc. Taking homology with coefficients in F yields objects in Fun(Zn , ModF ), and just like before, Zn -indexed persistence F-vector spaces correspond to n-graded modules over the n-graded polynomial ring Pn := F[t1 , . . . , tn ]. Parameterizing the isomorphism classes of said modules, for n ≥ 2, turns out to be much more involved than the barcodes from n = 1. Indeed, around 2009 Carlsson and Zomorodian [11] showed that the isomorphism type of a finitely generated n-graded Pn -module is uniquely determined by the following data: two finite multisets ξ0 , ξ1 ⊂ Zn encoding the location and multiplicity of birth-death events, and a point in the quotient of an algebraic variety RF(ξ0 , ξ1 ) by the algebraic action of an algebraic group Gξ0 . The multisets ξ0 , ξ1 are the discrete portions of the resulting isomorphism invariant, while RF(ξ0 , ξ1 )/Gξ0 parameterizes the (potentially) continuous part. Here is an example due to Carlsson and Zomorodian [11] illustrating how complicated this quotient can be. For n = 2, consider the isomorphism classes of P2 -modules having ξ0 = {(0, 0), (0, 0)} and ξ1 = {(3, 0), (2, 1), (1, 2), (0, 3)}. If Gr1 (F2 ) denotes the Grassmannian of lines in F2 , then RF(ξ0 , ξ1 ) = Gr1 (F2 ) × Gr1 (F2 ) × Gr1 (F2 ) × Gr1 (F2 ) and Gξ0 turns out to be the degree 2 general linear group GL2 (F) acting diagonally on Gr1 (F2 )4 . Since Gr1 (F2 )4 /GL2 (F) contains a copy of F {0, 1}, and each point in this set yields a distinct isomorphism class of


10

Jose A. Perea

P2 -modules, it follows that there is no complete discrete invariant for (finite!) multi-d persistence. The vast majority of recent results from multidimensional persistence focus on computable descriptors/visualizations of its intricate algebraic structure. Besides introducing the parametrization ξ0 , ξ1 , RF(ξ0 , ξ1 )/Gξ0 , Carlsson and Zomorodian also propose the rank invariant: For a q-tame module V : Zn −→ ModF , it is defined as the function ρV sending each pair u v in Zn to the integer rank V (u v). ρV is computable (see [10] for a polynomial-time algorithm), it is discrete, and an invariant of the isomorphism type of V . When n = 1 one can recover bcd(V ) from ρV and viceversa, and thus ρV is complete in the 1-dimensional case. Knudson notes in [34] that ξ0 (V ) and ξ1 (V ) are in fact the locations/multiplicities of birth events in the torsion modules TorP0 n (V, F) and TorP1 n (V, F), respectively; here F is identified with the Pn -module F[t1 , . . . , tn ]/(t1 , . . . , tn ). The higher-dimensional analogs TorPj n (V, F), j ≥ 2, lead to a family of finite multisets ξj (V ) ⊂ Zn , each with its own geometric interpretation, serving as isomorphism invariants for V . Other approaches to invariants for multidimensional persistence include the Hilbert Series of Harrington et. al. [33], the extended algebraic functions of Skryzalin and Carlsson [46], and the feature counting invariant of Scolamiero et. al. [45]. Lesnick and Wright have recently released RIVET, the Rank Invariant Visualization and Exploration Tool [37]. Put simply, RIVET uses the fact that if V : R2 −→ ModF is q-tame and L ⊂ R2 is a line with nonnegative slope (hence a totally ordered subset of (R2 , )), then V L : L −→ ModF , the 1-dimensional persistence vector space obtained by restricting V to L, has a well-defined barcode bc V L . The key feature in RIVET L is a graphical interface which, for interactively as the user varies L. finite bi-filtrations, displays bc V This is particularly useful for parameter selection and the exploratory analysis of data sets with filtering functions. Multidimensional persistence is a great example of how a seemingly innocuous change in indexing category, say from Z to Z2 , can lead to a widely different and much more complicated classification problem. With this in mind, one would like to have a systematic approach to address the ensuing complexity. The representation theory of Quivers [23] offers one such avenue. It turns out that the classification of finite Jindexed persistence vector spaces V : J −→ ModF can be studied directly


A Brief History of Persitence

11

from the shape of the indexing category J. Indeed, let G(J) be the finite directed (multi)graph with the objects of J as vertices, and one arrow for every morphism that is neither an identity nor a composition. Also, let G(J) be the undirected graph obtained from G(J) by forgetting arrow directions. When G(J) is acyclic, Gabriel’s theorem [31] implies that pointwise finite objects in Fun(J, ModF ) can be classified via complete discrete invariants, if and only if the connected components of G(J) are Dynkin diagrams of the types described in Figure 4 below.

Figure 4: Dynkin diagrams of type An for n ≥ 1, Dn for n ≥ 4, and En for n = 6, 7, 8. Here is an example of how this result can be used to avoid unpleasant surprises: Suppose that G(J) is the graph with vertices x0 , . . . , xN and N ≥ 5 edges xn → x0 , n = 1, . . . , N (see Examples 3 and 8 in [23]). While the resulting J-indexed persistence vector spaces V : J −→ ModF may look simple (just star-shaped, right?), the connected graph G(J) is not a Dynkin diagram, and the ensuing classification problem is in fact of “wild type”: complete invariants must include continuous highdimensional pieces, just like in multidimensional persistence. These ideas entered the TDA lexicon around 2010 with the definition of Zigzag persistence by Carlsson and de Silva [8]. Regular persistence addresses the problem of identifying stable homological features in a monotone system of spaces and continuous maps X 1 → X2 → · · · → XJ . Zigzag persistence, on the other hand, is a generalization to the nonmonotone case. Here is a practical example: suppose one has an ordered sequence of spaces X1 , . . . , XJ (e.g., from time varying data), but no obvious maps Xj → Xj+1 . The need to track topological features as j


12

Jose A. Perea

varies leads one to consider the system X1 → X1 ∪ X2 ← X2 → · · · ← Xj ∪ Xj+1 → · · · ← XJ and the resulting zigzag diagram V 1 → V2 ← V3 → · · · ← V n at the homology level. More generally, a (finite) zigzag is a sequence of vector spaces V1 , . . . , Vn and linear maps Vj → Vj+1 or Vj ← Vj+1 . The sequence of arrow directions, e.g. τ = (left, left, right, ..., right, left), is the zigzag type. Since in this case any choice of τ forces the indexing τ ) = An (one of the aforementioned Dynkin category Jτ to satisfy G(J diagrams), then Gabriel’s theorem implies that finite zigzags V : Jτ −→ ModF are completely classified by a discrete invariant. Just as for regular 1dimensional persistence the invariant turns out to be a barcode, which can be efficiently computed [38], and for which there is a zigzag stability theorem [5] recently established by Botnan and Lesnick. When the graph G(J) has cycles, the functoriality of objects in Fun(J, ModF ) is captured by the notion of a quiver with relations. The taxonomy from Gabriel’s theorem no longer applies, but one can still find some answers in the representation theory of associative algebras. A particularly important instance is when the cycles of G(J) are not oriented cycles in G(J); in this case the algebras of interest are finite dimensional (hence Artinian) and Auslander-Rieten theory [4] becomes relevant. Escolar and Hiraoka [28] have recently put these ideas to use in the context of persistent objects indexed by commutative ladders; that is, the persistence of a morphism between two zigzags of the same type: •

···

···

The resulting theory sits somewhere between zigzag persistence and multi-dimensional persistence: short ladders (length ≤ 4) have complete discrete invariants, but longer ones do not. Escolar and Hiraoka present an algorithm for computing these invariants, and also an interesting application to computational chemistry.


A Brief History of Persitence

13

I think this is a good place for me to stop; hopefully it is also a good starting point for the reader interested in persistent homology. There are several books covering many of the ideas I presented here, as well as many others. The interested reader would certainly benefit from these resource [32, 15, 26, 43]. Jose A. Perea Department of Computational Mathematics Science & Engineering, Department of Mathematics, Michigan State University, East Lansing, MI, USA joperea@msu.edu

References [1] Adamaszek, M., and Adams, H. The vietoris–rips complexes of a circle. Pacific Journal of Mathematics 290, 1 (2017), 1–40. [2] Adamaszek, M., Adams, H., and Reddy, S. On vietoris–rips complexes of ellipses. Journal of Topology and Analysis (2017), 1–30. [3] Adams, H., Tausz, A., and Vejdemo-Johansson, M. Javaplex: A research software package for persistent (co) homology. In International Congress on Mathematical Software (2014), Springer, pp. 129–136. Software available at https://appliedtopology.github.io/javaplex. [4] Auslander, M., Reiten, I., and Smalo, S. O. Representation theory of Artin algebras, vol. 36. Cambridge university press, 1997. [5] Botnan, M. B., and Lesnick, M. Algebraic stability of zigzag persistence modules. arXiv preprint arXiv:1604.00655 (2016). [6] Bubenik, P., de Silva, V., and Scott, J. Metrics for Generalized Persistence Modules. Foundations of Computational Mathematics 15, 6 (2015), 1501–1531. [7] Bubenik, P., and Scott, J. A. Categorification of persistent homology. Discrete & Computational Geometry 51, 3 (2014), 600–627. [8] Carlsson, G., and De Silva, V. Zigzag persistence. Foundations of computational mathematics 10, 4 (2010), 367–405. [9] Carlsson, G., Ishkhanov, T., De Silva, V., and Zomorodian, A. On the local behavior of spaces of natural images. International journal of computer vision 76, 1 (2008), 1–12. [10] Carlsson, G., Singh, G., and Zomorodian, A. Computing multidimensional persistence. In International Symposium on Algorithms and Computation (2009), Springer, pp. 730–739.


14

Jose A. Perea

[11] Carlsson, G., and Zomorodian, A. The theory of multidimensional persistence. Discrete & Computational Geometry 42, 1 (2009), 71–93. [12] Carlsson, G., Zomorodian, A., Collins, A., and Guibas, L. J. Persistence barcodes for shapes. International Journal of Shape Modeling 11, 02 (2005), 149–187. [13] Chazal, F., Cohen-Steiner, D., Glisse, M., Guibas, L. J., and Oudot, S. Y. Proximity of persistence modules and their diagrams. In Proceedings of the twenty-fifth annual symposium on Computational geometry (2009), ACM, pp. 237–246. [14] Chazal, F., Crawley-Boevey, W., and De Silva, V. The observable structure of persistence modules. arXiv preprint arXiv:1405.5644 (2014). [15] Chazal, F., De Silva, V., Glisse, M., and Oudot, S. The structure and stability of persistence modules. Springer, 2016. [16] Chazal, F., and Lieutier, A. Weak feature size and persistent homology: computing homology of solids in Rn from noisy data samples. In Proceedings of the twenty-first annual symposium on Computational geometry (2005), ACM, pp. 255–262. [17] Chazal, F., and Oudot, S. Y. Towards persistence-based reconstruction in euclidean spaces. In Proceedings of the twenty-fourth annual symposium on Computational geometry (2008), ACM, pp. 232–241. [18] Cohen-Steiner, D., Edelsbrunner, H., and Harer, J. Stability of persistence diagrams. Discrete & Computational Geometry 37, 1 (2007), 103–120. [19] Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. Introduction to algorithms. MIT press, 2009. [20] Crawley-Boevey, W. Decomposition of pointwise finite-dimensional persistence modules. Journal of Algebra and its Applications 14, 05 (2015), 1550066. [21] De Silva, V., Morozov, D., and Vejdemo-Johansson, M. Dualities in persistent (co) homology. Inverse Problems 27, 12 (2011), 124003. [22] Delfinado, C. J. A., and Edelsbrunner, H. An incremental algorithm for betti numbers of simplicial complexes on the 3-sphere. Computer Aided Geometric Design 12, 7 (1995), 771–784. [23] Derksen, H., and Weyman, J. Quiver representations. Notices of the AMS 52, 2 (2005), 200–206. [24] Dumas, J.-G., Heckenbach, F., Saunders, D., and Welker, V. Computing simplicial homology based on efficient smith normal form algorithms. In Algebra, Geometry and Software Systems. Springer, 2003, pp. 177–206. [25] dAmico, M., Frosini, P., and Landi, C. Optimal matching between reduced size functions. DISMI, Univ. di Modena e Reggio Emilia, Italy, Technical report, 35 (2003).


A Brief History of Persitence

15

[26] Edelsbrunner, H., and Harer, J. Computational topology: an introduction. American Mathematical Soc., 2010. [27] Edelsbrunner, H., Letscher, D., and Zomorodian, A. Topological persistence and simplification. In Foundations of Computer Science, 2000. Proceedings. 41st Annual Symposium on (2000), IEEE, pp. 454–463. [28] Escolar, E. G., and Hiraoka, Y. Persistence modules on commutative ladders of finite type. Discrete & Computational Geometry 55, 1 (2016), 100–157. [29] Frosini, P. Measuring shapes by size functions. In Intelligent Robots and Computer Vision X: Algorithms and Techniques (1992), International Society for Optics and Photonics, pp. 122–133. [30] Frosini, P., Mulazzani, M., et al. Size homotopy groups for computation of natural size distances. Bulletin of the Belgian Mathematical Society-Simon Stevin 6, 3 (1999), 455–464. [31] Gabriel, P. Unzerlegbare darstellungen i. Manuscripta mathematica 6, 1 (1972), 71–103. [32] Ghrist, R. W. Elementary applied topology, vol. 1. Createspace Seattle, 2014. [33] Harrington, H. A., Otter, N., Schenck, H., and Tillmann, U. Stratifying multiparameter persistent homology. arXiv preprint arXiv:1708.07390 (2017). [34] Knudson, K. A. A refinement of multidimensional persistence. Homology, Homotopy & Applications 10, 1 (2008), 259–281. [35] Latschev, J. Vietoris-rips complexes of metric spaces near a closed riemannian manifold. Archiv der Mathematik 77, 6 (2001), 522–528. [36] Lesnick, M. The theory of the interleaving distance on multidimensional persistence modules. Foundations of Computational Mathematics 15, 3 (2015), 613–650. [37] Lesnick, M., and Wright, M. Interactive visualization of 2-d persistence modules. arXiv preprint arXiv:1512.00180 (2015). Software available online at http://rivet.online. [38] Milosavljević, N., Morozov, D., and Skraba, P. Zigzag persistent homology in matrix multiplication time. In Proceedings of the twenty-seventh annual symposium on Computational geometry (2011), ACM, pp. 216–225. [39] Mischaikow, K., and Nanda, V. Morse theory for filtrations and efficient computation of persistent homology. Discrete & Computational Geometry 50, 2 (2013), 330–353. [40] Morozov, D. Persistence algorithm takes cubic time in worst case. BioGeometry News, Dept. Comput. Sci., Duke Univ 2 (2005).


16

Jose A. Perea

[41] Niyogi, P., Smale, S., and Weinberger, S. Finding the homology of submanifolds with high confidence from random samples. Discrete & Computational Geometry 39, 1-3 (2008), 419–441. [42] Otter, N., Porter, M. A., Tillmann, U., Grindrod, P., and Harrington, H. A. A roadmap for the computation of persistent homology. EPJ Data Science 6, 1 (2017), 17. [43] Oudot, S. Y. Persistence theory: from quiver representations to data analysis, vol. 209. American Mathematical Society Providence, RI, 2015. [44] Robins, V. Towards computing homology from finite approximations. In Topology proceedings (1999), vol. 24, pp. 503–532. [45] Scolamiero, M., Chachólski, W., Lundman, A., Ramanujam, R., and ¨ Oberg, S. Multidimensional persistence and noise. Foundations of Computational Mathematics 17, 6 (2017), 1367–1406. [46] Skryzalin, J., and Carlsson, G. Numeric invariants from multidimensional persistence. Journal of Applied and Computational Topology 1, 1 (2017), 89–119. [47] Vietoris, L. Über den höheren zusammenhang kompakter räume und eine klasse von zusammenhangstreuen abbildungen. Mathematische Annalen 97, 1 (1927), 454–472. [48] Webb, C. Decomposition of graded modules. Proceedings of the American Mathematical Society 94, 4 (1985), 565–571. [49] Williams, V. V. Multiplying matrices faster than coppersmith-winograd. In Proceedings of the forty-fourth annual ACM symposium on Theory of computing (2012), ACM, pp. 887–898. [50] Zomorodian, A., and Carlsson, G. Computing persistent homology. Discrete & Computational Geometry 33, 2 (2005), 249–274.


Morfismos, Vol. 23, No. 1, 2019, pp. 17–25 Morfismos, Vol. 23, No. 1, 2019, pp. 17–25

Aplicaciones de técnicas de ATD con datos del INEGI José de Jesús Aguirre-Tepole 1 Angel Emilio de León-Gutiérrez 2

Resumen En el marco de la Tercera Escuela de Análisis Topológico de Datos y Topologı́a Estocástica que se llevó a cabo del 22 al 28 de Enero de 2017 en las instalaciones de ABACUS en el Estado de México, uno de los cursos que se ofrecieron fue “Network Data Analysis: Metrics and Persistent Homology”. El presente reporte muestra el uso de las técnicas expuestas utilizando información económica de México.

2010 Mathematics Subject Classification: Clasificación. 55N35, 68U05, 62P20 Keywords and phrases: TDA, datos económicos

1

Aspectos teóricos

El objeto de trabajo del curso fueron las redes [CM17a]. Una red es un objeto que muestra las relaciones con y entre los datos y que también puede verse como parte de la teorı́a de gráficas. Definiendo precisamente, tenemos: Definición 1.1. Sea X un espacio topológico numerable y sea ωX una función continua de X ×X (con la topologı́a del producto) a R. Una red es el par (X; ωX ) y se denotará por N la colección de todas las redes. 1 2

tepole@esfm.ipn.mx. angel.deleon@banxico.org.mx.

17


18

Aguirre-Tepole y de León-Gutiérrez

Dada una red (X; ωX ), se refiere a los punto de X como nodos y ωX es la función de peso de X. Nodos que se encuentren conectados pueden ser referidos como aristas o bordes. Dado A ⊂ X , representamos por (A, ωX |A×A ) la subred de X inducida por A. En los ejemplos se trabajó con redes finitas, las cuales son representadas como FN := {(X, ωX ) : X discreto, ωX : X × X → R cualquier mapeo}. Considerando que las redes en el mundo real son finitas y susceptibles a ser utilizadas en algoritmos computacionales; se considera además, la colección de redes compactas, las cuales son redes (X; ωX ) con la restricción adicional de que X sea compacto. Explı́citamente, se usa la notación CN para el conjunto {(X; ωX ) : X numerable y compacto, ωX : X × X → R continua}. Debido a que el enfoque del curso fue redes y homologı́a persistente, recordamos que un complejo simplicial K con vértices en V es K ⊂ P(V ) tal que τ ⊆ σ ∈ K =⇒ τ ∈ K. Una filtración de un complejo simplicial K es una secuencia de complejos Ki tal que ∅ = K0 ⊂ K1 ⊂ . . . ⊂ Kn = K Además, el complejo de Rips [CM16] para un espacio métrico (X, dX ) está definido para cada δ ≥ 0 tal que

R(X, δ) := {σ ∈ P(X) : diam(σ) ≤ δ} con diam(σ) := max d(x, x ) x,x ∈σ

Mientras que el complejo de Ĉech (también conocido como Dowker) para un conjunto de puntos S está definido para r > 0 como la cubierta de bolas cerradas con centro x ∈ S y radio r, es decir, Č(S, r) = {σ ⊆ B(s, r) = ∅}. S| s∈σ

2

Aplicación

El conjunto de datos que se utilizo en el curso fue el de 15 sectores económicos de Estados Unidos en el periodo 1997-2015 simbolizados como 19 redes que representan el flujo de productos a través de estos sectores.


Aplicación de técnicas de ATD

19

Como ejercicio, nosotros decidimos replicar ese ejemplo pero con datos de México. Buscamos en el INEGI [Ine17] información y encontramos la matriz insumo producto con año base 2008. En dicha matriz se encuentran los sectores primarios (2) de la economı́a en millones de pesos. Con estos datos calculamos la homologı́a persistente a partir de la filtración de Rips y Dowker. Para calcular la homologı́a utilizamos las funciones del paquete PersNet 3 [CM17b] creado por los instructores. Dicho paquete se ejecuta en el ambiente de Matlab y requiere que esté instalado Javaplex 4 . Antes de realizar el cálculo de la homologı́a, se normalizaron los datos, tomando en cuenta las recomendaciones dadas en la sesión. Se exportaron los datos a Matlab generando una matriz y un vector de etiquetas. Después de esto se ejecutaron las funciones correspondientes para que la matriz sea vista como un conjunto de redes y dependiendo de la filtración seleccionada, obtener los códigos de barras correspondientes. En los instrucciones 1 y 2 se muestran las instrucciones correspondientes dependiendo de la filtración, y en las tablas 3 y 4 se observan los resultados para las componentes conectadas (H0 ) y los ciclos (H1 ) de cada una de las filtraciones. En particular podemos observar que en el caso de H0 , las únicas componentes en las que coinciden los cálculos con ambas filtraciones son las mostradas en la Tabla 1, lo cual consideramos que se puede interpretar como una confirmación de la estrecha relación entre dichos sectores. Los ciclos obtenidos por ambas filtraciones son distintos. En el caso de la filtración de Rips obtenemos el ciclo en la Figura 1 (que puede verse como un cuadrado). Mientras que con la filtración de Dowker obtenemos el ciclo en la Figura 2, en el que participan cuatro sectores (puede verse como dos triángulos que comparten un lado).

Figura 1: Resultado con la filtración de Rips 3 4

https://research.math.osu.edu/networks/Datasets.html http://appliedtopology.github.io/javaplex/


20

Aguirre-Tepole y de León-Gutiérrez

Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación Minerı́a

Información en medios masivos Transportes, correos y almacenamiento

Servicios cientı́ficos, técnicos y profesionales aprovechamiento forestal, pesca y caza, crianza y explotación de animales, agricultura Servicios financieros y de seguros Industrias Manufactureras

Tabla 1: Componentes comunes a las dos filtraciones

Figura 2: Resultado con la filtración de Dowker Llama la atención los sectores involucrados en ambos ciclos, y parte de un análisis posterior es verificar si dichos sectores se relacionaron como productor y/o consumidor en el año de los datos, debido a que esas relaciones de primera instancia no son habituales y que justamente esto hace resaltar la importancia de estas técnicas que posiblemente permitan encontrar información que por los métodos tradicionales no surge de forma habitual.

3

Apéndice Listing 1: Persistencia con filtración Rips

>> >> >> >> >> >> >>

% I n t r u c c i o n e s para o b t e n e r l a % homolog \ ’ { i } a p e r s i s t e n t e % en Matlab con P e r s n e t y JavaPlex l o a d ( ’ i n e g i . mat ’ ) diam=max(max( i n e g i ) ) [ sk0 , sk1 , sk2 ]= r i p s ( i n e g i ) computePers ( sk0 , sk1 , sk2 , [ ] , diam )

1 2 3 4 5 6 7


Aplicación de técnicas de ATD

21

Listing 2: Persistencia con filtración Dowker >> >> >> >> >> >> >>

% I n t r u c c i o n e s para o b t e n e r l a % homolog \ ’ { i } a p e r s i s t e n t e % en Matlab con P e r s n e t y JavaPlex l o a d ( ’ i n e g i . mat ’ ) diam=max(max( i n e g i ) ) [ sk0 , sk1 , sk2 ]= dowker ( i n e g i ) computePers ( sk0 , sk1 , sk2 , [ ] , diam )

Sectores económicos Aprovechamiento forestal, pesca y caza, agricultura, crı́a y explotación de animales, Minerı́a. Generación, transmisión y distribución de energı́a eléctrica, suministro de agua y de gas por ductos al consumidor final. Construcción. Industrias Manufactureras. Comercio. Transportes, correos y almacenamiento. Información en medios masivos. Servicios financieros y de seguros. Servicios inmobiliarios y de alquiler de bienes muebles e intangibles. Servicios profesionales, cientı́ficos y técnicos. Corporativos. Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación. Servicios educativos. Servicios de salud y de asistencia social. Servicios de esparcimiento culturales y deportivos, y otros servicios recreativos. Servicios de alojamiento temporal y de preparación de alimentos y bebidas. Otros servicios excepto actividades gubernamentales. Actividades legislativas, gubernamentales, de impartición de justicia y de organismos internacionales y extraterritoriales. Tabla 2: Sectores económicos México 2008

1 2 3 4 5 6 7


22

Aguirre-Tepole y de León-Gutiérrez

Componentes conectadas (H0 ) Minerı́a Comercio Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación Minerı́a

Servicios inmobiliarios y de alquiler de bienes muebles e intangibles Servicios inmobiliarios y de alquiler de bienes muebles e intangibles Minerı́a

Información en medios masivos Información en medios masivos Transportes, correos y almacenamiento Información en medios masivos Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación Otros servicios excepto actividades gubernamentales Construcción Información en medios masivos Servicios educativos

Industrias Manufactureras Industrias Manufactureras Servicios cientı́ficos, técnicos y profesionales Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza Servicios profesionales, cientı́ficos y técnicos Servicios financieros y de seguros Generación, transmisión y distribución de energı́a eléctrica, suministro de agua y de gas por ductos al consumidor final Servicios financieros y de seguros Industrias Manufactureras Industrias Manufactureras Corporativos Servicios de alojamiento temporal y de preparación de alimentos y bebidas Servicios profesionales, cientı́ficos y técnicos Minerı́a Servicios de esparcimiento culturales y deportivos, y otros servicios recreativos Servicios profesionales, cientı́ficos y técnicos

Servicios de salud y de asistencia social

Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación

Actividades legislativas, gubernamentales, de impartición de justicia y de organismos internacionales y extraterritoriales

Comercio

Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza Ciclos (H1 ) Construcción Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza

Servicios inmobiliarios y de alquiler de bienes muebles e intangibles Servicios de salud y de asistencia social

Tabla 3: Componentes conectadas y ciclos con la filtración de Rips


23

Aplicación de técnicas de ATD

Componetes conectadas (H0 ) Generación, transmisión y distribución energı́a eléctrica, suministro de agua y gas por ductos al consumidor final Transportes, correos y almacenamiento Generación, transmisión y distribución energı́a eléctrica, suministro de agua y gas por ductos al consumidor final Construcción

de de

de de

Minerı́a

Corporativos Industrias Manufactureras Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación Servicios de salud y de asistencia social Información en medios masivos Servicios inmobiliarios y de alquiler de bienes muebles e intangibles Otros servicios excepto actividades gubernamentales Comercio Actividades legislativas, gubernamentales, de impartición de justicia y de organismos internacionales y extraterritoriales Comercio Servicios de esparcimiento culturales y deportivos, y otros servicios recreativos Servicios educativos

Información en medios masivos Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza Ciclos (H1 ) Industrias Manufactureras Información en medios masivos Industrias Manufactureras Servicios financieros y de seguros

Industrias Manufactureras

Industrias Manufactureras Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza Generación, transmisión y distribución de energı́a eléctrica, suministro de agua y de gas por ductos al consumidor final Agricultura, crı́a y explotación de animales, aprovechamiento forestal, pesca y caza Servicios profesionales, cientı́ficos y técnicos Servicios de alojamiento temporal y de preparación de alimentos y bebidas Servicios profesionales, cientı́ficos y técnicos Industrias Manufactureras Servicios financieros y de seguros Industrias Manufactureras Industrias Manufactureras Servicios profesionales, cientı́ficos técnicos Industrias Manufactureras

y

Minerı́a Servicios de apoyo a los negocios y manejo de desechos y servicios de remediación Generación, transmisión y distribución de energı́a eléctrica, suministro de agua y de gas por ductos al consumidor final Comercio

Servicios técnicos

profesionales,

cientı́ficos

y

Servicios técnicos

profesionales,

cientı́ficos

y

Tabla 4: Componentes conectadas y ciclos con la filtración de Dowker


24

Aguirre-Tepole y de León-Gutiérrez

Figura 3: Código de barras de la filtración Rips

Figura 4: Código de barras de la filtración Dowker Agradecimientos Agradecemos al Dr. Facundo Mémoli y a su alumno Samir Chowdhury por los conceptos y técnicas presentadas en el curso. También a los organizadores por el total apoyo durante el evento. José de Jesús Aguirre Tepole Departamento de Matemáticas, Escuela Superior de Fı́sica y Matemáticas, Instituto Politécnico Nacional, Av. IPN Edificio 9, U. P. Adolfo López Mateos, Ciudad de México, México, tepole@esfm.ipn.mx

Angel Emilio de León Gutiérrez Oficina de Desarrollo de Sistemas de Provisión de Liquidez, D.G. de Sistemas de Pagos y Servicios Corporativos - Banxico, 5 de Mayo 6 - Condesa, Ciudad de México, México, angel.deleon@banxico.org.mx

Referencias [CM16]

Samir Chowdhury and Facundo Mémoli. Persistent Homology of Asymmetric Networks: An Approach based on Dowker


Aplicación de técnicas de ATD

25

Filtrations. ArXiv e-prints, August 2016. [CM17a] Samir Chowdhury and Facundo Mémoli. The metric space of the networks. 2017. [CM17b] Samir Chowdhury and Facundo Mémoli. Persnet tutorial, metrics and persistence on networks. 2017. [Ine17]

Instituto nacional de estadı́stica y geografı́a, 2017.



Morfismos, Vol. 23, No. 1, 2019, pp. 27–36 Morfismos, Vol. 23, No. 1, 2019, pp. 27–36

Análisis Topológico de Datos y Homologı́a Persistente, usando el lenguaje R * José de Jesús Aguirre Tepole 1

Angel Emilio de León Gutiérrez 2

Resumen Este reporte presenta un caso práctico para el Análisis Topológico de Datos y Homologı́a Persistente, utilizando el lenguaje y entorno de programación R, en especial para la clasificación de imágenes tridimensionales de modelos, aún cuando están en diferentes posturas. Se usa como base el trabajo realizado por Peter Bubenik y Leo Betthauser para la Tercera Escuela de Análisis Topológico de Datos y Topologı́a Estocástica [3].

2010 Mathematics Subject Classification: 55N99, 68W05, 55U99 Keywords and phrases: Análisis Topológico de Datos, ATD, TDA, Homologı́a Persistente, R

1.

Introducción

Tomando como base las notas para el taller dadas en [2], se realizaron varios experimentos, modificando las figuras a comparar, cambiando las funciones de filtrado y se dan algunas conclusiones y posibles lı́neas de experimentación futuras. Para un breve repaso a las bases teóricas que sustentan estos experimentos, se puede acudir a las siguientes fuentes: [1], [7], [12], [5], entre otras. *

R es un lenguaje y ambiente para cálculo estadı́stico y graficación. tepole@esfm.ipn.mx. 2 angel.deleon@banxico.org.mx. 1

27


28

2.

Aguirre-Tepole y de León-Gutiérrez

Experimentos realizados

Se tienen figuras tridimensionales que han sido escaneadas y convertidas a una representación en caras triangulares y sus correspondientes vértices, si se vuelven a pintar se ven imágenes como la que se muestra en la Figura 1.

Figura 1: Ejemplo de figura escaneada Se filtran dichos triángulos y se calcula su homologı́a persistente usando el software Perseus [8]. Una vez hecho esto se puede calcular los paisajes de persistencia usando el Persistence Landscapes Toolbox [4]. Finalmente, se comparan las figuras a pares y se realiza una clasificación de las mismas. En el conjunto de datos con el que se contaba, habı́a imágenes de gatos, perros, caballos, lobos, centauros, gorilas, dos hombres y una mujer. Al momento de realizar pruebas con distintas combinaciones, notamos que sólo en el caso de las dos figuras masculinas tenı́a problemas para clasificar correctamente, por lo que procedimos a modificar las funciones de filtrado, para ver si cambiaba el escenario. La función de filtrado original estaba basada en la siguiente: # f i l t r a r p o r e l k−v e c i n o mas c e r c a n o v e r t e x v a l u e s <− knn . d i s t ( v e r t i c e s , k = 1 0 ) [ , 1 0 ] Esta función básicamente realiza un filtrado de la triangulación que va a generar complejos simpliciales, utilizando la distancia del k-vecino más cercano, usando los 10 vecinos más próximos. Con este filtrado como base, se calculan los valores de los triángulos como: f o r ( i i n 1 : num t r i a n g l e s ) { # a s i g n a r a cada t r i a n g u l o e l # v a l o r p r o m e d i o de s u s v e r t i c e s t r i a n g l e v a l u e s [ i ] <− mean ( v e r t e x v a l u e s [ t r i a n g l e s [ i , ] ] ) } Si visualizamos el orden en el que se van creando los complejos simpliciales, veremos algo similar a lo mostrado en la Figura 2. Si en vez de filtrar por el k-vecino más cercano, se calcula el valor de cada triángulo como:


TDA & PH en R

29

s <− v e c t o r ( l e n g t h = num t r i a n g l e s ) f o r ( i i n 1 : num t r i a n g l e s ) { s [ i ] <− ( triangles [ i ,1] + triangles [ i ,2] + triangles [i ,3]) /2 t r i a n g l e v a l u e s [ i ] <− s q r t ( s [ i ]∗( s [ i ]− t r i a n g l e s [ i , 1 ] ) + s [ i ] ∗ ( s [ i ]− t r i a n g l e s [ i , 2 ] ) + s [ i ] ∗ ( s [ i ]− t r i a n g l e s [ i , 3 ] ) ) }

Figura 2: Generación de Complejos Simpliciales es decir, como el área del triángulo en sı́, usando la fórmula de Herón que sólo necesita los lados del triángulo a, b y c y se calcula como Área = s (s − a) (s − b) (s − c), donde s = a+b+c 2 . En este caso, la creación de los complejos simpliciales se da como se muestra en la Figura 3.

Figura 3: Generación de Complejos Simpliciales, usando la función de área para filtrado Ahora por último consideremos como función de filtrado el máximo de la coordenada Z de los vértices que conforman cada triángulo, esto se logra con la siguiente función: f o r ( i i n 1 : num t r i a n g l e s ) {


30

Aguirre-Tepole y de León-Gutiérrez

# a s i g n a r e l maximo de l a c o m p o n e n t e # ’ z ’ de l o s v e r t i c e s de cada t r i a n g u l o t r i a n g l e v a l u e s [ i ] <− max ( v e r t i c e s [ t r i a n g l e s [ i , ] , 3 ] ) } Veremos la generación de los correspondientes complejos simpliciales como se ve en la Figura 4

Figura 4: Generación de Complejos Simpliciales, usando max de Z para filtrado

3.

Resultados de la clasificación

Aunque el objetivo final del proceso es la clasificación automática de las figuras, podemos notar que hay una enorme flexibilidad para generar los complejos simpliciales y se puede lograr con un mı́nimo de cambios en el entorno del lenguaje R. Para cada selección de la función de filtrado, se puede hacer la clasificación usando uno de los siguientes criterios: 1. Clasificación usando SVM3 , kernels [6] y validación k-cruzada [9]. 2. Clasificación usando SVM y validación k-cruzada. 3. Clasificación usando PCA4 , SVM y validación k-cruzada. Para cada criterio, dependiendo de la función de filtrado, da una clasificación con mayor o menor precisión en la predicción de la clase a la que pertenece la figura analizada. Los resultados puntuales están mostrados en las tablas al final, un resumen de los mismos se puede ver en la Tabla 1. A pesar de que la precisión en la predicción es menor en el caso del área, podemos notar en las Tablas 5, 6 y 7 que las figuras semejantes se confunden más, por ejemplo los perros y gatos y por supuesto las figuras humanas. Esto nos indica que esta función generaliza estas clases y podrı́amos considerar las clases humano y mascota-doméstica para una mejor clasificación. 3 4

Support Vector Machines, o máquinas de vectores de soporte, véase [11] Principal component analysis, o Análisis de componentes principales, véase [10]


31

TDA & PH en R

Criterio 1

Criterio 2

Criterio 3

0.78

0.86

0.83

0.6

0.69

0.66

0.54

0.62

0.48

Media Área Máximo

Tabla 1: Precisión en la predicción, usando diferentes funciones de filtrado

4.

Conclusiones

Vemos que la forma en la que se realiza el filtrado puede influir grandemente en la fase del aprendizaje automático, sobre todo si se quiere usar el TDA para clasificar conjuntos de datos en las subclases más caracterı́sticas. Para el caso de figuras tridimensionales como las mostradas anteriormente, este análisis puede ser sumamente útil al momento de clasificar los diferentes sujetos de prueba, se pudo observar que con diferentes funciones el porcentaje de aciertos aumentaba y se podı́a incluso agrupar figuras que aunque diferentes, pertenecı́an al mismo grupo, por ejemplo todos los humanos.

5.

Trabajo Futuro

Se puede extender el análisis para incluir más funciones de filtrado, por ejemplo usar tanto el área como la orientación de cada triángulo para generar los complejos simpliciales, o tomar en cuenta la distancia de cada triángulo al centro de gravedad de la figura. También se pueden incluir diferentes “expresiones” para cada figura, por ejemplo, que tengan el hocico abierto o cerrado, o mostrando los dientes. Estas variaciones servirı́an para mejorar la fase de aprendizaje. Por otro lado, los vértices de los triángulos son puntos en R3 , pero si en vez de ello tuviéramos por ejemplo datos financieros como el monto de un pago, la institución financiera y la fecha, y tuviéramos siempre parejas de puntos que nos indicaran el originador y el beneficiario de un pago, podrı́amos analizar el flujo del dinero en los sistemas de pagos del paı́s, obteniendo la estructura interna de los mismos, tanto en la dimensión de las instituciones, como en la de los montos, como en las fechas en donde se mueve el dinero. Esto podrı́a generar información importante de la economı́a del paı́s y nos podrı́a dar idea de los puntos fuertes y débiles de la misma.


32

6.

Aguirre-Tepole y de León-Gutiérrez

Apéndice: Tablas de resultados cat

david

dog

gorilla

michael

victoria

cat

9

0

0

0

0

0

david

0

3

0

0

6

0

dog

0

0

11

0

0

0

gorilla

0

0

0

21

0

0

michael

0

12

0

0

12

2

victoria

0

0

0

0

2

22

Tabla 2: Filtrado con la media, Primer criterio, Precisión de predicción = 0.78

cat

david

dog

gorilla

michael

victoria

cat

9

0

0

0

0

0

david

0

8

0

0

4

0

dog

0

0

11

0

0

0

gorilla

0

0

0

21

0

0

michael

0

7

0

0

13

0

victoria

0

0

0

0

3

24

Tabla 3: Filtrado con la media, Segundo criterio, Precisión de predicción = 0.86

cat

david

dog

gorilla

michael

victoria

cat

9

0

0

0

0

0

david

0

7

0

0

8

0

dog

0

0

11

0

0

0

gorilla

0

0

0

21

0

0

michael

0

8

0

0

11

0

victoria

0

0

0

0

1

24

Tabla 4: Filtrado con la media, Tercer criterio, Precisión de predicción = 0.83


33

TDA & PH en R

cat

david

dog

gorilla

michael

victoria

cat

0

0

0

0

0

0

david

0

8

0

0

8

7

dog

6

0

10

0

0

0

gorilla

0

0

0

21

0

0

michael

3

4

0

0

8

4

victoria

0

3

1

0

4

13

Tabla 5: Filtrado con el área, Primer criterio, Precisión de predicción = 0.6

cat

david

dog

gorilla

michael

victoria

cat

6

0

3

0

0

1

david

1

5

0

0

7

2

dog

2

0

8

0

0

0

gorilla

0

0

0

21

0

0

michael

0

7

0

0

10

2

victoria

0

3

0

0

3

19

Tabla 6: Filtrado con el área, Segundo criterio, Precisión de predicción = 0.69

cat

david

dog

gorilla

michael

victoria

cat

5

0

2

0

1

2

david

0

3

0

0

5

4

dog

3

0

9

0

0

0

gorilla

0

0

0

21

0

0

michael

0

7

0

0

12

2

victoria

1

5

0

0

2

16

Tabla 7: Filtrado con el área, Tercer criterio, Precisión de predicción = 0.66


34

Aguirre-Tepole y de León-Gutiérrez

cat

david

dog

gorilla

michael

victoria

cat

5

1

0

1

4

2

david

1

7

1

0

6

5

dog

2

0

8

0

0

0

gorilla

0

0

0

20

0

0

michael

0

1

2

0

2

5

victoria

1

6

0

0

8

12

Tabla 8: Filtrado con el máximo de Z, Primer criterio, Precisión de predicción = 0.54

cat

david

dog

gorilla

michael

victoria

cat

6

1

1

0

2

1

david

0

5

1

0

7

2

dog

2

0

8

0

1

0

gorilla

0

0

0

21

0

0

michael

1

6

1

0

5

4

victoria

0

3

0

0

5

17

Tabla 9: Filtrado con el máximo de Z, Segundo criterio, Precisión de predicción = 0.62

cat

david

dog

gorilla

michael

victoria

cat

4

3

2

1

3

0

david

1

3

2

0

9

3

dog

4

0

6

0

1

0

gorilla

0

0

0

20

0

0

michael

0

6

1

0

2

8

victoria

0

3

0

0

5

13

Tabla 10: Filtrado con el máximo de Z, Tercer criterio, Precisión de predicción = 0.48


TDA & PH en R

35

Agradecimientos Agradecemos al Dr. Peter Bubenik y a su estudiante de postgrado, M.S. Leo Betthauser por los conceptos y técnicas presentadas en el curso. También a los organizadores por el total apoyo durante el evento.

José de Jesús Aguirre Tepole Departamento de Matemáticas, Escuela Superior de Fı́sica y Matemáticas, Instituto Politécnico Nacional, Av. IPN Edificio 9, U. P. Adolfo López Mateos, Ciudad de México, México, tepole@esfm.ipn.mx

Angel Emilio de León Gutiérrez Oficina de Desarrollo de Sistemas de Provisión de Liquidez, Dir. Gral. de Sistemas de Pagos y Servicios Corporativos, Banco de México, 5 de Mayo 6 - Condesa Ciudad de México, México, angel.deleon@banxico.org.mx

Referencias [1] Peter Bubenik. Introduction to topological data analysis and persistent homology. URL: http://people.clas.ufl.edu/ peterbubenik/files/intro_tda_worksheet.pdf. [2] Peter Bubenik. Topological data analysis with r workshop. URL: http://people.clas.ufl.edu/peterbubenik/files/ tda_r_workshop.pdf. [3] CONACYT. Tercera escuela de análisis topológico de datos y topologı́a estocástica. URL: http://atd.cimat.mx/es/ tercera-escuela-atd. [4] Paweł Dłotko. The persistence landscape toolbox. URL: https:// www.math.upenn.edu/˜dlotko/persistenceLandscape. html. [5] Herbert Edelsbrunner and John Harer. Persistent homology — a survey. URL: https://users.cs.duke.edu/˜edels/Papers/ 2008-B-02-PersistentHomology.pdf. [6] Thomas Hofmann, Bernhard Schölkopf, and Alexander J. Smola. Kernel methods in machine learning. URL: http://dx.doi.org/10. 1214/009053607000000677.


36

Aguirre-Tepole y de León-Gutiérrez

[7] Michael Lesnick. Studying the shape of data using topology. URL: https://www.ias.edu/ideas/2013/ lesnick-topological-data-analysis. [8] Vidit Nanda. Perseus. URL: http://people.maths.ox.ac.uk/ nanda/perseus/index.html. [9] Payam Refaeilzadeh, Lei Tang, and Huan Liu. Crossvalidation. URL: http://leitang.net/papers/ ency-cross-validation.pdf. [10] Lindsay Smith and Jonathon Shlens. A tutorial on principal components analysis. URL: http://www.cs.otago.ac.nz/cosc453/ student_tutorials/principal_components.pdf. [11] Alex Smola and Bernhard Schölkopf. Kernel machines.org. http://www.kernel-machines.org/.

URL:

[12] Matthew Wright. Introduction to persistent homology. URL: https: //www.youtube.com/watch?v=h0bnG1Wavag.


Morfismos, Vol. 23, No. 1, 2019, pp. 37–46 Morfismos, Vol. 23, No. 1, 2019, pp. 37–46

Diseño de grafos pesados con n-ciclos persistentes Omar Radhames Urquı́dez Calvo 1 Marı́a Alejandra Valdez Cabrera 2

Resumen Se presenta la resolución de un ejercicio del curso “Applications of topology to neuroscience”, impartido durante la 3ra Escuela de Análisis Topológico de Datos y Topologı́a Estocástica por Carina Curto y Vladimir Itskov. En dicho ejercicio se utilizó el código de Matlab proporcionado por los instructores para diseñar grafos que, bajo una filtración basada en complejos de clique, tuvieran n-ciclos persistentes.

1

Introducción

Durante el curso de “Applications of topology to neuroscience” se vio el concepto de complejo de clique de un grafo no dirigido y cómo de esto surge una filtración natural al considerar grafos pesados. Recuérdese que teniendo un grafo no dirigido, se le llama clique a cualquier subgrafo completo, es decir, a cualquier subgrafo en el cual cualquier par de vértices esten conectados entre sı́. De esta forma se define el complejo clique de un grafo G no dirigido como un complejo simplicial abstracto que consta de los conjuntos de vértices en todos los cliques del grafo, denotado por X(G). Por ejemplo, el complejo clique del grafo que se muestra en la Figura 1 es X(G) = {∅, [A], [B], [C], [D], [E], [F ], [G], [H], [I], [A, B], [A, C], [B, C], [B, E], [B, H], [B, I], [C, D], [D, E], [D, F ], [E, H], [E, I], [F, G], [H, I], [A, B, C], [B, E, I], [B, E, H], [B, I, H], [E, I, H], [B, E, I, H]}. 37


38

Omar Radhames Urquı́dez Calvo y Marı́a Alejandra Valdez Cabrera

Figura 1: Grafo no dirigido (arriba) y su complejo clique correspondiente (abajo) No es inusual trabajar con grafos pesados, en los cuales el peso de una arista corresponde al grado de correlación que existe entre los dos nodos conectados por dicha arista. Cuando se tiene un grafo G de este tipo, se puede considerar una secuencia de grafos {Gi } que se obtiene de empezar solamente con los vértices de G y en cada paso agregar la arista de mayor peso que aún no haya sido agregada previamente. De esta manera se obtiene una filtración X(G0 ) ⊆ X(G1 ) ⊆ . . . ⊆ X(Gl ) = X(G). Durante el curso se proporcionó un código que, dado un grafo pesado, calcula los números de Betti de cada complejo simplicial en la filtración antes descrita y muestra una gráfica en la que se compara la cantidad de cı́clos que tiene el grafo contra la cantidad de aristas que se le han agregado. Se propuso como ejercicio utilizar el código para encontrar grafos que tuvieran n-ciclos persistentes en la filtración. A continuación se muestran los grafos encontrados por nosotros para este ejercicio.

2

Grafos con 1-ciclos persistentes

Se empezó el ejercicio por encontrar un grafo que tuviera un 1-cı́clo persistente. El primer intento fue un grafo muy sencillo de cinco nodos.


Grafos pesados con n-ciclos persistentes

39

Puesto que se busca un 1-cı́clo persistente, se optó por formar el polı́gono más grande posible (en este caso un pentágono) y luego trazar todas las aristas que se pudieran sin cerrar el cı́clo. Se siguió el proceso que se muestra en la Figura 2.

Figura 2: Filtración de complejos clique. En rojo se resalta en cada paso la arista nueva Nótese que el 1-cı́clo aparece cuando se agrega la quinta arista y se cierra finalmente cuando se agrega la octava. Ası́ pues, nuestro cı́clo en este caso tiene una persistencia de 3. El grafo pesado que da lugar a esta filtración se muestra en la Figura 3. Además en la misma figura se presenta la gráfica obtenida con el código proporcionado. Se observa que en efecto hay un 1-cı́clo persistente.

Figura 3: Primer grafo pesado (izquierda) y su gráfica de números de Betti correspondiente (derecha) Siguiendo un procedimiento equivalente, se hizo otro grafo de 8 nodos. En la Figura 4 se muestra la matriz de adyacencia del grafo obtenido de esta manera y la gráfica de los números de Betti contra la


40

Omar Radhames Urquı́dez Calvo y Marı́a Alejandra Valdez Cabrera

cantidad de aristas en el grafo. Obsérvese que además de tener un 1-cı́clo persistente, aparece además un 2-cı́clo que persiste durante poco tiempo y un 3-cı́clo que nace en un complejo y muere en el paso siguiente. ⎛

0 ⎜28 ⎜ ⎜20 ⎜ ⎜12 ⎜ ⎜4 ⎜ ⎜7 ⎝14 21

28 0 27 19 11 3 6 13

20 27 0 26 18 10 2 5

12 19 26 0 25 17 9 1

4 11 18 25 0 24 16 8

7 3 10 17 24 0 23 15

14 6 2 9 16 23 0 22

⎞ 21 13⎟ ⎟ 5⎟ ⎟ 1⎟ ⎟ 8⎟ ⎟ 15⎟ 22⎠ 0

Figura 4: Matriz de Adyacencia de una matriz pesada de 8 nodos (izquierda) y su gráfica de números de Betti correspondiente

3

Grafos con 2-ciclos persistentes

Se procederá ahora para encontrar grafos que tengan 2-ciclos persistentes. Para esto se empezó por hacer un grafo cuyos nodos fueran los vértices de un cubo y se rellenan las 6 caras de dicho cubo, para crear un vacı́o, que es un 2-cı́clo, dentro del cubo. Se procede triangular las caras de manera regular, como se muestra en la Figura 5. Después de triángular las 6 caras, se traza la diagonal restante en cada una, para prolongar la persistencia del 2-cı́clo formado. Finalmente se agregan las 3 diagonales del cubo. Nótese en el dibujo que el 2-cı́clo nace cuando todas las caras están trianguladas, que es al agregar la arista número 18 y que al trazar la primera diagonal del cubo muere. En la Figura 6 se muestra la matriz de adyacencia del grafo pesado del que surge la filtración anterior y su correspondiente gráfica de números de Betti contra el número de aristas.

4

Grafos con 3-ciclos persistentes

Siguiendo la intuición de que el número de Betti-1 nos describe la cantidad de 1-ciclos (huecos) y Betti-2 el número de 2-ciclos (vacı́os) se puede pensar en el número de Betti-3 como un “hipervacı́o”. Para ello se aprovechó que la estructura más familiar para el trabajo en cuatro


Grafos pesados con n-ciclos persistentes

41

Figura 5: Filtración de complejos clique. En cada paso se resalta en verde y rojo las dos aristas más nuevas. dimensiones sea precisamente el hipercubo. Se introducirá para ello el grafo hipercubo. El grafo hipercubo Qn es un grafo regular con 2n vértices, que corresponden a los subconjuntos de un conjunto de n elementos. Dos vértices etiquetados por subconjuntos W y B están unidos por una arista si y sólo si W puede ser obtenido desde B añadiéndosele o quitándosele a este último un único elemento. El nombre proviene del hecho de que un grafo hipercubo es un esqueleto unidimensional de un hipercubo geométrico. Ası́ pues, Q4 es la representación que deseamos y podemos apoyarnos en la imagen mostrada en la Figura 7. Para representarla en la computadora se realizó el siguiente procedimiento: se numeraron los nodos externos con los números impares, del 1 al 15; mientras que los internos desde el 2 hasta el 16. Se puede ver que se cumple la siguiente relación: • Si el vértice v es impar, entonces estará conectado a los nodos (v − 2), (v + 2), (v − 1) y (v + 3), todos en módulo 16, por supuesto. • Si el vértice u es par, entonces estará conectado a los nodos (u − 6), (u + 6), (u + 1) y (u − 3), también en módulo 16.


42

0 ⎜28 ⎜ ⎜26 ⎜ ⎜24 ⎜ ⎜23 ⎜ ⎜9 ⎝4 5

Omar Radhames Urquı́dez Calvo y Marı́a Alejandra Valdez Cabrera

28 0 27 10 22 21 19 3

26 27 0 25 2 8 18 7

24 10 25 0 13 1 16 14

23 22 2 13 0 20 6 11

9 21 8 1 20 0 17 12

4 19 18 16 6 17 0 15

⎞ 5 3⎟ ⎟ 7⎟ ⎟ 14⎟ ⎟ 11⎟ ⎟ 12⎟ 15⎠ 0

Figura 6: Matriz de Adyacencia de una matriz pesada de 8 nodos (izquierda) y su gráfica de números de Betti correspondiente

Figura 7: Grafo Hipercubo Se sabe que para crear un vacı́o en un cubo lo primero que debemos hacer es completar sus seis caras: siguiendo esta intuición, se procedió al llenado de los 8 cubos que conforman a Q4 . Para ilustrar esto obsérvese la Figura 8. Los cuatro vértices que conforman cada cuadrado rojo forman un cubo con los otros cuatro vértices de cualquier otro cuadrado del mismo color. Lo mismo ocurre con los amarillos. Ası́ pues, tras llenar los ocho cubos de la misma forma que en la sección anterior, de manera simultánea para cada uno de ellos, se obtiene el grafo pesado descrito por la matriz de adyacencia en la Figura 9, junto con la correspondiente gráfica de sus números de Betti contra la cantidad de aristas.

5

Apéndice

% script to compute and plot clique topology for small matrices, % to be used during practicum time in Mexico TDA lectures % calls: CliqueTop package and generate_sq_dist_mtx.m


Grafos pesados con n-ciclos persistentes

Figura 8: Grafo Hipercubo con cuadros importantes senĚƒalados

Figura 9: Matriz de Adyacencia del hipercubo.

% FIRST, create or load an nxn matrix ........................... n = 25; d = 10; %A = generate_sq_dist_mtx(n,d); % A = rand(n); %A = [0 1 2 3 4 5; 0 0 6 7 8 9; 0 0 0 10 11 12; 0 0 0 0 13 14;... % 0 0 0 0 0 15; 0 0 0 0 0 0]; % 1-ciclos persistentes %Pentagono % 1 2 3 4 5 %A=[ 0,10, 5, 2, 6;... % 0, 0, 9, 4, 1;... % 0, 0, 0, 8, 3;... % 0, 0, 0, 0, 7;... % 0, 0, 0, 0, 0]; %

1

2

3

4

5

6

%1 %2 %3 %4 %5

7

8

43


44

Omar Radhames Urquı́dez Calvo y Marı́a Alejandra Valdez Cabrera

Figura 10: Gráfica de números de Betti correspondiente a la matriz en la Figura 9.

%A=[ % % % % % % %

0,28,20,12, 4, 7,14,21;... 0, 0,27,19,11, 3, 6,13;... 0, 0, 0,26,18,10, 2, 5;... 0, 0, 0, 0,25,17, 9, 1;... 0, 0, 0, 0, 0,24,16, 8;... 0, 0, 0, 0, 0, 0,23,15;... 0, 0, 0, 0, 0, 0, 0,22;... 0, 0, 0, 0, 0, 0, 0, 0]

%1 %2 %3 %4 %5 %6 %7 %8

% 2-ciclos persistentes %1 2 3 4 5 6 7 8 %A=[0,32, 0,30,29,26,18,14;... % 0, 0,31,10,28,25,17,13;... % 0, 0, 0,21,27,24,16,12;... % 0, 0, 0, 0,23,22,15,11;... % 0, 0, 0, 0, 0, 0, 0,20;... % 0, 0, 0, 0, 0, 0,19, 0;... % 0, 0, 0, 0, 0, 0, 0, 0;... % 0, 0, 0, 0, 0, 0, 0, 0];

%1 %2 %3 %4 %5 %6 %7 %8

% 1 2 3 4 5 6 7 8 %A= [ 0,28,26,24,23, 9, 4, 5;... % 0, 0,27,10,22,21,19, 3;... % 0, 0, 0,25, 2, 8,18, 7;... % 0, 0, 0, 0,13, 1,16,14;... % 0, 0, 0, 0, 0,20, 6,11;... % 0, 0, 0, 0, 0, 0,17,12;... % 0, 0, 0, 0, 0, 0, 0,15;... %0, 0, 0, 0, 0, 0, 0, 0]

%1 %2 %3 %4 %5 %6 %7 %8


Grafos pesados con n-ciclos persistentes

45

%3-ciclos persistentes

A= [0,126, 43, 0, 91, 44,125, 92, 0, 38,127, 0, 90,128, 37, 93; 0, 0, 94,123,122, 95, 96, 68, 51, 0, 0, 0, 67, 0, 0,124; 0, 0, 0,119, 39, 89, 88, 40,118, 0, 0, 0,120, 0, 0,121; 0, 0, 0, 0, 0,117,116, 0, 0, 0, 0, 0, 0, 0, 0, 0; 0, 0, 0, 0, 0,114, 70, 87, 85, 64,113, 0, 0, 46,115, 74; 0, 0, 0, 0, 0, 0, 86,112,111, 0, 0, 0, 56, 0, 0, 52; 0, 0, 0, 0, 0, 0, 0,110, 57, 0, 0, 0,109, 0, 0, 66; 0, 0, 0, 0, 0, 0, 0, 0, 84,108,107, 0, 75, 49, 42, 0; 0, 0, 0, 0, 0, 0, 0, 0, 0,106, 62, 0, 79, 59,105, 80; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 83,104,103, 78, 81, 41; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,102, 50, 73, 82, 47; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,101,100, 0; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 60, 99, 0, 71; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 77, 98; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 97; 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

... ... ... ... ... ... ... ... ... ... ... ... ... ... ...

% symmetrize and put zeros on diagonal to get M M = (A + A’) - 2*diag(diag(A)); M % SECOND, compute clique topology of M - including betti 0 ....... rho = 1; % max edge density in (0,1] tic [bettis, edgeDensities]=compute_clique_topology(M,’MaxEdgeDensity’,rho, ... ’ComputeBetti0’, true); toc % third, plot the Betti curves for b_0,...,b_3 ....................... colors = [.5 .5 .5; .6 .5 .1; .8 0 0; .3 .3 1]; figure % plot matrix subplot(3,3,1); imagesc(M); title(’M’); % plot b_0 with a gray dashed line subplot(3,1,2:3); plot(edgeDensities,bettis(:,1),’--’,’color’,colors(1,:),’LineWidth’,1); hold on; % now plot b_1,b_2,b_3 for i=2:size(bettis,2) plot(edgeDensities,bettis(:,i),’color’,colors(i,:),’LineWidth’,2); end; xlabel(’edge density’) ylabel(’no. of cycles’) legend(’\beta_0’, ’\beta_1’, ’\beta_2’, ’\beta_3’) title(’Betti curves’)


46

Omar Radhames Urquı́dez Calvo y Marı́a Alejandra Valdez Cabrera

hold off; % symmetrize and put zeros on diagonal to get M M = (A + A’) - 2*diag(diag(A)); M % SECOND, compute clique topology of M - including betti 0 ............ rho = 1; % max edge density in (0,1] tic [bettis, edgeDensities]=compute_clique_topology(M,’MaxEdgeDensity’,rho, ... ’ComputeBetti0’, true); toc % third, plot the Betti curves for b_0,...,b_3 ....................... colors = [.5 .5 .5; .6 .5 .1; .8 0 0; .3 .3 1]; figure % plot matrix subplot(3,3,1); imagesc(M); title(’M’); % plot b_0 with a gray dashed line subplot(3,1,2:3); plot(edgeDensities,bettis(:,1),’--’,’color’,colors(1,:),’LineWidth’,1); hold on; % now plot b_1,b_2,b_3 for i=2:size(bettis,2) plot(edgeDensities,bettis(:,i),’color’,colors(i,:),’LineWidth’,2); end; xlabel(’edge density’) ylabel(’no. of cycles’) legend(’\beta_0’, ’\beta_1’, ’\beta_2’, ’\beta_3’) title(’Betti curves’) hold off;

Omar Radhames Urquı́dez Calvo Departamento de Matemáticas, Universidad de Guanajuato, Camino del Jalisco 37A, Valenciana,Guanajuato, Gto., omar.urquidez@cimat.mx

Marı́a Alejandra Valdez Cabrera Departamento de Matemáticas, Universidad de Guanajuato, Camino del Jalisco 37A, Valenciana,Guanajuato, Gto., maria.valdez@cimat.mx

Referencias [1] Curto, C. , “What can Topology tell us about the Neural Code?” BULLETIN OF THE AMERICAN MATHEMATICAL SOCIETY Volume 54, Number 1, January 2017, Pages 6378


Morfismos se imprime en el taller de reproducción del Departamento de Matemáticas del Cinvestav, localizado en Avenida Instituto Politécnico Nacional 2508, Colonia San Pedro Zacatenco, C.P. 07360, México, D.F. Este número se terminó de imprimir en el mes de julio de 2020. El tiraje en papel opalina importada de 36 kilogramos de 34 × 25.5 cm. consta de 50 ejemplares con pasta tintoreto color verde.

Apoyo técnico: Omar Hernández Orozco.


Contents - Contenido

A Brief History of Persistence Jose A. Perea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Aplicaciones de técnicas de ATD con datos del INEGI José de Jesús Aguirre-Tepole and Angel Emilio de León-Gutiérrez . . . . . . . 17

Análisis Topológico de Datos y Homologı́a Persistente, usando el lenguaje R José de Jesús Aguirre-Tepole and Angel Emilio de León-Gutiérrez . . . . . . . 27

Diseño de grafos pesados con n-ciclos persistentes Omar Radhames Urquı́dez Calvo and Marı́a Alejandra Valdéz Cabrera . . . 37


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.