[PDF Download] Classification and data science in the digital age 1st edition paula brito full chapt

Page 1


Classification and Data Science in the Digital Age 1st Edition Paula Brito

Visit to download the full and correct content document: https://textbookfull.com/product/classification-and-data-science-in-the-digital-age-1stedition-paula-brito/

More products digital (pdf, epub, mobi) instant download maybe you interests ...

Integrated Science in Digital Age: ICIS 2019 Tatiana Antipova

https://textbookfull.com/product/integrated-science-in-digitalage-icis-2019-tatiana-antipova/

The Unicorn Project A Novel about Developers Digital Disruption and Thriving in the Age of Data 1st Edition Gene Kim

https://textbookfull.com/product/the-unicorn-project-a-novelabout-developers-digital-disruption-and-thriving-in-the-age-ofdata-1st-edition-gene-kim/

Cinema in the Digital Age Nicholas Rombes

https://textbookfull.com/product/cinema-in-the-digital-agenicholas-rombes/

Computer Age Statistical Inference Algorithms Evidence and Data Science 1st Edition Bradley Efron

https://textbookfull.com/product/computer-age-statisticalinference-algorithms-evidence-and-data-science-1st-editionbradley-efron/

Computer Age Statistical Inference Algorithms Evidence and Data Science 1st Edition Bradley Efron

https://textbookfull.com/product/computer-age-statisticalinference-algorithms-evidence-and-data-science-1st-editionbradley-efron-2/

Cultural Evolution In The Digital Age 1st Edition

Alberto Acerbi

https://textbookfull.com/product/cultural-evolution-in-thedigital-age-1st-edition-alberto-acerbi/

Data Science and Digital Business Fausto Pedro García Márquez

https://textbookfull.com/product/data-science-and-digitalbusiness-fausto-pedro-garcia-marquez/

Aesthetic Clinic Marketing in the Digital Age 1st Edition Wendy Lewis

https://textbookfull.com/product/aesthetic-clinic-marketing-inthe-digital-age-1st-edition-wendy-lewis/

Nimble Thinking Creatively in the Digital Age 1st Edition Landa Robin

https://textbookfull.com/product/nimble-thinking-creatively-inthe-digital-age-1st-edition-landa-robin/

Studies in Classification, Data Analysis, and Knowledge Organization

Classification and Data Science in the Digital Age

StudiesinClassification,DataAnalysis,

andKnowledgeOrganization

ManagingEditors

WolfgangGaul,Karlsruhe,Germany

MaurizioVichi,Rome,Italy

ClausWeihs,Dortmund,Germany

EditorialBoard

DanielBaier,Bayreuth,Germany

FrankCritchley,MiltonKeynes,UK

ReinholdDecker,Bielefeld,Germany

EdwinDiday ,Paris,France

MichaelGreenacre,Barcelona,Spain

CarloNataleLauro,Naples,Italy

JacquelineMeulman,Leiden,The Netherlands

PaolaMonari,Bologna,Italy

ShizuhikoNishisato,Toronto,Canada

NoboruOhsumi,Tokyo,Japan

OttoOpitz,Augsburg,Germany

GunterRitter,Passau,Germany

MartinSchader,Mannheim,Germany

StudiesinClassification,DataAnalysis,andKnowledgeOrganization isabook serieswhichoffersconstantandup-to-dateinformationonthemostrecent developmentsandmethodsinthe fieldsofstatisticaldataanalysis,exploratory statistics,classi ficationandclustering,handlingofinformationandorderingof knowledge.Itcoversabroadscopeoftheoretical,methodologicalaswellas application-orientedarticles,surveysanddiscussionsfromaninternational authorshipandincludes fi eldslikecomputationalstatistics,patternrecognition, biologicaltaxonomy,DNAandgenomeanalysis,marketing, financeandother areasineconomics,databasesandtheinternet.Amajorpurposeistoshowthe intimateinterplaybetweenvarious,seeminglyunrelateddomainsandtofosterthe cooperationbetweenmathematicians,statisticians,computerscientistsandpractitionersbyofferingwell-basedandinnovativesolutionstourgentproblemsof practice.

Editors

PaulaBrito FacultyofEconomics UniversityofPorto Porto,Portugal

INESCTEC,CentreforArtificial IntelligenceandDecisionSupport (LIAAD) Porto,Portugal

BertholdLausen DepartmentofMathematicalSciences UniversityofEssex Colchester,UK

RebeccaNugent DepartmentofStatistics&DataScience CarnegieMellonUniversity Pittsburgh,PA,USA

José G.Dias BusinessResearchUnit UniversityInstituteofLisbon Lisbon,Portugal

AngelaMontanari DepartmentofStatisticalSciences “PaoloFortunati” UniversityofBologna Bologna,Italy

ISSN1431-8814

ISSN2198-3321(electronic)

StudiesinClassification,DataAnalysis,andKnowledgeOrganization ISBN978-3-031-09033-2 ISBN978-3-031-09034-9(eBook) https://doi.org/10.1007/978-3-031-09034-9

MathematicsSubjectClassification:62H30,62H25,62R07,68T09,62H86,68T10,94A16,68T30

© TheEditor(s)(ifapplicable)andTheAuthor(s)2023.Thisbookisanopenaccesspublication. OpenAccess ThisbookislicensedunderthetermsoftheCreativeCommonsAttribution4.0 InternationalLicense(http://creativecommons.org/licenses/by/4.0/),whichpermitsuse,sharing,adaptation,distributionandreproductioninanymediumorformat,aslongasyougiveappropriatecreditto theoriginalauthor(s)andthesource,providealinktotheCreativeCommonslicenseandindicateif changesweremade.

Theimagesorotherthirdpartymaterialinthisbookareincludedinthebook'sCreativeCommons license,unlessindicatedotherwiseinacreditlinetothematerial.Ifmaterialisnotincludedinthebook's CreativeCommonslicenseandyourintendeduseisnotpermittedbystatutoryregulationorexceedsthe permitteduse,youwillneedtoobtainpermissiondirectlyfromthecopyrightholder.

Theuseofgeneraldescriptivenames,registerednames,trademarks,servicemarks,etc.inthispublicationdoesnotimply,evenintheabsenceofaspecificstatement,thatsuchnamesareexemptfromthe relevantprotectivelawsandregulationsandthereforefreeforgeneraluse.

Thepublisher,theauthors,andtheeditorsaresafetoassumethattheadviceandinformationinthis bookarebelievedtobetrueandaccurateatthedateofpublication.Neitherthepublishernorthe authorsortheeditorsgiveawarranty,expressedorimplied,withrespecttothematerialcontained hereinorforanyerrorsoromissionsthatmayhavebeenmade.Thepublisherremainsneutralwithregard tojurisdictionalclaimsinpublishedmapsandinstitutionalaffiliations.

ThisSpringerimprintispublishedbytheregisteredcompanySpringerNatureSwitzerlandAG Theregisteredcompanyaddressis:Gewerbestrasse11,6330Cham,Switzerland

Preface

“ClassificationandDataScienceintheDigitalAge”,the17thConferenceoftheInternationalFederationofClassificationSocieties(IFCS),isheldinPorto,Portugal, fromJuly19thtoJuly23rd2022,locallyorganisedbytheFacultyofEconomicsof theUniversityofPortoandthePortugueseAssociationforClassificationandData Analysis,CLAD.

TheInternationalFederationofClassificationSocieties(IFCS),foundedin1985, isaninternationalscientificorganizationwithnon-profitandnon-politicalmotives. Itspurposeistopromotemutualcommunication,co-operationandinterchangeof viewsamongallthoseinterestedinscientificprinciples,numericalmethods,theory andpracticeofdatascience,dataanalysis,andclassificationinabroadsenseandinas widearangeofapplicationsaspossible;toserveasanagencyforthedissemination ofscientificinformationrelatedtotheseareasofinterest;toprepareinternational conferences;topublishanewsletterandotherpublications.Thescientificactivities oftheFederationareintendedforallpeopleinterestedintheoryofclassification anddataanalysis,andrelatedmethodsandapplications.IFCS2022–originally scheduledforAugust2021,andpostponedduetotheCovid-19pandemic–willbe its17thedition;previouseditionswereheldinThessaloniki(2019),Tokyo(2017) andBologna(2015).

KeynotelecturesareaddressedbyGeneveraAllen(RiceUniversity,USA),Charles Bouveyron(UniversitéCôted’Azur,Nice,France),DianneCook(MonashUniversity,Melbourne,Australia),andJoãoGama(FacultyofEconomics,Universityof Porto&LIAADINESCTEC,Portugal).Theconferenceprogramincludestwo tutorials:“AnalysisofDataStreams”byJoãoGama(FacultyofEconomics,UniversityofPorto&LIAADINESCTEC,Portugal)and“CategoricalDataAnalysisof Visualization”byRosariaLombardo(UniversitàdegliStudidellaCampaniaLuigi Vanvitelli,Italy)andEricBeh(UniversityofNewcastle,Australia).IFCS2022has highlightedtopics,whichleadtoSemi-PlenaryInvitedSessions.TheConference programalsoincludesThematicTracksonspecificareas,aswellasfreecontributed sessionsindifferenttopics(bothoralcommunicationsandposters).

v

TheConferenceScientificProgramCommitteeisco-chairedbyPaulaBrito,JoséG. Dias,BertholdLausen,andAngelaMontanari,andincludesrepresentativesofthe IFCSmembersocieties:AdalbertWilhelm–GfKl,AhmedMoussa–MCS,Arthur White–IPRCS,BrianFranczak–CS,EvaBojdelVal–SEIO,FionnMurtagh–BCS,FrancescoMola–CLADAG,HyunjoongKim–KCS,JavierTrejosZelaya–SoCCCAD,KojiKurihara–JCS,KrzysztofJajuga–SKAD,MarkdeRooij–VOC, MohamedNadif–SFC,NielleRoux–MDAG,SimonaKorenjakČerne–SSS, TheodoreChadjipadelis–GSDA,whowereresponsiblefortheConferenceScientificProgram,andwhomtheorganiserswishtothankfortheirpreciouscooperation. SpecialthanksarealsoduetothechairsoftheThematicTracks,fortheirinvaluable collaboration.

Thepapersincludedinthisvolumepresentnewdevelopmentsinrelevanttopics ofDataScienceandClassification,constitutingavaluablecollectionofmethodologicalandappliedpapersthatrepresentthecurrentresearchinhighlydeveloping areas.Combiningnewmethodologicaladvanceswithawidevarietyofrealapplications,thisvolumeiscertainlyofgreatvalueforDataScienceresearchersand practitionersalike.

Firstofall,theorganisersoftheConferenceandtheeditorswouldliketothank allauthors,fortheircooperationandcommitment.Wearespeciallygratefultoall colleagueswhoservedasreviewers,andwhoseworkwasdecisivetothescientific qualityoftheseproceedings.WealsothankallthosewhohavecontributedtothedesignandproductionofthisBookofProceedingsatSpringer,inparticularVeronika Rosteck,forherhelpconcerningallaspectsofpublication.

TheorganiserswouldliketoexpresstheirgratitudetothePortugueseAssociation forClassificationandDataAnalysis,CLAD,aswellastotheFacultyofEconomics oftheUniversityofPorto(FEP–UP),whoenthusiasticallysupportedtheConference fromtheverystart,andcontributedtoitssuccess.Wecordiallythankallmembers oftheLocalOrganisingCommittee–AdelaideFigueiredo,CarlosFerreira,Carlos Marcelo,ConceiçãoRocha,FernandaFigueiredo,FernandaSousa,JorgePereira, M.EduardaSilva,PauloTeles,PedroCampos,PedroDuarteSilva,andSóniaDias –andallpeopleatFEP–UPwhoworkedactivelyfortheconferenceorganisation, andwhoseworkismuchappreciated.Weareverygratefultoalloursponsors,for theirgeneroussupport.Finally,wethankallauthorsandparticipants,whomadethe conferencepossible.

Porto, PaulaBrito July2022 JoséG.Dias BertholdLausen AngelaMontanari RebeccaNugent

Acknowledgements

TheEditorsareextremelygratefultothereviewers,whoseworkwasdeterminant forthescientificqualityoftheseproceedings.Theywere,inalphabeticalorder:

AdalbertWilhelm

AgustínMayo-Iscar

AlípioJorge

AndréC.P.L.F.deCarvalho

AnnMaharaj

AnuškaFerligoj

ArthurWhite

BertholdLausen

BrianFranczak

CarlosSoares

ChristianHennig

ConceiçãoAmado

EvaBojdelVal

FrancescoMola

FranciscodeCarvalho

GeoffMcLAchlan

GilbertSaporta

GlòriaMateu-Figueras

HansKestler

HélderOliveira

HyunjoongKim

JaimeCardoso

JavierTrejos

JeanDiatta

JoséA.Lozano

JoséA.Vilar

JoséMatos

KojiKurihara

KrzysztofJajuga

LauraPalagi

LauraSangalli

LazharLabiod

LuisAngelGarcía-Escudero

LuisTeixeira

M.RosárioOliveira

MargaridaG.M.S.Cardoso

MarkdeRooij

MichelangeloCeci

MohamedNadif

NielLeRoux

PaoloMignone

PatriceBertrand

PedroCampos

PedroDuarteSilva

PedroRibeiro

PeterFilzmoser

RosannaVerde

RosariaLombardo

SalvatoreIngrassia

SatishSingh

SimonaKorenjak-Černe

TheodoreChadjipadelis

VeronicaPiccialli

VladimirBatagelj

Partners&Sponsors

Weareextremelygratefultothefollowinginstitutionswhosesupport contributestothesuccessofIFCS2022:

Sponsors

BancodePortugal

Berd

ComissãodeViticulturadaRegiãodosVinhosVerdes

IndieCampers

INESC/TEC

Luso-AmericanDevelopmentFoundation

PSE

SociedadePortuguesadeEstatística

InstitutoNacionaldeEstatística/StatisticsPortugal

Unilabs

UniversidadedoPorto

Partners

AssociaçãoPortuguesaparaaInvestigaçãoOperacional AssociaçãoPortuguesadeReconhecimentodePadrões

AssociaçãodeTurismodoPortoeNorte

CentroInternacionaldeMatemática

FaculdadedeEngenhariadaUniversidadedoPorto

InternationalAssociationofStatisticalComputing

InternationalAssociationofStatisticalEducation

SociedadePortuguesadeMatemática

Springer

Organisation

CLAD-AssociaçãoPortuguesadeClassificaçãoeAnálisedeDados

FaculdadedeEconomiadaUniversidadedoPorto

ATopologicalClusteringofIndividuals

RafikAbdesselam

ModelBasedClusteringofFunctionalDatawithMildOutliers ........

CristinaAntonandIainSmith

ATrivariateGeometricClassificationofDecisionBoundariesfor MixturesofRegressions .........................................

FilippoAntonazzoandSalvatoreIngrassia

GeneralizedSpatio-temporalRegressionwithPDEPenalization ........ 29 EleonoraArnone,EliaCunial,andLauraM.Sangalli

ANewRegressionModelfortheAnalysisofMicrobiomeData ......... 35 RobertoAscariandSoniaMigliorati

StabilityofMixed-typeClusterPartitionsforDeterminationofthe NumberofClusters

RabeaAschenbruck,GeroSzepannek,andAdalbertF.X.Wilhelm

AReviewonOfficialSurveyItemClassificationforMixed-ModeEffects Adjustment

AfshinAshoftehandPedroCampos

ClusteringandBlockmodelingTemporalNetworks–TwoIndirect Approaches ...................................................

VladimirBatagelj

LatentBlockRegressionModel ...................................

RafikaBoutalbi,LazharLabiod,andMohamedNadif

UsingClusteringandMachineLearningMethodstoProvideIntelligent GroceryShoppingRecommendations ..............................

NailChabane,MohamedAchrafBouaoune,RedaAmirSofianeTighilt, BogdanMazoure,NadiaTahiri,andVladimirMakarenkov

COVID-19Pandemic:aMethodologicalModelfortheAnalysisof Government’sPreventingMeasuresandHealthDataRecords .......... TheodoreChadjipadelisandSofiaMagopoulou

pcTVI:ParallelMDPSolverUsingaDecompositionintoIndependent Chains

JaëlChampagneGareau,ÉricBeaudry,andVladimirMakarenkov

Three-waySpectralClustering CinziaDiNuzzoandSalvatoreIngrassia

ImprovingClassificationofDocumentsbySemi-supervisedClustering inaSemanticSpace ............................................

JasminkaDobšaandHenkA.L.Kiers

TrendsinDataStreamMining .................................... JoãoGama

OldandNewConstraintsinModelBasedClustering ................. LuisA.García-Escudero,AgustínMayo-Iscar,GianlucaMorelli,andMarco Riani

ClusteringStudentMobilityDatain3-wayNetworks ................. 147 VincenzoGiuseppeGenova,GiuseppeGiordano,GiancarloRagozini,and MariaProsperinaVitale

ClusteringBrainConnectomesThroughaDensity-peakApproach 155 RiccardoGiubilei

SimilarityForestforTimeSeriesClassification 165 TomaszGórecki,MaciejŁuczak,andPawełPiasecki

DetectionoftheBiliaryAtresiaUsingDeepConvolutionalNeural NetworksBasedonStatisticalLearningWeightsviaOptimalSimilarity andResamplingMethods ........................................

KuniyoshiHayashi,EriHoshino,MitsuyoshiSuzuki,ErikaNakanishi, KotomiSakai,andMasayukiObatake

SomeIssuesinRobustClustering ................................. ChristianHennig

RobustnessAspectsofOptimizedCentroids ......................... JanKalinaandPatrikJanáček

DataClusteringandRepresentationLearningBasedonNetworkedData

LazharLabiodandMohamedNadif

TowardsaBi-stochasticMatrixApproximationof 𝑘-meansandSome Variants ......................................................

LazharLabiodandMohamedNadif

ClusteringAdolescentFemalePhysicalActivityLevelswithanInfinite MixtureModelonRandomEffects ................................

AmyLaLonde,TanzyLove,DeborahR.Young,andTongtongWu

UnsupervisedClassificationofCategoricalTimeSeriesThrough InnovativeDistances

ÁngelLópez-Oriona,JoséA.Vilar,andPierpaoloD’Urso

FuzzyClusteringbyHyperbolicSmoothing

DavidMasís,EstebanSegura,JavierTrejos,andAdilsonXavier

StochasticCollapsedVariationalInferenceforStructuredGaussian ProcessRegressionNetworks .....................................

RuiMeng,HerbertK.H.Lee,andKristoferBouchard

AnOnlineMinorization-MaximizationAlgorithm ...................

HienDuyNguyen,FlorenceForbes,GersendeFort,andOlivierCappé

DetectingDifferencesinItalianRegionalHealthServicesDuringTwo Covid-19Waves ................................................

LucioPalazzoandRiccardoIevoli

PoliticalandReligionAttitudesinGreece:BehavioralDiscourses .......

GeorgiaPanagiotidouandTheodoreChadjipadelis

SupervisedClassificationviaNeuralNetworksforReplicatedPoint Patterns

KateřinaPawlasová,IvaKarafiátová,andJiříDvořák

ParsimoniousMixturesofSeeminglyUnrelatedContaminatedNormal RegressionModels

GabrielePerroneandGabrieleSoffritti

PenalizedModel-basedFunctionalClustering:aRegularization ApproachviaShrinkageMethods .................................

NicolaPronello,RosariaIgnaccolo,LuigiIppoliti,andSaraFontanella EmotionClassificationBasedonSingleElectrodeBrainData: ApplicationsforAssistiveTechnology ..............................

DuarteRodrigues,LuisPauloReis,andBrígidaMónicaFaria

TheDeathProcessinItalyBeforeandDuringtheCovid-19Pandemic:a FunctionalCompositionalApproach ...............................

RiccardoScimone,AlessandraMenafoglio,LauraM.Sangalli,and PiercesareSecchi

ClusteringValidationintheContextofHierarchicalClusterAnalysis: anEmpiricalStudy .............................................

OsvaldoSilva,ÁureaSousa,andHelenaBacelar-Nicolau

AnMMLEmbeddedApproachforEstimatingtheNumberofClusters .. CláudiaSilvestre,MargaridaG.M.S.Cardoso,andMárioFigueiredo

TypologyofMotivationFactorsforEmployeesintheBankingSector:An EmpiricalStudyUsingMultivariateDataAnalysisMethods 363 ÁureaSousa,OsvaldoSilva,M.GraçaBatista,SaraCabral,andHelena Bacelar-Nicolau

AProposalforFormalizationandDefinitionofAnomaliesinDynamical Systems .......................................................

JanMichaelSpoor,JensWeber,andJivkaOvtcharova

NewMetricsforClassifyingPhylogeneticTreesUsing 𝐾-meansandthe SymmetricDifferenceMetric .....................................

NadiaTahiriandAleksandrKoshkarov

OnParsimoniousModellingviaMatrix-variatetMixtures ............ SalvatoreD.Tomarchio

EvolutionofMediaCoverageonClimateChangeandEnvironmental Awareness:anAnalysisofTweetsfromUKandUSNewspapers ........ GianpaoloZammarchi,MaurizioRomano,andClaudioConversano

ATopologicalClusteringofIndividuals

Abstract Theclusteringofobjects-individualsisoneofthemostwidelyusedapproachestoexploringmultidimensionaldata.ThetwocommonunsupervisedclusteringstrategiesareHierarchicalAscendingClustering(HAC)andk-meanspartitioning usedtoidentifygroupsofsimilarobjectsinadatasettodivideitintohomogeneous groups.TheproposedTopologicalClusteringofIndividuals,orTCI,studiesahomogeneoussetofindividualrowsofadatatable,basedonthenotionofneighborhood graphs;thecolumns-variablesaremore-or-lesscorrelatedorlinkedaccordingto whetherthevariableisofaquantitativeorqualitativetype.Itenablestopological analysisoftheclusteringofindividualvariableswhichcanbequantitative,qualitativeoramixtureofthetwo.Itfirstanalyzesthecorrelationsorassociationsobserved betweenthevariablesinatopologicalcontextofprincipalcomponentanalysis(PCA) ormultiplecorrespondenceanalysis(MCA),dependingonthetypeofvariable,then classifiesindividualsintohomogeneousgroup,relativetothestructureofthevariablesconsidered.TheproposedTCImethodispresentedandillustratedhereusing arealdatasetwithquantitativevariables,butitcanalsobeappliedwithqualitative ormixedvariables.

Keywords: hierarchicalclustering,proximitymeasure,neighborhoodgraph,adjacencymatrix,multivariatedataanalysis

1Introduction

Theobjectiveofthisarticleistoproposeatopologicalmethodofdataanalysisinthe contextofclustering.Theproposedapproach,TopologicalClusteringofIndividuals

RafikAbdesselam( ) UniversityofLyon,Lyon2,ERIC-COACTISLaboratories DepartmentofEconomicsandManagement,69365Lyon,France, e-mail: rafik.abdesselam@univ-lyon2.fr

© The Author(s) 2023

P. Brito et al. (eds.), Classification and Data Science in the Digital Age, Studies in Classification, Data Analysis, and Knowledge Organization, https://doi.org/10.1007/978-3-031-09034-9_1

1

(TCI)isdifferentfromthosethatalreadyexistandwithwhichitiscompared.There areapproachesspecificallydevotedtotheclusteringofindividuals,forexample,the ClusterprocedureimplementedinSASsoftware,butasfarasweknow,noneof theseapproacheshasbeenproposedinatopologicalcontext.

Proximitymeasuresplayanimportantroleinmanyareasofdataanalysis[16,5,9]. Theresultsofanyoperationinvolvingstructuring,clusteringorclassifyingobjects arestronglydependentontheproximitymeasurechosen.

Thisstudyproposesamethodforthetopologicalclusteringofindividualswhatevertypeofvariableisbeingconsidered:quantitative,qualitativeoramixtureof both.Theeventualassociationsorcorrelationsbetweenthevariablespartlydepends onthedatabasebeingusedandtheresultscanchangeaccordingtotheselectedproximitymeasure.Aproximitymeasureisafunctionwhichmeasuresthesimilarityor dissimilaritybetweentwoobjectsorvariableswithinaset.

Severaltopologicaldataanalysisstudieshavebeenproposedbothinthecontext offactorialanalyses(discriminantanalysis[4],simpleandmultiplecorrespondence analyses[3],principalcomponentanalysis[2])andinthecontextofclusteringof variables[1],clusteringofindividuals[10]andthisproposedTCIapproach.

Thispaperisorganizedasfollows.InSection 2,webrieflyrecallthebasic notionofneighborhoodgraphs,wedefineandshowhowtoconstructanadjacency matrixassociatedwithaproximitymeasurewithintheframeworkoftheanalysis ofthecorrelationstructureofasetofquantitativevariables,andwepresentthe principlesofTCIaccordingtocontinuousdata.ThisisillustratedinSection 3 using anexamplebasedonrealdata.TheTCIresultsarecomparedwiththoseofthewellknownclassicalclusteringofindividuals.Finally,Section 4 presentstheconcluding remarksonthiswork.

2TopologicalContext

Topologicaldataanalysisisanapproachbasedontheconceptoftheneighborhood graph.Thebasicideaisactuallyquitesimple:foragivenproximitymeasurefor continuousorbinarydataandforachosentopologicalstructure,wecanmatcha topologicalgraphinducedonthesetofobjects.

Inthecaseofcontinuousdata,weconsider 𝐸 = {𝑥1 , ··· ,𝑥 𝑗 , ··· ,𝑥 𝑝 },asetof 𝑝 quantitativevariables.Wecanseein[1]casesofqualitativeorevenmixedvariables.

Wecan,bymeansofaproximitymeasure 𝑢,defineaneighborhoodrelationship, 𝑉𝑢,tobeabinaryrelationshipbasedon 𝐸 × 𝐸.Therearemanypossibilitiesfor buildingthisneighborhoodbinaryrelationship.

Thus,foragivenproximitymeasure u,wecanbuildaneighborhoodgraphon 𝐸, wheretheverticesarethevariablesandtheedgesaredefinedbyapropertyofthe neighborhoodrelationship.

Manydefinitionsarepossibletobuildthisbinaryneighborhoodrelationship.One canchoosetheMinimalSpanningTree(MST)[7],theGabrielGraph(GG)[11]or, asisthecasehere,theRelativeNeighborhoodGraph(RNG)[14].

Foranygivenproximitymeasure 𝑢,wecanconstructtheassociatedadjacency binarysymmetricmatrix 𝑉𝑢 oforder 𝑝,where,allpairsofneighboringvariablesin 𝐸 satisfythefollowingRNGproperty:

Fig.1 Data-RNGstructure-Euclideandistance-Associatedadjacencymatrix.

Figure1showsasimpleillustrativeexampleinR2 ofasetofquantitativevariables thatverifythestructureoftheRNGgraphwithEuclideandistanceasproximity measure: 𝑢

Thisgeneratesatopologicalstructurebasedontheobjectsin 𝐸 whicharecompletelydescribedbytheadjacencybinarymatrix 𝑉𝑢.

2.1ReferenceAdjacencyMatrices

Threetopologicalfactorialapproachesaredescribedin[1]accordingtothetypeof variablesconsidered:quantitative,qualitativeoramixtureofboth.Weconsiderhere thecaseofasetofquantitativevariables.

Weassumethatwehaveatourdisposalaset 𝐸 = {𝑥 𝑗 ; 𝑗 = 1, ··· ,𝑝} of 𝑝 quantitativevariablesand 𝑛 individuals-objects.Theobjectivehereistoanalyzein atopologicalway,thestructureofthecorrelationsofthevariablesconsidered[2], fromwhichtheclusteringofindividualswillthenbeestablished.

Weconstructthereferenceadjacencymatrixnamed 𝑉𝑢★ fromthecorrelation matrix.Expressionsofsuitableadjacencyreferencematricesforcasesinvolving qualitativevariablesormixedvariablesaregivenin[1].

Toexaminethecorrelationstructurebetweenthevariables,welookatthesignificanceoftheirlinearcorrelation.Thereferenceadjacencymatrix 𝑉𝑢★ associated withreferencemeasure 𝑢★,canbewrittenusingtheStudent’st-testofthelinear correlationcoefficient 𝜌 ofBravais-Pearson:

Definition1 Forquantitativevariables, 𝑉𝑢★ isdefinedas: 𝑉𝑢★ (𝑥 𝑘 ,𝑥 𝑙) = 1 if 𝑝-value = 𝑃[| 𝑇𝑛 2 | > t-value ]≤ 𝛼 ;

𝑘,𝑙 = 1,𝑝 0 otherwise.

wherethe 𝑝-valueisthesignificancetestofthelinearcorrelationcoefficientfor thetwo-sidedtestofthenullandalternativehypotheses, 𝐻0 : 𝜌(𝑥𝑘 ,𝑥𝑙) = 0 vs. 𝐻1 : 𝜌(𝑥𝑘 ,𝑥𝑙) ≠ 0.

Let 𝑇𝑛 2 beat-distributedrandomvariableofStudentwith 𝜈 = 𝑛 2 degreesof freedom.Inthiscase,thenullhypothesisisrejectedifthe 𝑝-valueislessthanorequal toachosen 𝛼 significancelevel,forexample, 𝛼 = 5%.Usingalinearcorrelation test,ifthe 𝑝-valueisverysmall,itmeansthatthereisaverylowlikelihoodthatthe nullhypothesisiscorrect,andconsequentlywecanrejectit.

2.2TopologicalAnalysis-SelectiveReview

Whateverthetypeofvariablesetbeingconsidered,thebuiltreferenceadjacency matrix 𝑉𝑢★ isassociatedwithanunknownreferenceproximitymeasure 𝑢★

Therobustnessdependsonthe 𝛼 errorriskchosenforthenullhypothesis:no linearcorrelationinthecaseofquantitativevariables,orpositivedeviationfrom independenceinthecaseofqualitativevariables,canbestudiedbysettingaminimum thresholdinordertoanalyzethesensitivityoftheresults.Certainlythenumerical resultswillchange,butprobablynottheirinterpretation.

Weassumethatwehaveatourdisposal {𝑥𝑘 ; 𝑘 = 1,..,𝑝} asetof 𝑝 homogeneous quantitativevariablesmeasuredon 𝑛 individuals.Wewillusethefollowingnotations:

- 𝑋(𝑛,𝑝) isthedatamatrixwith 𝑛 rows-individualsand 𝑝 columns-variables,

- 𝑉𝑢★ isthesymmetricadjacencymatrixoforder 𝑝,associatedwiththereference measure 𝑢★ whichbeststructuresthecorrelationsofthevariables,

- 𝑋(𝑛,𝑝) = 𝑋𝑉𝑢★ istheprojecteddatamatrixwith 𝑛 individualsand 𝑝 variables,

- 𝑀𝑝 isthematrixofdistancesoforder 𝑝 inthespaceofindividuals,

- 𝐷𝑛 = 1 𝑛 𝐼𝑛 isthediagonalmatrixofweightsoforder 𝑛 inthespaceofvariables.

Wefirstanalyze,inatopologicalway,thecorrelationstructureofthevariables usingaTopologicalPCA,whichconsistsofcarryingoutthestandardizedPCA[6,8] triplet ( 𝑋,𝑀𝑝 ,𝐷𝑛 ) oftheprojecteddatamatrix 𝑋 = 𝑋𝑉𝑢★ and,forcomparison, thedualitydiagramoftheClassicalstandardizedPCAtriplet ( 𝑋,𝑀𝑝 ,𝐷𝑛 ) ofthe initialdatamatrix 𝑋.Wethenproceedwithaclusteringofindividualsbasedonthe significantprincipalcomponentsoftheprevioustopologicalPCA.

Definition2 TCIconsistofperformingaHAC,basedontheWardcriterion1 [15], onthesignificantfactorsofthestandardizedPCAofthetriplet (𝑋,𝑀𝑝,𝐷𝑛).

1 Aggregationbasedonthecriterionofthelossofminimalinertia.

3IllustrativeExample

Thedataused[13]toillustratetheTCIapproachdescribetherenewableelectricity (RE)ofthe 13 Frenchregionsin2017,describedby 7 quantitativevariablesrelating toRE.ThegrowthofrenewableenergyinFranceissignificant.SomeFrenchregions haveexpertiseinthisarea;however,theregions’profilesappeartodiffer.

TheobjectiveistospecifyregionaldisparitiesintermsofREbyapplyingtopologicalclusteringtotheFrenchregionsinordertoidentifywhichwerethecountry’s greenestregionsin 2017.StatisticsrelatingtothevariablesaredisplayedinTable1.

Table1 Summarystatisticsofrenewableenergyvariables.

Table2 Correlationmatrix(𝑝-value)-Referenceadjacencymatrix

(0.369)(0.099)(0.734)(0.582)

(0.167)(0.311)(0.066) (0.002) (0.181)

-0.3650.489 -0.609 -0.459-0.149-0.135 1.000 (0.220)(0.090) (0.027) (0.114)(0.627)(0.660)

Significancelevel:p value ≤ 𝛼 = 5%

Theadjacencymatrix 𝑉𝑢★,associatedwiththeproximitymeasure 𝑢★,adapted tothedataconsidered,isbuiltfromthecorrelationsmatrixTable2accordingto Definition1.Notethatinthiscase,whichusesquantitativevariables,itisconsidered thattwopositivelycorrelatedvariablesarerelatedandthattwonegativelycorrelated variablesarerelatedbutremote.Wewillthereforetakeintoaccountanysignof correlationbetweenvariablesintheadjacencymatrix.

WefirstcarryoutaTopologicalPCAtoidentifythecorrelationstructureofthe variables.AHAC,accordingtoWard’scriterion,isthenappliedtothesignificant principalcomponentsofthePCAoftheprojecteddata.Wethencomparetheresults ofatopologicalandaclassicalPCA.

Figure2presents,forcomparisononthefirstfactorialplane,thecorrelations betweenprincipalcomponents-factorsandtheoriginalvariables.

Wecanseethatthesecorrelationsareslightlydifferent,asarethepercentagesof theinertiasexplainedonthefirstprincipalplanesofTopologicalandClassicPCA.

Fig.2 Topological&ClassicalPCAofREoftheFrenchregions.

ThetwofirstfactorsoftheTopologicalPCAexplain 57 89% and 26 11%,respectively,accountingfor 83 99% ofthetotalvariationinthedataset;however,the twofirstfactorsoftheClassicalPCAaddupto 75 20%.Thus,thefirsttwofactors provideanadequatesynthesisofthedata,thatis,ofREintheFrenchregions.We restrictthecomparisontothefirstsignificantfactorialaxes.

Forcomparison,Figure3showsdendrogramsoftheTopologicalandClassical clusteringoftheFrenchregionsaccordingtotheirRE.Notethatthepartitionschosen in5clustersareappreciablydifferent,asmuchbycompositionasbycharacterization. ThepercentagevarianceproducedbytheTCIapproach, 𝑅2 = 86.42%,ishigherthan thatoftheclassicapproach, 𝑅2 = 84.15%,indicatingthattheclustersproducedvia theTCIapproacharemorehomogeneousthanthosegeneratedbytheClassicalone.

BasedontheTCIanalysis,theCorseregionaloneconstitutesthefourthcluster, andtheNouvelle-AcquitaineregionisfoundinthesecondclusterwiththeGrandEst,OccitanieandProvence-Alpes-Côte-d’Azur(PACA)regions;however,inthe Classicalclustering,thesetworegions-CorseandNouvelle-Aquitaine-together constitutethethirdcluster.

Figure4summarizesthesignificantprofiles(+)andanti-profiles(-)ofthetwo typologies;withariskoferrorlessthanorequalto 5%,theyarequitedifferent. ThefirstclusterproducedviatheTCIapproach,consistingofasingleregion, Auvergne-Rhônes-Alpes(AURA),ischaracterizedbyhighshareofhydroelectricity, ahighlevelofcoverageofregionalconsumption,andhighREproductionandconsumption.Thesecondcluster-whichgroupstogetherthefourregionsofGrand-Est, Occitanie,Provence-Alpes-Côte-d’Azur(PACA)andNouvelle-Aquitaine-isconsideredahomogeneouscluster,whichmeansthatnoneofthesevenREcharacteristics differsignificantlyfromtheaverageofthesecharacteristicsacrossallregions.This clustercanthereforebeconsideredtoreflectthetypicalpictureofREinFrance.

Fig.3 TopologicalandClassicaldendrogramsoftheFrenchregions.

Fig.4 Typologies-CharacterizationofTCI&Classicalclusters

Cluster3,whichconsistsofsixregions,ischaracterizedbyahighdegreeofwind energy,alowdegreeofhydroelectricity,lowcoverageofregionalconsumption,and lowproductionandconsumptionofREcomparedtothenationalaverage.Cluster 4,representedbytheCorseregion,ischaracterizedbyahighshareofsolarenergy andlowproductionandconsumptionofRE.Thelastclass,representedbytheIlede-Franceregion,ischaracterizedbyahighshareofbiomassenergy.Regardingthe othertypesofRE,theirshareisclosetothenationalaverage.

4Conclusion

Thispaperproposesanewtopologicalapproachtotheclusteringofindividualswhich canenrichclassicaldataanalysismethodswithintheframeworkoftheclusteringof objects.Theresultsofthetopologicalclusteringapproach,basedonthenotionofa neighborhoodgraph,areasgood-orevenbetter,accordingtotheR-squaredresults -thantheexistingclassicalmethod.TheTCIapproachisbeeasilyprogrammable fromthePCAandHACproceduresofSAS,SPADorRsoftware.Futureworkwill involveextendingthistopologicalapproachtoothermethodsofdataanalysis,in particularinthecontextofevolutionarydataanalysis.

References

1. Abdesselam,R.:Atopologicalclusteringofvariables.JournalofMathematicsandSystem Science.Accepted(2022)

2. Abdesselam,R.:AtopologicalapproachofPrincipalComponentAnalysis.International JournalofDataScienceandAnalysis. 77(2),20–31(2021)

3. Abdesselam,R.:AtopologicalMultipleCorrespondenceAnalysis.JournalofMathematics andStatisticalScience,ISSN2411-2518, 5(8),175–192(2019)

4. Abdesselam,R.:AtopologicalDiscriminantAnalysis.DataAnalysisandApplications2, UtilizationofResultsinEuropeandOtherTopics,Vol.3,Part4.pp.167–178Wiley,(2019)

5. Batagelj,V.,Bren,M.:Comparingresemblancemeasures.JournalofClassification, 12(1), 73–90(1995)

6. Caillez,F.,Pagès,J.P.:Introductionàl’AnalysedesDonnées.S.M.A.S.H.,Paris(1976)

7. Kim,J.H.andLee,S.:Tailboundfortheminimalspanningtreeofacompletegraph.In Statistics&ProbabilityLetters, 4(64),425–430(2003)

8. Lebart,L.:Stratégiesdutraitementdesdonnéesd’enquêtes.LaRevuedeMODULAD, 3, 21–30(1989)

9. Lesot,M.J.,Rifqi,M.,Benhadda,H.:Similaritymeasuresforbinaryandnumericaldata:a survey.In:IJKESDP, 1(1),63–84(2009)

10. Panagopoulos,D.:Topologicaldataanalysisandclustering.Chapterforabook,Algebraic Topology(math.AT)arXiv:2201.09054,MachineLearning(2022)

11. Park,J.C.,Shin,H.,Choi,B.K.:EllipticGabrielgraphforfindingneighborsinapointsetand itsapplicationtonormalvectorestimation.Computer-AidedDesignElsevier, 38(6),619–626 (2006)

12. SASInstituteInc.SAS/STATSoftware,theClusterProcedure,AvailableviaDIALOG. https://support.sas.com/documentation/onlinedoc/stat/142/cluster.pdf

13. Selectra:Electricitérenouvelable:quellessontlesrégionslesplusvertesdeFrance? http://selectra.info/energie/actualites/expert/electricite-renouvelab le-regions-plus-vertes-france (2020)

14. Toussaint,G.T.:Therelativeneighbourhoodgraphofafiniteplanarset.PatternRecognition, 12(4)261–268(1980)

15. Ward,J.R.:Hierarchicalgroupingtooptimizeanobjectivefunction.JournaloftheAmerican StatisticalAssociation, 58(301),236–244(1963)

16. Zighed,D.,Abdesselam,R.,Hadgu,A.:Topologicalcomparisonsofproximitymeasures.In: Tanetal.(Eds).InProc.16thPAKDD2012Conference,pp.379–391.Springer,(2012)

OpenAccess ThischapterislicensedunderthetermsoftheCreativeCommonsAttribution4.0 InternationalLicense(http://creativecommons.org/licenses/by/4.0/),whichpermitsuse,sharing, adaptation,distributionandreproductioninanymediumorformat,aslongasyougiveappropriate credittotheoriginalauthor(s)andthesource,providealinktotheCreativeCommonslicenseand indicateifchangesweremade.

Theimagesorotherthirdpartymaterialinthischapterareincludedinthechapter’sCreative Commonslicense,unlessindicatedotherwiseinacreditlinetothematerial.Ifmaterialisnot includedinthechapter’sCreativeCommonslicenseandyourintendeduseisnotpermittedby statutoryregulationorexceedsthepermitteduse,youwillneedtoobtainpermissiondirectlyfrom thecopyrightholder.

ModelBasedClusteringofFunctionalDatawith MildOutliers

Abstract Weproposeaprocedure,calledCFunHDDC,forclusteringfunctionaldata withmildoutlierswhichcombinestwoexistingclusteringmethods:thefunctional highdimensionaldataclustering(FunHDDC)[1]andthecontaminatednormalmixture(CNmixt)[3]methodformultivariatedata.WeadapttheFunHDDCapproach todatawithmildoutliersbyconsideringamixtureofmultivariatecontaminatednormaldistributions.Tofitthefunctionaldataingroup-specificfunctionalsubspaces weextendtheparsimoniousmodelsconsideredinFunHDDC,andweestimatethe modelparametersusinganexpectation-conditionalmaximizationalgorithm(ECM). Theperformanceoftheproposedmethodisillustratedforsimulatedandreal-world functionaldata,andCFunHDDCoutperformsFunHDDCwhenappliedtofunctional datawithoutliers.

Keywords: functionaldata,model-basedclustering,contaminatednormaldistribution,EMalgorithm

1Introduction

Recently,model-basedclusteringforfunctionaldatahasreceivedalotofattention. Realdataareoftencontaminatedbyoutliersthataffecttheestimationsofthemodel parameters.Hereweproposeamethodforclusteringfunctionaldatawithmild outliers.Mildoutliersareusuallysampledfromapopulationdifferentfromthe

CristinaAnton( )

MacEwanUniversity,10700–104AvenueEdmonton,AB,T5J4S2,Canada, e-mail: popescuc@macewan.ca

IainSmith MacEwanUniversity,10700–104AvenueEdmonton,AB,T5J4S2,Canada, e-mail: smithi23@mymacewan.ca

© The Author(s) 2023

P. Brito et al. (eds.), Classification and Data Science in the Digital Age, Studies in Classification, Data Analysis, and Knowledge Organization, https://doi.org/10.1007/978-3-031-09034-9_2

11

assumedmodel,soweneedtochooseamodelflexibleenoughtoaccommodate them.

Functionaldataliveinaninfinitedimensionalspaceandmodel-basedmethods forclusteringarenotdirectlyavailablebecausethenotionofprobabilitydensity functiongenerallydoesnotexistforsuchdata.Afirstapproachistouseatwostepmethodandfirstdoadiscretizationoradecompositionofthefunctionaldata inabasisoffunctions(suchasFourierseries,B-splines,etc.),andthendirectly applymultivariateclusteringmethodstothediscretizationorthebasiscoefficients. Asecondapproach,whichallowstheinteractionbetweenthediscretizationandthe clusteringsteps,isbasedonaprobabilisticmodelforthebasiscoefficients[1,2].

Wefollowthesecondapproach,andweproposeamethod,calledCFunHDDC, whichextendsthefunctionalhighdimensionaldataclustering(FunHDDC)[1]to clusteringfunctionaldatawithmildoutliers.Thereareseveralmethodstodetect outliersoffunctionaldataandarobustclusteringmethodologybasedontrimming ispresentedin[4].Ourapproachdoesnotinvolvetrimmingtheoutliersanditis inspiredbythemethodCNmixt[3]forclusteringmultivariatedatawithmildoutliers. Weproposeamodelforthebasiscoefficientsbasedonamixtureofcontaminated multivariatenormaldistributions.Amultivariatecontaminatednormaldistribution isatwo-componentnormalmixtureinwhichthebadobservations(outliers)are representedbyacomponentwithasmallpriorprobabilityandaninflatedcovariance matrix.

Inthenextsectionwepresentthemodelanditsparsimoniousvariants.Parameter estimationisincludedinSection3.InSection4wepresentapplicationstosimulated andreal-worlddata.Thelastsectionincludestheconclusions.

2TheModel

Wesupposethatweobserve 𝑛 curves {𝑥1,...,𝑥𝑛} andwewanttoclusterthem in 𝐾 homogeneousgroups.Foreachcurve 𝑥𝑖 wehaveaccesstoafinitesetof values 𝑥𝑖𝑗 = 𝑥𝑖 (𝑡𝑖𝑗 ),where

𝑇.Weassumethatthe observedcurvesareindependentrealizationsofa 𝐿2 continuousstochasticprocess 𝑋 = {𝑋 (𝑡)}𝑡 ∈[0,𝑇 ] forwhichthesamplepathsarein 𝐿2[0,𝑇].Toreconstructthe functionalformofthedataweassumethatthecurvesbelongtoafinitedimensional spacespannedbyabasisoffunctions {𝜉1,...,𝜉𝑝 },sowehavetheexpansionfor eachcurve

𝑖 (𝑡) =

𝜉 𝑗 (𝑡).

Hereweassumethatthedimension 𝑝 isfixedandknown.Weconsideramodelbased onamixtureofmultivariatecontaminatednormaldistributionsforthecoefficients vectors {𝛾1,...,𝛾𝑛}⊂ R𝑝 , 𝛾𝑖 = (𝛾𝑖1,...,𝛾𝑖𝑝) ∈ R𝑝 , 𝑖 = 1,...,𝑛. Wesupposethatthereexiststwounobservedrandomvariables 𝑍 = (𝑍1,...,𝑍𝐾 ), Υ= (Υ1,..., Υ𝐾 )∈{0, 1}𝐾 where 𝑍 indicatestheclustermembershipand Υ

Clustering of Functional Data with Mild Outliers

whetheranobservationisgoodorbad(outlier). 𝑍𝑘 = 1 if 𝑋 ∈ 𝑘thclusterand 𝑍𝑘 = 0 otherwise,and Υ𝑘 = 1 if 𝑋 ∈ 𝑘thclusteranditisagoodobservation,and Υ𝑘 = 0 otherwise.Forclusteringweneedtopredictthevalue 𝑧𝑖 = (𝑧𝑖1,...,𝑧𝑖𝐾 ) of 𝑍,and todeterminethebadobservationsweneedtopredictthevalue 𝜈𝑖 = (𝜈𝑖1,...,𝜈𝑖𝐾 ) of Υ foreachobservedcurve 𝑥𝑖, 𝑖 = 1,...,𝑛.

Weconsiderasetof 𝑛𝑘 observedcurvesofthe 𝑘thclusterwiththecoefficients {𝛾1,...,𝛾𝑛𝑘 }⊂ R𝑝.Weassumethat {𝛾1,...,𝛾𝑛𝑘 } areindependentrealizations ofarandomvector Γ ∈ R𝑝,andthatthestochasticprocessassociatedwiththe 𝑘thclustercanbedescribedinalowerdimensionalsubspace E𝑘 [0,𝑇]⊂ 𝐿2[0,𝑇] withdimension 𝑑𝑘 ≤ 𝑝 andspannedbythefirst 𝑑𝑘 elementsofagroupspecific basisoffunctions {𝜙𝑘𝑗 } 𝑗=1,...,𝑑𝑘 thatcanbeobtainedfrom {𝜉 𝑗 } 𝑗=1,...,𝑝 byalinear transformation

𝑘𝑗 = 𝑝 𝑙=1 𝑞𝑘,𝑗𝑙𝜉𝑙, withan 𝑝 × 𝑝 orthogonalmatrix 𝑄𝑘 = (𝑞𝑘,𝑗𝑙).In[1]forFunHDDCtheassumption isthatthedistributionof Γ forthe 𝑘thclusteris Γ ∼ 𝑁 (𝜇𝑘 , Σ𝑘 ), Σ𝑘 = 𝑄

with 𝑎𝑘𝑖 >𝑏𝑘 , 𝑖 = 1,...,𝑑𝑘 .Wecansaythatthevarianceoftheactualdatainthe 𝑘thclusterismodeledby 𝑎𝑘1,...,𝑎𝑘𝑑𝑘 andtheparameter 𝑏𝑘 modelsthevariance ofthenoise[1].

Wefollowtheapproachin[3]andweassumethat Γ forthe 𝑘thclusterhasthe multivariatecontaminatednormaldistributionwithdensity 𝑓 (𝛾𝑖; 𝜃𝑘 ) = 𝛼𝑘 𝜙(𝛾𝑖; 𝜇𝑘 , Σ𝑘 )+(1 𝛼𝑘 )𝜙(𝛾𝑖; 𝜇𝑘 ,𝜂𝑘 Σ𝑘 ), (1) where 𝛼𝑘 ∈(0.5,

forthe 𝑝 variatenormaldistribution

Here 𝛼𝑘 definestheproportionofuncontaminateddatainthe 𝑘theclusterand 𝜂𝑘 representsthedegreeofcontamination.Wecansee 𝜂𝑘 asaninflationparameterthat measurestheincreaseinvariabilityduetothebadobservations.

Eachcurve 𝑥𝑖 hasabasisexpansionwithcoefficient 𝛾𝑖 suchthat 𝛾𝑖 isarandom vectorwhosedistributionsisamixtureofcontaminatedGaussianswithdensity

𝑝(𝛾; 𝜃) = 𝐾 𝑘=1 𝜋𝑘 𝑓 (𝛾; 𝜃𝑘 )

where 𝜋𝑘 = 𝑃(𝑍𝑘 = 1) isthepriorprobabilityofthe 𝑘ththeclusterand 𝜃 = 𝑘 𝑘=1(𝜃𝑘 ∪{𝜋𝑘 }) isthesetformedbyalltheparameters.Werefertothismodelas

FCLM[𝑎𝑘𝑗 ,𝑏𝑘 ,𝑄𝑘 ,𝑑𝑘 ](functionalcontaminatedlatentmixture).Asin[1]weconsidertheparsimonioussub-models:FCLM[𝑎𝑘𝑗 ,𝑏,𝑄𝑘 ,𝑑𝑘 ],FCLM[𝑎𝑘 ,𝑏𝑘 ,𝑄𝑘 ,𝑑𝑘 ],

FCLM[𝑎,𝑏𝑘 ,𝑄𝑘 ,𝑑𝑘 ],FCLM[𝑎𝑘 ,𝑏,𝑄𝑘 ,𝑑𝑘 ],FCLM[𝑎,𝑏,𝑄𝑘 ,𝑑𝑘 ].

3ModelInference

TofitthemodelsweusetheECMalgorithm[3],whichisavariantoftheEM algorithm.IntheECMalgorithmwereplacetheM-stepintheEMalgorithmbytwo simplerCM-stepsgivenbythepartitionofthesetwiththeparameters 𝜃 = {Ψ1, Ψ2}, where Ψ1 = {𝜋𝑘 ,𝛼𝑘 ,𝜇𝑘 ,𝑎𝑘𝑗 ,𝑏𝑘 ,𝑞𝑘𝑗 ,𝑘 = 1,...,𝐾,𝑗 = 1,...,𝑑𝑘 }, Ψ2 = {𝜂𝑘 ,𝑘 = 1,...,𝐾},and 𝑞𝑘𝑗 isthe 𝑗thcolumnof 𝑄𝑘

Wehavetwosourcesofmissingdata:theclusters’labelsandthetypeofobservation(goodorbad).Thusthecompletedataaregivenby

,and thecomplete-datalikelihoodis

𝑐

Wedenotethecomplete-datalog-likelihoodby 𝑙𝑐 (𝜃; 𝑆) = log(𝐿𝑐 (𝜃; 𝑆)). NextwepresenttheECMalgorithmforthemodelFCLM[𝑎𝑘𝑗 ,𝑏𝑘 ,𝑄𝑘 ,𝑑𝑘 ].At the 𝑞 iterationoftheECMalgorithmintheE-stepwecalculate 𝐸 [𝑙𝑐 (𝜃(𝑞 1); 𝑆)|𝛾1, ...,𝛾𝑛,𝜃(𝑞 1)],giventhecurrentvaluesoftheparameters 𝜃(𝑞 1).Thisreducesto thecalculationof 𝑧(𝑞) 𝑖𝑘 := 𝐸 [𝑍𝑖𝑘 |𝛾𝑖,𝜃(𝑞 1

|𝛾𝑖,𝑧𝑖,𝜃(𝑞 1)].

InthefirstCMstepinthe 𝑞 iterationoftheECMalgorithmwecalculate Ψ(𝑞) 1 as thevalueof Ψ1 thatmaximize 𝑙(𝑞 1) 𝑐

Weintroduceavalue 𝛼

andweconstrain 𝛼𝑘 ∈(𝛼∗ , 1).Iftheestimation 𝛼(𝑞) 𝑘 in (4)islessthan 𝛼∗,weusethe optimize()functioninthe stats packageinRtodoa numericalsearchfor 𝛼

Clustering of Functional Data with Mild Outliers

Asin[1]wegettheupdatedvalues 𝑎(𝑞) 𝑘𝑗 ,𝑏(𝑞) 𝑘 ,𝑞(𝑞) 𝑘𝑗 ,𝑘 = 1,...,𝐾,𝑗 = 1,...,𝑑𝑘 fromthesamplecovariancematrix Σ(𝑞) 𝑘 ofcluster 𝑘,usingalsothematrixof innerproductsbetweenthebasisfunctions 𝑊 = (𝑤 𝑗𝑙)1≤ 𝑗,𝑙≤𝑝,where 𝑤 𝑗𝑙 =

𝑇 0 𝜉 𝑗 (𝑡)𝜉𝑙 (𝑡)𝑑𝑡.

InthesecondCMstepinthe 𝑞 iterationoftheECMalgorithmwecalculate 𝜂(𝑞) 𝑘 asthevaluethatmaximize 𝑙(𝑞 1) 𝑐 with Ψ1 fixedat Ψ(𝑞) 1 .

AttheendoftheECMalgorithm,wedoatwo-stepclassificationtoprovidethe expectedclustering.If 𝑞 𝑓 isthelastiterationofthealgorithmbeforeconvergence, anobservation 𝛾𝑖 ∈ R𝑝 isassignedtothecluster 𝑘0 ∈{1,...,𝐾} withthelargest 𝑧 (𝑞 𝑓 ) 𝑖𝑘 .Next,anobservation 𝛾𝑖 thatwasassignedtothecluster 𝑘0 isconsideredgood if

(𝑞 𝑓 ) 𝑖𝑘0 > 0 5,anditisconsideredbadotherwise.Aftertheclassificationstepwe caneliminatethebadobservationsandrunFunHDDCtore-clustertheremaining observations.

Theclassspecificdimension 𝑑𝑘 isselectedthroughthescree-testofCattellby comparisonofthedifferencebetweeneigenvalueswithagiventhreshold[1].The numberofclusters 𝐾 aswellastheparsimoniousmodelareselectedusingtheBIC criterion.

4Applications

Fig.1 Smoothdatasimulatedwithoutoultiers(a),accordingtoscenarioA(b),scenarionB(c), andscenarioC(d),colouredbygroupforonesimulation.

Wesimulate1000curvesbasedonthemodelFCLM[𝑎𝑘 ,𝑏𝑘 ,𝑄𝑘 ,𝑑𝑘 ].Thenumber ofclustersisfixedto 𝐾 = 3andthemixingproportionsareequal 𝜋1 = 𝜋2 = 𝜋3 = 1/3

Weconsiderthefollowingvaluesoftheparameters

Group1: 𝑑 = 5, 𝑎 = 150, 𝑏 = 5, 𝜇 = (1, 0, 50, 100, 0,..., 0)

Group2: 𝑑 = 20, 𝑎 = 15, 𝑏 = 8, 𝜇 = (0, 0, 80, 0, 40, 2, 0,..., 0)

C Anton and I Smith

Group3: 𝑑 = 10, 𝑎 = 30, 𝑏 = 10, 𝜇 = (0,..., 0, 20, 0, 80, 0, 0, 100), where 𝑑 istheintrinsicdimensionofthesubgroups, 𝜇 isthemeanvectorofsize70, 𝑎 isthevalueofthe 𝑑-firstdiagonalelementsof Δ,and 𝑏 thevalueofthe 70 𝑑-last ones.Curvesaresmoothedusing35Fourierbasisfunctions.Werepeatthesimulation 100times.AsampleofthesesdataisplottedinFigure1a.Weconsiderthefollowing contaminationschemeswherethescoresaresimulatedfromcontaminatednormal distributionswiththepreviousparametersand

SamplesfordatageneratedaccordingtoscenariosA,B,CareplottedinFigure1 b,c,d,respectively.Wenoticethatthereismoreoverlappingbetweenthe3groups whenweincreasethevaluesof 𝜂

Table1 Mean(andstandarddeviation)ofARIforBICbestmodelon100simulations.Boldvalues indicatesthehighestvalueforeachmethod.

ScenarioMethod

ARIARIOutliers

AFunHDDC-0.05 0.519(0.11)AFunHDDC-0.10.499(0.05)AFunHDDC-0.20.494(0.01)-

ACFunHDDC0.750.050.769(0.23)0.959(0.04)

ACFunHDDC0.750.10.986(0.08)0.998(0.01)

ACFunHDDC0.750.2 0.9995(0.001)1(0)

BFunHDDC-0.05

0.861(0.23)BFunHDDC-0.10.754(0.25)BFunHDDC-0.20.52(0.09)-

BCFunHDDC0.750.050.807(0.22)0.961(0.05)

BCFunHDDC0.750.10.948(0.14)0.99(0.03)

BCFunHDDC0.750.2

0.990(0.062)0.971(0.149)

CFunHDDC-0.050.490(0.02)-

CFunHDDC-0.10.491(0.02)-

CFunHDDC-0.2 0.494(0.01)CCFunHDDC0.750.050.736(0.23)0.928(0.10)

CCFunHDDC0.750.10.911(0.18)0.958(0.15)

CCFunHDDC0.750.2 0.965(0.11)0.994(0.03)

ThequalityoftheestimatedpartitionsobtainedusingFunHDDCandCFunHDDC isevaluatedusingtheAdjustedRandIndex(ARI)[3],andtheresultsareincludedin Table1.ForFunHDDCweusethelibrary funHDDC inR.Werunbothalgorithms for 𝐾 = 3 withall6sub-modelsandthebestsolutionintermsofthehighestBIC valueforallthosesubmodelsisreturned.Theinitializationisdonewiththe 𝑘-means

Another random document with no related content on Scribd:

Anhang.

Tabelle zur annähernden Bestimmung der im Wasser lebenden Kerflarven[LVIII] .

1. (8)[LIX] Mit Flügelansätzen[LX]  2.

2. (3) Mit gegliedertem Rüssel

Schnabelkerfe[LXI] oder Rhynchoten (Fig. 10, 25–28).

3. (2) Mit beissenden Mundteilen (Orthoptera amphibiotica)  4.

4. (5) Unterlippe zum Fangorgan ausgebildet, weit vorstreckbar (Fig. 9, 19). Mit drei blattförmigen Kiemen[LXII] am Ende oder mit Darmkiemen Odonaten (Fig. 9, 19–22).

5. (4) Unterlippe gewöhnlich, tief geteilt  6.

6. (7) Mit Kiemen nur an den Seiten des Hinterleibes. Meist drei lange Endanhänge.

Ephemeriden (Fig. 9, 23).

7. (6) Ohne Kiemen an den Seiten des Hinterleibes, oft mit solchen an der Brust. Meist zwei Endanhänge.

Perliden (Fig. 10, 24).

8. (1) Ohne Flügelansätze. Larven, deren Brust- und Hinterleibsringe meist recht gleichartig und deren Tarsen nie gegliedert sind  9.

9. (10) Ohne g e g l i e d e r t e Beine an den drei Brustringen, bisweilen mit fussartigen, ungegliederten Fortsätzen, die zahlreiche Chitinhaken tragen

Dipteren (Fig. 7, 9–14).

10. (9) Mit gegliederten Beinen an den drei Brustringen 11.

11. (12) Mit je einem kräftigen Chitinhaken an zwei kürzeren oder längeren Afterbeinen am Hinterleibsende.

Fühler meist fehlend, selten vorhanden und dann zweigliedrig, winzig. Mit oder ohne fadenförmige mehrreihige Kiemen. Mit oder ohne Gehäuse

Phryganiden (Fig. 8, 15).

12. (11) Ohne derartige Chitinhaken an besonderen Afterbeinen; mit Fühlern 13.

13. (14) Raupen; mit fünf Paar Afterbeinen am dritten bis sechsten und letzten Hinterleibsringe. Afterbeine mit Hakenkränzen

Wasserzünsler (Paraponyx, Hydrocampa, Cataclysta, Acentropus).

14. (13) Fast immer ohne Afterbeine[LXIII], oder doch nie mit Afterbeinen in obiger Anordnung 15.

15. (18) Mit fadenförmigen Kiemen, ohne thätige Luftlöcher[LXIV] 16.

16. (17) Ohne Chitinhaken am Körperende; Kiemen gegliedert, am Hinterleib

Sialis, Sisyra.

17. (16) Mit vier Chitinhaken am Körperende; Kiemen ungegliedert, am Hinterleib

Gyriniden (Fig. 5, 1).

18. (15) Ohne fadenförmige Kiemen; mit zwei thätigen Luftlöchern am Körperende 19.

19. (20) Fühler länger als der halbe Körper; Körper platt Cyphon.

20. (19) Fühler kürzer als der halbe Körper; Körper mehr oder minder walzenförmig 21.

21. (22) Vorletzter (eigentlich drittletzter) Hinterleibsring mit zwei langen sichelförmigen Chitinhaken. Körper weichhäutig, bleich

Donaciden.

22. (21) Ohne solche Chitinhaken; Körper nicht bleich 23.

23. (24) Oberkiefer sichelförmig, ohne Zähne auf der Innenseite; Beine mit gesonderter Kralle, also

sechsteilig. Fast immer zwei Krallen

Dytisciden (Fig. 5, 2–4).

24. (23) Oberkiefer mit deutlichen Zähnen oder doch Höckern auf der Innenseite. Tarsus und Kralle nicht gesondert, Beine also fünfgliedrig. Nie zwei Krallen

Hydrophiliden (Fig. 6, 6 und 7).

[LVIII] Die weitere Unterscheidung der unten folgenden Gruppen siehe teilweise im Text.

[LIX] Die eingeklammerten Zahlen weisen auf den Gegensatz hin

[LX] Die jüngsten Larven sind zwar ohne Flügelansätze, aber durch ihre sonstige Ähnlichkeit mit den u n g l e i c h häufigeren älteren Larven, die solche Ansätze haben, leicht kenntlich Übrigens lassen sich die Larven der vier ersten Gruppen auch abgesehen von den Flügelansätzen durch die oben gekennzeichneten Merkmale der Mundbildung, der Kiemen und Endanhänge von den folgenden Larvengruppen unschwer unterscheiden Zu Hilfe kann man noch nehmen, dass die Larven dieser vier Gruppen alle Netzaugen und grosse, wohl entwickelte Beine mit fast immer (oder immer?) teilweise gegliederten Tarsen haben und dass Brust- und Hinterleibsringe meist deutlich in ihrer Bildung von einander unterschieden sind.

[LXI] Die Gattungen sind unschwer durch die Ähnlichkeit mit den erwachsenen Tieren zu bestimmen

[LXII] Kiemen steht in der Tabelle der Kürze wegen statt Tracheenkiemen.

[LXIII] Meines Wissens kommen nur bei Philhydrus testaceus Afterbeine vor und zwar stehen sie am dritten bis siebenten Hinterleibsring

[LXIV] Hierher gehören eigentlich auch wegen ihrer Kiemen Berosus (Hydrophilide), Cnemidotus und Pelobius (Dytisciden). Von den Gyriniden, Sialis und Sisyra unterscheidet sich Cnemidotus dadurch, dass auch an den Brustringen Kiemen stehen, Pelobius durch bluterfüllte echte Kiemen an der Unterseite der Brust und Berosus durch die besondere Oberkiefer- und Beinbildung (S 24) der Hydrophiliden

Litteratur.

[1] Zum Bestimmen der im Wasser lebenden Käfer wie der Käfer überhaupt ist zu empfehlen der betreffende Band der „Fauna austriaca“, nämlich Redtenbacher: „Die Käfer“. Wien 1858. Die Litteratur über die Käferlarven und Käferpuppen ist übersichtlich zusammengestellt in M. Rupertsberger, „Biologie der Käfer Europas“. Linz 1880. Für unsern Zweck sind fraglos am wichtigsten die Arbeiten Schiödtes, welche in der Naturhistorik. Tidsskrift von Kröyer, Kopenhagen, erschienen sind und zwar in den Jahrg. 1862, 1864, 1867, 1872. Der Text ist teilweise dänisch, teilweise lateinisch; die wichtigste Auskunft geben übrigens schon die vorzüglichen Abbildungen. Nicht unterlassen möchte ich, gleich hier auf die unser ganzes Gebiet behandelnden älteren

Werke von Rösel v. Rosenhof, Réaumur und De Geer hinzuweisen

Rösel, „Monatlich herausgegebene Insektenbelustigungen“. 1746 bis 1761.

de Réaumur, Mémoires pour servir à l’histoire des Insectes Paris 1734–42

de Geer, Mémoires pour servir à l’histoire des Insectes. Stockholm 1752–78. (Deutsch von Götze. Nürnberg 1778–83.)

[2] Eine umfassende Zusammenstellung der Litteratur über die Metamorphose der Dipteren giebt Fr. Brauer, „Die Zweiflügler des kaiserlichen Museums zu Wien“ (Denkschr. d. k. k. Akad. d. Wiss. Bd. 47. Wien 1883). Dort sind auch die Larven systematisch gruppiert und kurz geschildert. Für die eucephalen Larven ist wegen seiner vortrefflichen Abbildungen besonders zu empfehlen: Fr. Meinert, „Eucephale Myggelarver“ (Vidensk. Selsk. 6 Räkke naturvidensk. og math. Ath. III 3). Kopenhagen 1886.

[3] Abbildungen der Wasserraupen finden sich in v. Praun, „Abbild u Beschreib europäischer Schmetterlingsraupen“ Herausgegeben von E. Hoffmann, 1874. Vergl. auch Sorhagen, „Kleinschmetterlinge der Mark“.

[4] Für Phryganiden, Ephemeriden und Perliden sind mit Vorteil zu benutzen die Werke von F. J. Pictet, 1) Recherches pour servir à l’histoire et à l’anatomie des Phryganides Genf-Paris 1834 2)

Histoire naturelle des insectes neuroptères. Genf-Paris 1841–1843.

Ferner ist für beide Ordnungen zu empfehlen: Fr. Brauer, Neuroptera austriaca. Wien 1857. Eine Anzahl Beschreibungen und Muster für genaue Beschreibung der Larven und Puppen der Phryganiden findet man in: Klapalek, „Metamorphose der Trichopteren“. Prag 1888.

Für die Bestimmung der entwickelten Insekten ist besonders zu nennen: Mc. Lachlan, A monograph revision and synopsis of the Trichoptera of the European Fauna London 1874–80

[5] Die Ephemeriden nebst ihren Larven sind sehr eingehend behandelt in: Eaton, A revisional monograph of recent Ephemeridae. (Transact. of the Linnean Society.) London. Zoology. N. S. 3. 1888. Das Werk enthält zahlreiche Tafeln über die Larven

[6] Zur Bestimmung der Gattungen der Wasserwanzen dürften die allgemeinen systematischen Handbücher ausreichen, z. B. das von Ludwig-Leunis. Zur Unterscheidung der Arten sind die Arbeiten von Fieber, besonders „Hemiptera europaea“, zu empfehlen.

Die Mollusken des Süsswassers.

Von S. Clessin in Ochsenfurt.

Unsere Gewässer, von der kleinsten Pfütze bis zu den grössten Seen und von der spärlichsten Quelle bis zu den wasserreichsten Flüssen, werden von Mollusken verschiedener Gattungen bewohnt. Aber obwohl die in den Gewässern vorkommenden Arten meist in reicher Individuenzahl auftreten, fallen sie dennoch dem nicht geübten Beobachter nicht so leicht ins Auge und es bedarf selbst der gewandte Sammler in der Regel besonderer Instrumente, um lebende Mollusken in grösserer Anzahl zu fangen. Leere Gehäuse werden dagegen oft in reicher Menge an gewissen Lokalitäten angeschwemmt gefunden.

Die Mollusken spielen im Haushalte der Natur eine wichtige Rolle, indem sie faulende Pflanzenstoffe, welche in den Gewässern sich ansammeln, verzehren und dadurch die Wasser rein erhalten. Die Mehrzahl der Arten werden ihrer geringen Grösse und verborgenen Lebensweise wegen leicht übersehen, doch beherbergen unsere Gewässer auch grosse, recht ansehnliche Arten, namentlich aus der Klasse der Muscheltiere, die bezüglich ihrer Entwickelungsgeschichte noch besonderes Interesse bieten.

Einteilung der Mollusken.

Die im Wasser lebenden Conchylien gehören zwei sehr verschiedenen Klassen an. Die eine besteht aus Tieren, welche einen Kopf mit Fühlern und Augen haben, die gewöhnlich an der Basis der Fühler sitzen, im übrigen aber jenen der Landschnecken, der Klasse der Gasteropoden oder Bauchfüssler ähnlich sind. Sie haben mit wenig Ausnahmen (Genus Ancylus Geoff. und Velletia Gray[LXV]) eine gewundene Schale, und ist das Gehäuse zuweilen mit einem Deckel verschlossen. Die zweite Klasse die Muscheltiere, Bivalven oder Zweischaler, haben keinen Kopf und keine Augen; das Tier besteht nur aus einem sackartigen Körper, dessen unterer, ausdehnbarer Teil als „Fuss“ die Bewegung vermittelt. Den Körper umhüllen auf jeder Seite zwei buchblattartig am Rücken angeheftete Kiemen und wird das ganze Tier von einem Mantel umschlossen, dessen Ränder entweder ganz frei bleiben, oder teilweise zusammengewachsen sind; im letztern Falle hat der Mantel einen Schlitz am Vorderteile des Tieres zum Durchgange des Fusses und eine Öffnung für die Anal- und Atemröhre. Die Schalen der Bivalven sind nicht gewunden, sondern bestehen aus zwei gleichgrossen Klappen, die durch ein elastisches Band, das Ligament, verbunden sind und sich nur wenig öffnen können. Das Tier ist an den gegenüberstehenden Enden durch zwei sehr starke Muskeln (die Schliessmuskeln), welche zugleich das Öffnen der Schalen regeln, und durch einen kleinen Wirbelhaftmuskel an die Schale angeheftet sind.

[LXV] Bezüglich der Arten und Genera verweise ich auf meine Werke: „Deutsche Excursions-Mollusken-Fauna“. 2. Aufl. Nürnberg 1884, Bauer & Raspe, und „Molluskenfauna von Österreich-Ungarn und der Schweiz“. Nürnberg 1890, Bauer & Raspe.

Die meisten Süsswassermuscheln sind freibeweglich; nur eine Art unserer heimischen Arten heftet sich durch einen Byssus (einen Büschel spröder Haare) an anderen Gegenständen an (Dreissena polymorpha Pallas Fig. 11).

Fig 11

Dreissena polymorpha

Fig. 12. Ancylus fluviatilis mit Tier

Fig. 13. Valvata piscinalis mit Tier

Die Genera der nicht gedeckelten Süsswasserschnecken sind durchweg Lungenatmer Sie haben sehr verschiedene Formen, indem der Modus des Aufwindens der Umgänge sehr mannigfaltig ist. Die meisten Arten haben eine rechtsgewundene Schale, nur die Genera Amphipeplea, Physa und Aplexa winden ihre Umgänge nach links. Ferner besitzen die Genera Limnaea, Physa, Aplexa, Amphipeplea ein mehr oder weniger erhöhtes Gewinde, nur Genus Planorbis rollt seine Umgänge in platter Form auf, für welche der Name „Tellerschnecke“ sehr bezeichnend ist. Die Genera Ancylus (Fig. 12) und Velletia haben eine napfförmige Schale, von denen diejenige des ersteren Genus einer Jakobinermütze sehr ähnlich ist; bei beiden beschränkt sich die Windung des Gehäuses auf eine geringe Neigung des Wirbels nach rechts oder links. Die meisten

Arten haben eine rauhe Schale, an welcher die Zuwachsstreifen deutlich erkennbar sind. Nur Genus Physa und Aplexa haben glatte, glänzende Gehäuse.

Die Deckelschnecken, mit Ausnahme des Gen. Vivipara, bestehen aus kleinen Arten. Alle sind mit Kiemen zur Wasseratmung ausgerüstet. Gewöhnlich bleiben die Kiemen in der Kiemenhöhle verborgen, nur Genus Valvata (Fig. 13) besitzt die Fähigkeit, die federförmige Kieme auszustülpen und frei hervortreten zu lassen.

Das Gewinde ist bei diesen Schnecken ein kreiselförmiges (Gen. Vivipara und Valvata) oder ein mehr oder weniger getürmtes, nur Gen. Neritina und Lithoglyphus haben ein kurzes, wenig hervortretendes Gewinde und eine starke Schale und weite Mündung; die Oberfläche der Arten des Gen. Neritina ist mit hübschen netzartigen Zeichnungen bedeckt.

Die frei beweglichen Muscheln gehören zwei Familien an. Die grossen Arten gehören in die Familie der Najaden. Diese haben offenen Mantel, zwei gleichgrosse Kiemen und an der Mundöffnung jederseits zwei Mundlappen; der Mantel ist an seinem Rande am Hinterteile mit einem Kranze dunkelgefärbter Papillen besetzt. Die Kiemen dienen zugleich als Brutbehälter, haben gitterförmige Abteilungen, die, wenn Brut vorhanden, mit einer ungeheuren Anzahl von Embryonen besetzt sind.

Die kleineren Zweischaler der Familie Cycladidae haben geschlossenen Mantel, und je eine Anal- und Atemröhre, welche mehr oder weniger über den Mantelrand hervortritt.

Wohnorte und Gewohnheiten.

Die ungedeckelten Wasserschnecken der Familie der Limnaeiden halten sich den grössten Teil des Tages auf dem Grunde der Gewässer im Schlamme auf, und ziehen die meisten Arten stehende Gewässer vor; nur wenige Spezies finden sich in fliessenden Wassern, für welche sie wegen ihrer dünnen, zerbrechlichen Schale wenig geeignet sind. In fliessenden Wassern kommt in der Regel nur Limnaea peregra vor. — Die übrigen

Limnaea-Arten, die Spezies der Gen. Physa, Aplexa, Amphipeplea und Planorbis bewohnen nur stehende Gewässer.

14

Aplexa hypnorum

15

Vivipara vera Fr

Die Limnaeen (Limnaea stagnalis, auricularia, ovata, palustris) steigen bei heiterem, warmem Wetter an Wasserpflanzen an die Oberfläche des Wassers und kriechen, die Fusssohle nach oben gerichtet, das Gehäuse untergetaucht, ebenso sicher dahin, als wenn sie an einem festen Gegenstande kröchen. Wahrscheinlich saugt sich die Sohle an der auf dem Wasser aufstehenden Luftsäule an, da die Tiere sich jederzeit plötzlich zu Boden fallen lassen können. — Das Aufsteigen der Limnaeen an die Oberfläche wird mit dem Bedürfnisse der Tiere, Luft zu atmen, in Verbindung gebracht,

Fig
Fig

Eine Aplexa-Art (Apl. hypnorum Fig. 14) besitzt sogar die Fähigkeit, plötzlich vom Grunde des Wassers an die Oberfläche aufzutauchen, von wo sie sich nach einigen Sekunden ebenso schnell wieder zu Boden fallen lassen kann.

Die gedeckelten Wasserschnecken der Genera Vivipara (Fig. 15), Bythinia und Valvata leben im Schlamme der Gewässer, und zwar meist in stehenden, höchstens in sehr langsam fliessenden Wassern. — Die Arten der Genera Neritina und jene der Familie der Melaniiden leben nur in bewegtem Wasser, in welchem sie sogar stark flutende Stellen bevorzugen, für welche die Neritinen durch ihr kaum hervortretendes Gewinde und ihre weite Mundöffnung vorzugsweise geeignet erscheinen, weil sie den Fluten wenig Fläche darbieten. — Die Bythinellen (Fig. 16) finden sich nur in Quellen an Steinen sitzend; die Vitrella-Arten kommen ausschliesslich in Höhlengewässern vor. — Velletia lacustris lebt in stehendem, Ancylus fluviatilis und verwandte Arten nur in fliessendem Wasser. Doch findet sich erstere zuweilen auch in Bächen, während AncylusArten auch in Seen vorkommen.

Die Muscheln stecken am Grunde der Gewässer im Schlamme, in dem sie fast völlig eingebettet sind, so dass nur das hintere Ende frei ins Wasser hervorragt. Sie saugen das Wasser durch die Mundöffnung am vordern Ende der Muschel ein, lassen dasselbe durch den Körper zirkulieren und stossen es durch die Atemöffnung am hintern Ende wieder aus. Wenn man eine Muschel rasch aus dem Wasser nimmt, schliesst sie ihre Schalen und das Wasser spritzt dann, oft in ziemlich lebhafter Weise, durch die Atemöffnung aus. Beim Einblick in helles nicht tiefes Wasser kann man die im Schlamme steckenden Muscheltiere leicht bemerken. Man gewahrt jedoch nur die mit Cirren am

16

Frf. da die Limnaeiden mit Lungen ausgerüstet sind, während die mit Kiemen versehenen Deckelschnecken nie an die Oberfläche kommen. Die Limnaeen haben jedoch dieses Bedürfnis nur bei heiterem Wetter und bei erhöhter Temperatur des Wassers ihrer Wohnorte.

Fig
Bythinella austriaca

hintern Mantelrande besetzte Atem- und Analöffnung. Schiebt man vorsichtig ein Rütchen in diese Öffnung, so schliesst das Tier die Schalen, und die Spitze des Rütchens wird mit eingeklemmt. Mit dem Rütchen lässt sich dann die Muschel aus dem Schlamme ziehen, wenn man dieselbe fangen will.

Die Muscheln (s. Fig. 17) heften sich in fliessendem Wasser mit dem ausgestreckten Fusse in den unter der Schlammschicht befindlichen festen Boden. Ihre Bewegungsfähigkeit ist eine sehr geringe, und ihr ruckweise erfolgender Marsch erstreckt sich nur auf 1–2 m Länge. Derselbe wird durch Ausstrecken und Einziehen des Fusses bewerkstelligt; bei letzterer Operation wird die Muschel nachgeschleift, wobei sie im Schlamme eine Furche zurücklässt, an welcher man die Länge und Richtung des Marsches erkennen kann. Die kleineren Muscheln der Familie der Cycladen leben ebenfalls frei beweglich im Schlamme. Nur eine Art unserer Süsswassermuscheln, Dreissena polymorpha, heftet sich durch einen Byssus an andere im Wasser liegende feste Gegenstände an, und wechselt dann ihren Standort nicht mehr bis zu ihrem Tode. Die Muscheln sitzen oft in ganzen Klumpen zusammen und verstopfen beispielsweise leicht Wasserleitungsröhren, wenn sie in selbe gelangen. — Das Festsitzen dieser durch ihre dreieckige Form auffallenden Muschel ist die Veranlassung zur Verschleppung in die nord- und westeuropäischen Gewässer geworden: Ursprünglich in den Flüssen heimisch, welche ins Schwarze Meer münden, wurde sie durch Schiffe, an deren Planken sie sich angehängt hatte, an die Küsten der Ost- und Nordsee, sowie des Atlantischen Meeres verschleppt, und gelangte von hier wieder durch Flussschiffe in alle grösseren ins Meer mündenden Flüsse, von welchen sie in deren Nebenflüsse vordrang. Durch den Donau-Main-Kanal war es ihr sogar möglich, die Wasserscheide zwischen Rhein und Donau zu überschreiten und in die obere Donau zu gelangen, wo ich im Jahre 1868 das erste Exemplar fand. Einige Jahre später wurde sie bei Deggendorf beobachtet und so wird sie nun sicher die Donau abwärts wandern, bis sie wieder das Schwarze Meer, ihren Ausgangspunkt, erreicht hat.

Fig 17

Anodonta mutabilis v cellensis Chem

Entwickelung und Alter der Mollusken.

Die meisten Wasserschnecken sind Zwitter; wenigstens die nicht gedeckelten Arten, also insbesondere die Limnaea- (Fig. 18), Planorbis-, Physa-, Ancylus-, Velletia- und Amphipeplea-Arten. Bei Limnaea peregra habe ich mehrfach beobachtet, dass ganze Ketten, 6–8 Individuen, bei der Begattung zusammenhingen. — Bei den Deckelschnecken, wenigstens bei Vivipara, lassen sich männliche und weibliche Formen unterscheiden, ebenso nach H a z a y [LXVI] bei den Muscheln der Familie der Najaden. Ich halte dies jedoch noch immer für sehr zweifelhaft, bis weitere verlässliche Beobachter und Anatomen dieses Verhältnis bestätigt haben.

[LXVI] „Mollusken-Fauna von Budapest“. Kassel 1881, Theodor Fischer.

Die Wasserschnecken legen Eier; nur bei den Vivipara-Arten entwickeln sich die jungen Individuen schon im Muttertiere, so dass sie bereits mit einem etwa aus zwei Umgängen bestehenden Gehäuse ausgestossen werden. Auch die Arten der Familie Cycladidea stossen ihre Jungen schon als fertige Muscheln aus.

Die Schnecken und Muscheln sind schon fortpflanzungsfähig lange bevor sie ausgewachsen sind. Die im Mai ausgekrochenen Jungen der Limnaea- und Planorbis-Arten begatten sich noch im selben Herbste, obwohl sie ein Alter von 3–4 Jahren erreichen.

Fig 18 Lim. palustris v. corvus.

Die Eier werden in Schnüren oder in Paketen an Steinen, Wasserpflanzen oder häufig sogar auf die Gehäuse anderer Individuen derselben Art abgesetzt, so z. B. bei Limnaea ampla. H a z a y hat auf den Gehäusen dieser Art 8–12 Eierschnüre gefunden, so dass das Tier nur mühsam sich fortbewegen konnte. — Limnaea auricularia setzt 20–25 mm lange, 7–8 mm breite raupenförmige Eierschnüre ab, welche 80–150 Eier enthalten, die kugelrund sind und 1 mm Durchmesser haben. Der Eidotter ist weisslichgelb und wird während der Furchung hellweiss. — Limnaea stagnalis-variegata Hazay setzt eine Eierschnur von 45–55 mm Länge ab, die 110–180 Eier enthält; die Eierchen sind länglich-oval und 1½–2 mm gross. Der Dotter ist strohgelb, das Eiweiss wasserhell; Aplexa hypnorum legt den Laich in ganz flachen rundlichen Scheiben von 4–7 mm Durchmesser und ⅔ mm Dicke, mit den Enden gegeneinandergeheftet, ab. Die Zahl der Eier wechselt zwischen 20–50. — Planorbis corneus legt ebenfalls eine 25 bis 30 mm lange, 5 mm breite, glatte, an den Enden zusammengeheftete Eierschnur ab. Zahl der Eier 45–70.

Die Entwickelung des Embryo beansprucht bei Gen. Limnaea gewöhnlich 20, bei Planorbis und Physa nur 15, bei Bythinia 25

Tage. Je nach der Temperatur des Wassers wird der Entwickelungsprozess beschleunigt und verzögert. H a z a y hat beobachtet, dass bei Laich der Limnaea palustris var. Clessiniana die Embryonen sich schon in 12 Tagen entwickelten.

Die jungen Tiere wachsen ziemlich rasch und erlangen vier bis sieben Umgänge schon im ersten Jahre, jenachdem sie mehr oder weniger frühzeitig im Jahre als Laich abgesetzt wurden. Das grösste Wachstum entfällt auf das erste und zweite Jahr und nimmt dasselbe dann von Jahr zu Jahr ab. Im Herbst und Winter erfolgt nicht das geringste Wachstum. Während der letzten Wachstumsmonate wird der letzte frische Anbau des Gehäuses verdickt und die Mündung verstärkt.

Die Lebensdauer der Limnäen erstreckt sich im höchsten Falle auf 4–5 Jahre; nur wenige erreichen jedoch dieses Alter. Die Jahre, welche die Mollusken zum Ausbau ihres Gehäuses brauchen, lassen sich an den Jahresabsätzen deutlich erkennen, da diese Tiere gleich den Insekten, Lurchen etc. einen Winterschlaf halten. Schon im Hochsommer wächst das Gehäuse, dessen Weiterbau im Frühjahr sofort nach dem Erwachen aus dem Winterschlafe, meist im Monat April, beginnt, nicht mehr weiter; die Zeit bis zum Eintritt der Winterruhe wird dazu benutzt, die Mündung des Gehäuses durch Ablage einer Schmelzschicht zu verstärken, damit dieselbe beim Einbohren in den Schlamm nicht beschädigt wird. Die Jahresabsätze sind daher an den Gehäusen, durch die meist nach aussen durchscheinenden Verstärkungsschichten, leicht zu erkennen, und lassen sich aus der Zahl dieser Absätze die Jahre, die das Tier bis zur Vollendung des Gehäuses braucht, ablesen. Die Limnäen weisen zwei bis drei solcher Absätze, unter Umständen sogar deren vier, auf. Limnaea peregra hat in der Regel nur drei; ich habe jedoch auch aus höheren Lagen im Gebirge stammende Gehäuse dieser Art mit vier Jahresabsätzen gefunden, so dass anzunehmen wäre, dass die kürzere Sommerperiode höher gelegener Lokalitäten die Lebensdauer verlängert. — Limnaea auricularia und ovata sterben meistens schon im zweiten Jahre ab, Limnaea palustris (Fig. 18) gewöhnlich im dritten. Planorbis corneus, marginatus und carinatus vollenden ihre Gehäuse im dritten und leben selten länger als 3–3½

Jahre; Planorbis albus, spirorbis und alle kleineren Arten dieses Genus sterben in der Regel schon im zweiten Jahre. Amphipeplea glutinosa lebt nur ein Jahr.

Unter allen Wasserschnecken werden die Limnäen am meisten von Schmarotzertieren gequält, so dass die allermeisten derselben meist schon, bevor die Schale ausgewachsen ist, zu Grunde gehen. H a z a y sagt hierüber folgendes: Keine einzige der Limnäen, welche das dritte und vierte Lebensjahr erreicht hat, bleibt von denselben verschont; in diesem Alter fallen alle denselben, wie einer allgemein herrschenden Alterskrankheit, zum Opfer. Im zweiten Lebensjahre bereits finden sich einzelne Sporocisten an dem Darm und der Leber als längliche gelbe Schläuche vor, im dritten Lebensjahre sind dies schon massenhafte Schlauchbündel, welche alle inneren Organe bedecken, die ganze Leber erfüllen, langsam Herz und Lungenwand durchsetzen, so dass endlich das Tier absterben muss. Dieser Zustand der Tiere macht sich durch auffallende Trägheit und durch eine starke gelbe Färbung bemerkbar. Zieht man solche Tiere aus dem Gehäuse, so erscheint unter der Haut das ganze Innere des Körpers als gelbe Masse, alle Organe sind von Sporocistenbündeln belegt und von der Leber ist keine Spur mehr vorhanden.

Die Vivipara-Arten setzen keinen Laich ab; die Eier entwickeln sich im Muttertiere bis zu Gehäusen von 11 mm Länge und 7 mm Breite, welche etwa 3½ Umgänge zählen (Vivipara hungarica Hazay, l. c. p. 91). Die Schalen solch junger Tiere haben eine dichte Spiralstreifung und sind die Streifen mit an einander gereihten rundlichen Wärzchen besetzt, von denen manche kurze Borsten tragen. H a z a y fand im Uterus des Weibchens der genannten Art sechsundvierzig schon mit Schale und Binde versehene junge Tierchen und sehr viele Eier in allen Stadien der Entwickelung. Nach demselben Autor sind die Tiere getrennten Geschlechtes und lassen sich die Geschlechter an der Form der Schale gut unterscheiden. — Die Schalen ausgewachsener Tiere erreichen sieben Umgänge und erlangen dieselben ein Alter von 8–10 Jahren.

Die Arten der Familien Valvatidae und Hydrobiidae setzen Laich ab. Sie erreichen ein Alter von 2–3 Jahren. Neritina- und

Lithoglyphus-Arten können nach H a z a y ein Alter von 5 Jahren erreichen.

Die Muscheln der Familie der Najaden sind wahrscheinlich Zwitter, obwohl mehrere Autoren männliche und weibliche Formen an den Muscheln (vorzugsweise an der mehr aufgeblasenen Form der Schalen) unterscheiden wollen. Da nämlich die Kiemen als Brutbehälter für die Eier dienen und strotzend mit denselben gefüllt werden, wird die Muschel sehr aufgetrieben, während jene Muscheln, die keine Eier in die Kiemen bringen und aus irgend welchem Grunde vielleicht nicht fortpflanzungsfähig sind, wenig aufgeblasene Schalen behalten. Die Anodonta- und Unio-Arten produzieren ganz enorme Massen von Eiern, die aus den Ovarien in die Kiemen gelangen und hier die ersten Stadien ihrer Entwickelung durchmachen. Bei Anodonta anatina wurden 120000, bei An. cygnea sogar 400000 Eier gezählt. Die Einlagerung solch grosser Massen von Eiern kann nicht auf einmal erfolgen. Dieselben werden allmählich, je nach ihrer Entwickelung, eingeführt und zwar füllen sich die mittleren Fächer der Kiemen zuerst, denen dann die gegen die Enden der Muschel zu gelegenen folgen. — In den Kiemen entwickeln sich die Eier zu Larven, wozu sie nach H a z a y je nach den Temperaturverhältnissen 2–3 Monate brauchen. — Die Eihülle wird erst gesprengt, wenn sich die eigentümlich gestaltete Larvenschale vollkommen ausgebildet hat. Dieselbe ist von dreieckiger Form und besitzt in der Mitte der Bauchseite einen kleinen Höcker (Fig. 19). Ist die Eihülle entfernt, so bilden sich an den Larven Byssusfäden, mit denen sich die in einem Kiemenfache befindlichen Individuen derart verwickeln, dass sie wie aneinandergeheftet erscheinen. Die zusammenhängenden Larvenklumpen werden vom Muttertiere ausgestossen, und fallen in den Gewässern zu Boden, wo die Byssusfäden der Larven im Wasser flottieren. Die Byssusfäden verfangen sich an langsam über dem Schlamme schwimmenden Fischen, hängen sich an dieselben an, bilden an den Fischen kleine Cysten, in welchen sie sich so lange aufhalten, bis die junge Muschel soweit ausgereift ist, dass sie nun ohne Schutz, allein ihre weitere Entwickelung finden kann. H a z a y hat an folgenden Fischarten die Cysten von Najaden gefunden: Perca fluviatilis L., Acerina cernua L., Acerina Schraetzer

L., Cottus gobio L., Squalius cephalus L., Leuciscus virgo Heck., Rhodeus amarus Blain., Tinca vulgaris Cuv., Carassius vulgaris Nils. und Cyprinus carpio L. — Die Zeit, während welcher sie als Schmarotzer an Fischen leben, beträgt nach B r a u n 70–73 Tage.

Fig. 19.

Junge Muschel von Anodonta zur Zeit, wenn dieselbe aus den Kiemen ausgestossen wird

(Vergrössert )

Fig 20 Junge

Muschel von Unio batavus im ersten Lebensjahre

Es ist sehr wahrscheinlich, dass die Existenz der Muscheln durch das Vorhandensein von Fischen bedingt ist, da sich in stehenden Wassern, welche keine Fische beherbergen, sich auch keine Najaden finden. Bei diesem Verhältnisse der beiden so verschiedenen Tierklassen ist es gewiss gerechtfertigt, dass auch die grossen Muscheln den Fischen einen Gegendienst erweisen. Es finden sich nämlich in denselben in der innern Kieme F i s c h e m b r y o n e n vor, die hier ihre Entwickelung erfahren. H a z a y fand Mitte April bei kiementrächtigen Anodonten (bei fast jedem zweiten der untersuchten Tiere) in den inneren Kiemen 4–8, ebenso bei Unio pictorum 5–16 Fischembryonen, die möglicherweise von den Muschellarven sich genährt haben. Bei der grossen Anzahl der Eier, welche die Fische absetzen, ist es wahrscheinlich, dass diese

Fischembryonen nur durch einen glücklichen Zufall zwischen die Kiemen der Muscheln geraten. Es ist leider noch nicht festgestellt, ob gewisse Fischarten nur auf diesem Wege ihre EmbryonenStadien durchzumachen haben. H a z a y hat ferner beobachtet, dass die Fische sich in den Muscheln bis zu voller Ausbildung aufhalten, und dass die jungen Fischchen ausserhalb der Muschel sich ganz nahe der Atemöffnung der Muschel halten und durch dieselbe in die Muschel hineinschlüpften.

Die Fortpflanzungsfähigkeit tritt bei Genus Unio im dritten, bei Genus Anodonta im dritten oder vierten Lebensjahre ein.

Die Muscheln erreichen ein verhältnismässig hohes Alter, welches sich auf zehn bis zwölf Jahre erstrecken kann, was sich aus der Zahl der Jahresabsätze leicht erkennen lässt. Die ersten Jahresabsätze sind durch breite Zwischenräume getrennt, die mit fortschreitendem Alter immer schmäler werden, und ist bei Muscheln höheren Alters der Rand der Schalen ein häutiger, während jüngere Muscheln (Fig. 20) scharfe Ränder haben. Häufig verändern dieselben mit zunehmendem Alter ihre Formen derart, dass sie mit der jugendlichen Gestalt nur noch wenig Ähnlichkeit haben.

Die Muscheln, insbesondere die Arten des Genus Anodonta, werden häufig von einer Milbenart geplagt, die auf den Mantelhäuten des Tieres lebt und sich vom Blute der Muschel nährt. Diese Milbe, Limnocharis Anodontae Pfr., kriecht, sich langsam fortschleppend, auf den schlüpfrigen Häuten des Muscheltieres herum, an welchen sie sich mittels der Krallen an den Füssen und den Spitzen der Palpen festhält. Die Eier befestigt sie an der Mantelhaut und zwar gewöhnlich dem Hinterteil näher. C P f e i ff e r fand in einer Muschel 30–50 solcher Tiere. Das Muscheltier wird mager, unfruchtbar und seine Kiemenblätter sind schlaff und befinden sich in einem der Verwesung ähnlichen Zustande.

Die Arten der Cycladeen (Gen. Sphaerium, Calyculina und Pisidium) sind Zwitter und gebären lebendige Junge, die beim Abstoss aus dem Muttertiere schon eine verhältnismässig beträchtliche Grösse erreicht haben. Die Zahl der Jungen eines Tieres ist deshalb auch eine geringe und wird selten 20 übersteigen.

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.