MACHINE LEARNING APLICAT A LA PREVISI O D'EMISSIONS DE LA PLANTA ALCANAR-CEMEX by Biblioteca Trinitari Fabregat

MACHINE LEARNING APLICAT A LA PREVISI O D'EMISSIONS DE LA PLANTA ALCANAR-CEMEX

Álvaro Arquero Mtz-Aguado

CAPÍTOL 6. ANÀLISI ESTADÍSTIC

#Farem un vector amb totes les covariàncies, recordem de la part teòrica que quan és positiva un major valor del input representa un major output > cov_train_set <- c(cov_train_set_kv1, cov_train_set_ma1, cov_train_set_kv2, cov_train_set_ma2, cov_train_set_kv3, cov_train_set_ma3, cov_train_set_tempfil, cov_train_set_dustfan, cov_train_set_mill, cov_train_set_kiln, cov_train_set_wflow) > cov_train_set [1] -0.44635195 -6.55935846 0.06429542 -11.99531112 0.03278827 [6] -11.42883479 -1.88533039 -0.52003145 0.23973912 -0.80320009 [11] -28.40670969 #A la variable data hi han moltes cel·les buides i valors que no són vàlids, aixı́ que serà eliminada, en posteriors versions del codi s’intentarà corregir aquest defecte però envers aquesta versió del treball es farà més esment a la variable data, segurament no tindrà un efecte molt gran ja que els valors per a POSIXct solen ser molt grans i per tant una covariància de -0.8 en aquests valors no es creu que sigui estadı́sticament massa significativa > train_set <- train_set[,-12] #Per saber si aquests resultats son estadı́sticament significatius o no necessitem fer dues coses, primer normalitzar el set i repetir el càlcul, per poder compar-ho amb les altres, i desprès calcular el coeficient de Pearson #Només per curiositat apliquem la funció str per veure l’estructura del nostre train set > str(train_set) ’data.frame’: 5417 obs. of 13 variables: $ kv1 : num 61.2 75.5 70.5 68.9 61.7 ... $ ma1 : num 275 282 239 292 214 ... $ kv2 : num 60.2 59.3 59.1 59.8 59.7 ... $ ma2 : num 373 365 432 351 389 ... $ kv3 : num 39.1 39.1 39.1 39.1 39.1 ... $ ma3 : num 301 303 304 297 303 ... $ tempfil : num 105 105 105 106 105 ... $ dustfan : int 77 77 77 77 77 77 77 77 77 77 ... $ mill : int 0 0 0 0 0 0 0 0 0 0 ... $ dust_output: num 8.49 8.62 8.68 8.62 8.62 ... $ kiln : int 94 94 94 94 94 94 94 94 94 94 ... $ wflow : num 223 224 223 224 224 ... > kv1_norm <- (train_set$kv1-min(train_set$kv1))/(max(train_set$kv1) -min(train_set$kv1)) > ma1_norm <- (train_set$ma1-min(train_set$ma1))/(max(train_set$ma1) -min(train_set$ma1)) > kv2_norm <- (train_set$kv2-min(train_set$kv2))/(max(train_set$kv2) -min(train_set$kv2)) > ma2_norm <- (train_set$ma2-min(train_set$ma2))/(max(train_set$ma2) -min(train_set$ma2)) > kv3_norm <- (train_set$kv3-min(train_set$kv3))/(max(train_set$kv3) -min(train_set$kv3)) > ma3_norm <- (train_set$ma3-min(train_set$ma3))/(max(train_set$ma3) -min(train_set$ma3)) > tempfil_norm <- (train_set$tempfil-min(train_set$tempfil))/ (max(train_set$tempfil)-min(train_set$tempfil)) > dustfan_norm <- (train_set$dustfan-min(train_set$dustfan))/ (max(train_set$dustfan)-min(train_set$dustfan)) > dust_output_norm <- (train_set$dust_output-min(train_set$dust_output))/