Álvaro Arquero Mtz-Aguado
CAPÍTOL 1. CORRELACIÓ I CAUSALITAT ENTRE DADES
disposem d’algunes dades amb entrades i sortides i d’altres només de sortides. Un exemple del primer podria ser l’optimització de vendes d’una tenda, on saben que van fer i quant van vendre, del segon podrı́em estar parlant de tres flors, de les quals tenim certes caracterı́stiques però no quina flor són, i un clàssic exemple del tercer és la classificació de imatges, on ne tenim moltı́ssimes i només unes poques estan classificades. O bé agrupar-los per algorismes similars en termes de funcionament, tot seguit generaré una llista amb una petita descripció de cadascun, però només d’aquells més rellevants i dels que tinc més coneixement ja que hi han tants algorismes com problemes, no obstant adjuntaré una imatge que és prou descriptiva d’aquest tipus de classificació: • Classificació: Aquests algorismes són de aprenentatge supervisat, i agrupen les sortides en grups ja predeterminats. • Regressió: La regressió són tots els models que treballen amb les relacions entre variables i es van refinant mitjançant el càlcul en l’error i la modificació dels coeficients en funció del error fet per el model, és el que anomenem Machine learning estadı́stic, la regressió és un proces més que un tipus d’algorisme o de problema, sobre la regressió hi ha molt a dir i se li dedicarà un capı́tol sencer a la modelització de dades, per tractar per exemple l’overfitting, que no només és present a la regressió però que si que pot tenir un gran impacte en aquest treball. • Agrupament: O Clustering en anglès fa referència a tots els algorismes que donades les dades inicials, sense disposar dels resultats creen grups i assignen a cada entrada, definida com un vector a un d’aquest grups en funció de el proper que estigui aquell valor en un pla a la zona definida per el grup o Cluster. Són mètodes d’aprenentatge no supervisat.
Figura 1.1: Clustering visualment
Definicions de les tècniques de valoració del models regressius: RMSE - L’error quadràtic mitjà és la mesura de la desviació mitjana del model, si tracem una lı́nia per representar les sortides estimades, l’arrel de la mitjana de les sumes de les distàncies entre la lı́nia i els punts on es troben les sortides serà el RMSE, v u X u1 n t (yj − yj0 )2 n j=1 Com més proper a 0 el RMSE, millor el model, però compte amb l’overfitting! R-Squared - Aquesta mesura no té unitats, com més aprop de 1 es troba millor ha predit el model i calcula la variació total del model, R2 és el quadrat del coeficient de Pearson en regressió lineal. El coeficient de correlació de Pearson serveix per a mesurar la correlació entre dues variables quantitatives, aquest concepte serà aprofundit en aquest mateix capı́tol. R2 =
σ 2 XY σ 2 Xσ 2 Y
11