Revista 422 diciembre 2015 apertura by Publicaciones CREA

N.º 422 diciembre 2015 - Ejemplar en la Argentina $35REVISTA CREA - N.º 422 diciembre 2015 - Ejemplar en la Argentina $35-

La eficiencia de los modelos productivos se sustenta cada vez más en la gestión de enormes volúmenes de información. Cuáles son las habilidades que se requieren para encarar este nuevo desafío

Sumario 08

La cocina de la Ciencia de Datos Qué es, cómo se hace y para qué sirve.

Información: un recurso clave Esfuerzos CREA para generar bases de datos.

Con buenos datos todo es más fácil La experiencia de AgriZoCe.

¡Ayuda, programadores! Una experiencia de trabajo interdisciplinario.

Australia busca inversores agropecuarios argentinos Para desarrollar la zona norte del país.

Herramientas de alto impacto para potenciar la ganadería Manejo intensivo de pasturas, concentración estacional del rodeo, suplementación estratégica y sanidad. Las llaves para alcanzar alta producción en el sudoeste bonaerense.

Un modelo eficiente Raúl Alfonso desarrolla un planteo de cría bien estudiado que le permite obtener 85% de destete en una zona con precipitaciones escasas y variables.

Reconversión ganadera de excampos agrícolas El caso del productor Guillermo Ponzio, miembro del CREA Atreuco en La Pampa.

32 54

Ganadería en Escocia Apuntes de un viaje realizado por el CREA Concordia-Chajarí.

De la visión a la acción Ecos del Congreso del NOA.

Vamos bien Alentadores resultados de análisis de agroquímicos y nitratos en napas y cursos de agua.

Congreso Nacional CREA 2016 Durante su desarrollo se considerará a las empresas como unidades de crecimiento de las comunidades locales y del pais.

SECCIÓN ECONÓMICA 76 78 82

El precio de la tierra LO AYUDAMOS A PRESUPUESTAR APUNTES

46 08

CREA

Diego Bendersky.

La cocina de la Ciencia de Datos Qué es, cómo se hace y para qué sirve

“El área de Ciencia de Datos o Big Data es un paraguas bastante amplio. Su objetivo principal es siempre el mismo: extraer información y conocimiento a partir de datos crudos. Para ello se emplean técnicas que vienen de la matemática, de la estadística y de la informática”. Así lo indica Diego Bendersky, integrante del Área de Ciencia de Datos de la Fundación Sadosky, una institución mixta –presidida por el ministro de Ciencia, Tecnología e Innovación Productiva– que se encarga de organizar el Hackatón de Agro Datos.

–Un ejemplo de las técnicas utilizadas son los árboles de regresión… –Sí. Existe toda una familia de algoritmos de clasificación, los cuales, a partir de ciertos criterios establecidos, pueden emplearse –por ejemplo– para diferenciar correos auténticos de otros que sean spam. El objetivo es que las relaciones a partir de las cuales se va a hacer la clasificación se generen de manera automática y autónoma. Otro nombre que recibe el área es machine learning (computadoras que aprenden).

modo en que se trabajaba con anterioridad. Los algoritmos de agrupamiento intentan encontrar patrones en grandes volúmenes de datos. Eso fue posible porque en los últimos años comenzó a ser cada vez más barato acumular enormes cantidades de información; en la medida en que se tienen más datos, más poder tiene el predictor. Pero qué sucedió: el volumen generó un cambio importante en la tecnología, ya que esa cantidad de datos no podía procesarse con las mismas herramientas.

–Los programas, ¿van aprendiendo, acumulando conocimiento a medida que van trabajando? –Depende de cómo se apliquen. Algunos algoritmos que trabajan on line se van actualizando y mejoran constantemente. La clave es que cuanto mayor es el conjunto de datos, mayor es la posibilidad de encontrar relaciones adecuadas.

Herramientas

–Entonces, la esencia de esta disciplina reside en los algoritmos creados por matemáticos especializados en estadística… –Así es. Otro tipo de algoritmos son los de clustering (agrupamiento) que, a diferencia de los anteriores, deben recibir “entrenamiento”. Se cargan de datos crudos y tratan de crear grupos sin criterios preestablecidos. Se conocen como algoritmos de “caja negra”, porque una vez que se cargan los datos, los patrones extraídos no tienen que ver necesariamente con el conocimiento presente en una determinada área o disciplina. Un ejemplo que suele utilizarse en data mining es el descubrimiento de una correlación muy sólida entre venta de pañales y cerveza. –¿Y cómo se explica? –Una vez que se tienen esos datos, se intenta interpretarlos. En este caso lo que se dedujo es que cuando un bebé tiene un incidente, son los hombres los que van a comprar los pañales al supermercado porque las mujeres se quedan en la casa cuidando del niño. –Entonces, tales algoritmos pueden abrir nuevas puertas de conocimiento que tal vez se tuvieron siempre delante, pero no se evidenciaban de manera explícita… –Claro. Algo importante es que esos algoritmos trabajan con datos y no con modelos de interpretación de datos, que es precisamente el

–En el agro, el ejemplo típico es el del Excel que comienza a quedar chico para analizar grandes volúmenes de registros... –Sí. Nosotros dimos un paso más, porque el Excel nos quedó chico en los años 90 y lo reemplazamos por servidores grandes con bases de datos, pero estos tampoco soportan el nivel de datos que manejamos en la actualidad. Los servidores que operaban en la década pasada ya no son funcionales. –¿Y qué solución encontraron? –Hubo que plantear un cambio muy importante para resolver el tema del procesamiento. Si uno quisiera hacer una regresión lineal con 5 terabytes de datos (equivalente a 103 gigabytes), no podría utilizar un programita convencional, porque

Proteína en soja Tres años atrás, un grupo de empresarios agrícolas de la zona CREA Sur de Santa Fe contactaron a investigadores de la Facultad de Ciencias Agrarias de la Universidad Nacional de Rosario (UNR) para evaluar los niveles de proteína en soja proveniente de diferentes regiones. “Para poder identificar los factores ambientales y de manejo que permiten modificar los niveles de proteína, empleamos un programa de Data Mining, que permite emplear diferentes técnicas estadísticas para descubrir patrones ocultos en grandes bases de datos sin tener ninguna hipótesis a priori”, comentó el tesista Guillermo Ravera, quien trabaja con los investigadores de la UNR Lucas Borrás, José Rotundo y José Gerde. El método que está siendo empleado para identificar variables clave es justamente el de árboles de regresión. “En el análisis tenemos que incorporar más variables de manejo, como fertilización, aplicación de fungicidas, series de suelo, etcétera; y variables ambientales, como temperatura o radiación, de manera tal de poder detectar con mayor precisión lo que estamos buscando”, consideró Ravera.

46 10

CREA

demoraría una semana. El cambio vino entonces por el lado del almacenamiento y de los procesamientos distribuidos. Antes, cuando quedaba chico un equipo, se recurría a otro más grande y así sucesivamente. Ahora la tendencia es contar con muchísimas computadoras, muy baratas y simples, conectadas en red, para que cada una procese una porción del volumen de datos. Y para almacenar se aplica el mismo concepto. Ese es un cambio disruptivo que permitió dar el salto a Big Data por el lado tecnológico. Y surgió de manera azarosa: para gestionar los datos de su propio negocio, los técnicos de Amazon instalaron unos data centers fenomenales, pero pronto se dieron cuenta de que tenían mucho tiempo ocioso; entonces empezaron a alquilar a terceros la capacidad ociosa de sus computadoras. A partir de allí surgió un negocio de proveedores que alquilan redes de computadoras por hora.

Bendersky. “El Excel nos quedó chico en los años 90 y lo reemplazamos por servidores grandes, pero esos tampoco soportan el nivel de datos que manejamos en la actualidad”.

–Eso, ¿también se aplica en la Argentina? –Está en una etapa experimental en Arsat (empresa estatal dedicada a brindar servicios de telecomunicaciones). El concepto es que, mientras antes todo se procesaba en una única computadora durante una semana, ahora se emplean 100 computadoras para procesar los datos en una hora. –¿Cuál es el objetivo del programa de Ciencia de Datos de la Fundación Sadosky? –Nos concentramos en la interacción entre la ciencia y las industrias. Este es un tema muy nuevo en la Argentina, que tiene un gran potencial. El Hackatón de Agro Datos, en particular, tiene que ver con la posibilidad de generar redes de vinculación entre el campo y el sector de la computación. Entendemos que ambos se necesitan mutuamente. Existen muchos emprendimientos realizados por programadores que se superponen unos con otros; en el campo existen problemas muy complejos y múltiples desafíos que pueden generar un salto productivo enorme si se les dedica energía y conocimiento. Y eso representa grandes oportunidades si se las sabe aprovechar. Por su parte, en el sector agropecuario existe aún mucho desconocimiento sobre el potencial de estas herramientas. Es necesario crear grupos interdisciplinarios para avanzar en la materia. Podría haber muchas tesis de maestría en Data Mining enfocadas en cuestiones de interés agropecuario o agroindustrial. f CREA