Page 24

Infraestructura para Big Data Si bien en el ecosistema actual de Big Data participan muchas empresas, a Google, Amazon y Yahoo les debemos la actual capacidad de procesamiento de grandes datos. Cristina Abad Robalino, Ph.D./Profesora de la FIEC A inicios de los años 2000, Google rehizo su infraestructura para el procesamiento de datos masivos, y publicó los diseños de sus tecnologías MapReduce, Google File System y BigTable, en artículos científicos que revolucionaron cómo se construye estos sistemas1. A mediados de la década pasada, Amazon, entró al mercado para proporcionar servicios de infraestructura de hardware y software pagada bajo demanda, con sus Amazon Web Services (AWS). Los AWS iniciaron la revolución de la computación en la nube permitiendo que miles de pequeñas empresas puedan tener una gran capacidad computacional con cero costo de inversión inicial (se puede alquilar servidores en Amazon por menos de 5 centavos la hora). Cristina Abad junto a su equipo de investigación en Big Data (Edwin Boza, Ángel González y Johnny Torres).

En el 2005, Yahoo inició el proyecto Hadoop de código abierto, basado en los diseños publicados por Google. Hadoop y su ecosistema se han convertido en el eje central para el procesamiento de grandes datos. Yahoo continúa siendo el principal desarrollador de este ecosistema, aunque en su desarrollo también han entrado a colaborar Twitter, Facebook, LinkedIn, Cloudera, entre otros. Las herramientas de software de Big Data pueden correr en cualquier tipo de computadora, por lo que cada empresa debe decidir si implementa su infraestructura con hardware de bajo costo, con servidores costosos o si opta por usar máquinas virtuales en la nube. Cada opción tiene sus ventajas y desventajas. Por ejemplo, si se escoge computadoras de bajo costo, se puede esperar un mayor número de fallos de hardware a lo largo del tiempo, pero con un menor costo de inversión. Mundialmente, una opción muy utilizada por pequeñas y medianas empresas -y hasta algunas grandes empresas como Netflix- es alquilar servicios en la nube como los de Amazon, y utilizar software gratuito como los proyectos de Apache: Hadoop, Spark y Storm. Esta combinación de computación en la nube más software gratuito permite montar una infraestructura de Big Data en poco tiempo y con cero costo inicial. Sin embargo, la complejidad de estas tecnologías ha hecho que los costos se trasladen al capital humano y que mundialmente se pague más a los desarrolladores que dominan las tecnologías de Big Data y computación en la nube2. Administrar y desarrollar una infraestructura de Big Data requiere sólidos conocimientos en ciencias de la Computación, especialmente en Sistemas Distribuidos, Aprendizaje de Máquina y Minería de Datos. Big Data ofrece grandes oportunidades para quienes reconozcan la necesidad de invertir en personal con las destrezas técnicas adecuadas3 para administrar, implementar, personalizar e integrar los diferentes componentes requeridos por la infraestructura. Además, los profesionales de Big Data deben actualizar sus conocimientos permanentemente ya que el ecosistema de los grandes datos se encuentra en constante evolución. [1] Cade Metz. “If Xerox PARC invented the PC, Google invented the Internet”. Wired. 2012. [2] Stackoverflow 2015 Developer Survey. http://stackoverflow.com/research/developer-survey-2015/ [3] John Bantleman. “The Big Cost of Big Data”. Forbes. 2012.

24 • FOCUS | DICIEMBRE 2015

ESPOL - FOCUS, Edición 68  
ESPOL - FOCUS, Edición 68  

FOCUS

Advertisement