Bienvenidos al espacio de transferencia de conocimientos Análisis de grandes volumenes de información (Big Data) con Spark y R. Durante 120 minutos revisaremos la herramienta Spark para el análisis de grandes volúmenes
de información considerando dos alternativas de procesamiento: local y cluster. Estas nos permiten optimizar nuestros recursos computacionales al momento realizar nuestros análisis y modelos con este tipo de datos desde el entorno de programación R.
Hoy en día, la cantidad de información disponible para el análisis representa un desafio para las instituciones que buscan nutrirse de los hallazgos que se puedan generar en los datos. Esta transferencia de conocimientos
busca ser una introducción práctica al uso de Spark y R para afrontar este desafio.
A continuación te dejamos un enlace de recursos que el Centro de Investigación Estadística ERGOSTATS pone a disposición del público:
Recursos y materiales ERGOSTATS
Para aprovechar al máximo la transferencia de conocimientos, se requiere de los siquientes requisitos específicos:
En caso de necesitar asistencia comunícate con nuestro equipo con anticipación para asistirte con la conexión por medio de RStudio cloud.
Iniciamos con la instalación de R básico, esta instalación basta para nuestros propósitos. Sin embargo, hoy en día tenemos a disposición el maravilloso IDE (integrated development environment) de RStudio que nos ayuda a que la curva de aprendizaje sea más ligera para los estudiantes.
Para instalar R- Base es necesario saber si nuestro computador es de 32 o 64 bits. Una vez resuelta esta duda, procederemos a hacer clic en el siguiente enlace:
Este nos dará la descarga de un archivo .exe. Una vez
descargado, empezamos la instalación:
Con eso, concluye el proceso de instalación, esperamos unos minutos y tendremos listo nuestro programa.
El IDE de RStudio es una herramienta potentísima que facilita el aprendizeje del usuario e incrementa el nivel de eficiencia, gracias a la centralización de recursos que se describirán a lo largo del curso. Para su instalación vamos al siguiente enlace:
Seguimos la configuración por default para la ruta de instalación, salvo que se desee instalar en un directorio específico. Esto no se recomienda debido a que el programa intentará instalar dependencias a partir de la ruta que elijamos. Con ello procedemos a la instalación.
Antes de instalar las librerías nos vamos a Rstudio y buscamos el menu Tools > Global options > Packages y retiramos los vistos de las casillas: "Use secure download method for HTTP" y "Use Internet Explorer library/proxy for HTTP", al final la ventana debe verse de la siguiente manera:
Con esto nos aseguramos que podamos realizar la instalación de las librerías sin inconvenientes.
Ahora, estamos listos para instalar las librerías. En la consola de RStudio enviamos la siguiente sentencia:
install.packages(c("tidyverse","sparklyr","dbplot"))
Si tienes problemas con la instalación puedes escribir un correo al siguiente correo:
Alex Bajaña instructor de la transferencia de conocimeinto (alexvbr@ergostats.org)