Introducción

Bienvenidos al espacio de transferencia de conocimientos Análisis de grandes volumenes de información (Big Data) con Spark y R. Durante 120 minutos revisaremos la herramienta Spark para el análisis de grandes volúmenes de información considerando dos alternativas de procesamiento: local y cluster. Estas nos permiten optimizar nuestros recursos computacionales al momento realizar nuestros análisis y modelos con este tipo de datos desde el entorno de programación R. Hoy en día, la cantidad de información disponible para el análisis representa un desafio para las instituciones que buscan nutrirse de los hallazgos que se puedan generar en los datos. Esta transferencia de conocimientos busca ser una introducción práctica al uso de Spark y R para afrontar este desafio.
A continuación te dejamos un enlace de recursos que el Centro de Investigación Estadística ERGOSTATS pone a disposición del público:

Recursos y materiales ERGOSTATS

Para aprovechar al máximo la transferencia de conocimientos, se requiere de los siquientes requisitos específicos:

  • RStudio (Versión actualizada).
  • Version R (Superior a la 4.2.0).
  • Memoria RAM (Superior a los 8GB).

En caso de necesitar asistencia comunícate con nuestro equipo con anticipación para asistirte con la conexión por medio de RStudio cloud.

Instalación de R-Base

Iniciamos con la instalación de R básico, esta instalación basta para nuestros propósitos. Sin embargo, hoy en día tenemos a disposición el maravilloso IDE (integrated development environment) de RStudio que nos ayuda a que la curva de aprendizaje sea más ligera para los estudiantes.

Para instalar R- Base es necesario saber si nuestro computador es de 32 o 64 bits. Una vez resuelta esta duda, procederemos a hacer clic en el siguiente enlace:

Instalador de R desde CRAN

Este nos dará la descarga de un archivo .exe. Una vez descargado, empezamos la instalación:

  • Elegimos el lenguaje de preferencia.
  • Aceptamos los términos y condiciones.
  • Escogimos la ruta en la que se guardará el programa.
  • Definimos qué componentes deben ser instalados (se recomienda dejar todas las opciones activas).
  • Aceptamos todas estas configuraciones
  • Elegimos el tipo de display (se recomienda la establecida por default)
  • Seleccionamos ayuda HTML para los textos auxiliares
  • Definimos una ruta para las librerías. Si se desea una carpeta en el menú de Inicio, se recomienda dejar las opciones por default
  • Algunas alternativas adicionales como son la creación de una acceso rápido y la posibilidad de guardar un registro de varias versiones de R (en esta última se sugiere mantener un historial por motivos de reproducibilidad)

Con eso, concluye el proceso de instalación, esperamos unos minutos y tendremos listo nuestro programa.

Instalación de RStudio

El IDE de RStudio es una herramienta potentísima que facilita el aprendizeje del usuario e incrementa el nivel de eficiencia, gracias a la centralización de recursos que se describirán a lo largo del curso. Para su instalación vamos al siguiente enlace:

Instalador de RStudio

Seguimos la configuración por default para la ruta de instalación, salvo que se desee instalar en un directorio específico. Esto no se recomienda debido a que el programa intentará instalar dependencias a partir de la ruta que elijamos. Con ello procedemos a la instalación.

Instalación de librerias de R

Antes de instalar las librerías nos vamos a Rstudio y buscamos el menu Tools > Global options > Packages y retiramos los vistos de las casillas: "Use secure download method for HTTP" y "Use Internet Explorer library/proxy for HTTP", al final la ventana debe verse de la siguiente manera:

Menu de paquetes en RStudio

Con esto nos aseguramos que podamos realizar la instalación de las librerías sin inconvenientes.

Ahora, estamos listos para instalar las librerías. En la consola de RStudio enviamos la siguiente sentencia:

install.packages(c("tidyverse","sparklyr","dbplot"))

Preguntas y comentarios

Si tienes problemas con la instalación puedes escribir un correo al siguiente correo:

  • Alex Bajaña instructor de la transferencia de conocimeinto (alexvbr@ergostats.org)