1 – Introducción a Data Science y programación básica (10hrs )
Python Básico
Aprenderás los fundamentos básicos de Python para utilizarlo como herramienta:
- Introducción a Python
- Condicionales y bucles
- Anaconda y Spyder, entorno de desarrollo.
- Tipos de variables en Python
- Listas en Python
Introducción a R y RStudio
Introducción a R como lenguaje para el análisis estadístico y R Studio como entorno de desarrollo integrado.
- Introducción a R y RStudio
- Introducción a tipos de variables en R
- Condicionales y bucles
2 – Fundamentos matemáticos (16 hrs)
En este módulo aprenderás los conceptos de matemáticas y programación necesarios para que el curso dé comienzo con un nivel homogeneizado entre todos los estudiantes, que nos servirá para asegurar que el programa pueda cumplirse en su totalidad y de manera satisfactoria.
- Repaso de los conceptos matemáticos básicos:
○ Álgebra
○ Cálculo
○ Fundamentos de estadística e inferencia estadística
○ Distribución de la probabilidad
- Gradient descent y su relación con el machine learning. Problemas de optimización
3 – Programación avanzada (40 h)
Aprenderás a utilizar entornos de trabajo de analítica de datos y lenguajes de data science como R y Python para realizar tareas de visualización y de análisis de datos. Para ello, practicarás las diferentes técnicas aplicadas de aprendizaje automático .
Python Avanzado
Aprenderemos los fundamentos del lenguaje de programación más popular y con más amplia implementación, explorando librerías específicas en el ámbito de procesamiento de datos.
- Tipos de objetos en Python
- Diccionarios y tuplas en Python
- Librerías y módulos en Python (numpy)
- Lectura y escritura de archivos en Python
- Funciones en Python
- Clases en Python
- Dataframes en Python (pandas)
- Visualización datos (seaborn, matplotlib)
R y RStudio avanzado
- Iterables y funciones en R
- Herramienta para el tratamiento de los conjuntos de datos
- Visualización de datos ggplot2
04 – Big Data Systems (40 hrs)
Comprenderemos las diferentes tecnologías de almacenamiento, desde las tecnologías de data warehousing y las bases de datos no relacionales a través de entornos como Hadoop, mapReduce y Spark.
MySQL
Aprenderemos la diferencia entre los modelos relacionales y no relacionales en el ámbito de las bases de datos, así como el entorno de gestión de MySQL por excelencia.
- Workbench
- Operadores Use, Create, Insert, Select en MySQL
- Cláusula Where en MySQL
- Group by e InnerJoin en MySql
- Acceder a MySql desde Python
MongoDB
Trataremos Mongo DB, .
- MongoDB desde terminal
- Bases de datos e identificadores en MongoDB
- Colecciones en MongoDB
- Documentación en MongoDB
5 – Data Mining (36 hrs)
Comprenderás la utilidad de las tecnologías de procesamiento de flujos de datos y aprenderás a recabar información interna y externa para transformarla y aplicarla como soporte a tareas analíticas.
API Twitter
Aprenderás a trabajar con la API de Twitter desde Python.
- Trabajar con la cuenta de desarrollador
- Librería Tweepy
- Uso de API Search desde Python
Scraping
Explorarás la sintaxis de la estructura HTML para poder extraer información de las páginas web de una manera automatizada.
- Introducción a la estructura HTML
- Herramienta “inspeccionar” del navegador
- Uso de la librería request desde Python
- Selección y extracción de datos con BeautifulSoup
Text Mining
Analizaremos el lenguaje humano y aprenderemos a deconstruirlo y clasificarlo para obtener información útil.
- Procesamiento de lenguaje natural (NLP)
- Análisis de sentimiento
- Análisis de topics
6 – Machine Learning/Deep Learning (40 hrs)
Regresión Lineal y Polinomial
Aprenderás a ajustar un modelo lineal (o polinomial) a los datos mediante la estimación de coeficientes con el fin de predecir valores de respuesta.
- Introducción al problema de regresión
- Regresión mediante el modelo lineal
- Métricas para el problema de regresión
- Estimación por Máxima Verosimilitud y por Mínimos Cuadrados Ordinarios
- Interpretación de coeficientes estimados
- Regresión polinomial considerando interacciones de orden superior
- Validación de modelos mediante visualizaciones.
Regresión Logística
Aplicarás la función logística para construir un algoritmo capaz de catalogar información.
- Introducción al problema de clasificación
- Interconexión de modelo probabilístico y regresión lineal
- Algoritmo de clasificación de Regresión Logística
- Métricas para el problema de clasificación
- Interpretación de coeficientes estimados
- Validación de modelos mediante visualizaciones.
SVD (Singular value decomposition) y PCA (Principal components analysis) Aprenderás a reducir la dimensión de grandes matrices y el abanico de posibilidades que esto nos ofrece.
- Extracción de información
- Reducción de dimensiones
- Casos de uso reales y sistemas de recomendación
- Biplot. Visualización de los datos sobre los componentes principales
K-NN
Implementarás el método K-NN, lo compararemos con la regresión lineal y lo usaremos para entender el overfitting.
- Definición de vecindario
- Overfitting
- Bias-Variance trade off
K- Means y hyerarchical clustering
Implementarás los métodos K-Means y Hyerarchical clustering utilizados a la hora de agrupar información..
- Clasificación de objetos no supervisados
- Clustering y segmentación
- Definición de distancias
Support Vector Machine
Usarás el método SVM para problemas de clasificación.
- Introducción a la geometría euclidiana
- Rectas, planos e hiperplanos
- Clasificador SVM
- Introducción a los kernels
Árboles
Usarás distintos métodos basados en árboles de decisión para problemas de clasificación y regresión.
- Introducción a árboles de decisión
- Bagged trees
- Random Forest
- Gradient boosting
Clasificador bayesiano
Aprenderás qué es un clasificador bayesiano (fundamentado en el teorema de Bayes) y algunas de sus aplicaciones prácticas.
- Introducción a la probabilidad condicional
- Clasificador Naïve Bayes utilizando Python
Deep Learning: redes neuronales
Verás una introducción al término Deep Learning y explorarás el concepto de redes neuronales, así como su implementación y fundamentos. Entrarás en contacto con tecnologías, cómo TensorFlow , Keras.
- Perceptrón
- Perceptrón multicapa: introducción a redes neuronales
- Redes neuronales recurrentes
- Redes neuronales convolucionales
7 – Proyecto final 18 (hrs)
Durante las dos últimas semanas de bootcamp, deberás preparar un proyecto final que formará parte de tu portfolio, que se sumará a todos los proyectos intermedios realizados durante las semanas previas. En todo momento contarás con el asesoramiento técnico del formador y, una vez finalizado, deberás realizar una presentación para la que recibirás asesoramiento profesional.
El proyecto se hará siguiendo estos pasos:
- Preparación modelo y objetivos
- Ingesta y despliegue infraestructura
- Preparación de los datos: manipulación y limpieza
- Estadística descriptiva, predictiva, prescriptiva
- Aplicación modelo machine learning y/o deep learning
- Evaluación modelo y visualización
- Presentación
Así que no esperes más! Únete a nuestro Bootcamp en Data Science y comienza tu viaje para convertirte en un desarrollador web experto.