Tecnologías de Almacenamiento de Datos

Profesor/a: FERNANDO ALONSO PASTOR

Teléfono: 983 00 10 00

Última versión revisada de la guía docente, debidamente informada por parte del profesor en la asignatura.

Durante el desarrollo de la asignatura de TECNOLOGÍAS PARA EL ALMACENAMIENTO DE DATOS, realizaremos un recorrido por algunas de las herramientas que se sitúan en en el ecosistema Big Data.
Comenzaremos con una introducción al mundo del Big Data, su definición y alguna de las aplicaciones que este famoso término tiene el mundo real. Big Data es un término en auge, pero también es un término ‘virgen’, del cual aún es difícil dar una definición clara y acotar a que llamamos con este nombre. Estudiaremos cuales son las claves y los conceptos básicos en los que se basa el Big Data para funcionar.
Cuando se almacenan grandes volúmenes de datos de forma distribuida los esquemas más trabajados hasta el momento, conocidos como esquemas relacionales, dejan de ser útiles por la dispersión de los datos, la ausencia de información estructurada, la dificultad en representar las complejas interrelaciones que existen entre los datos, el tiempo de respuesta requerido o una conjunción de estos factores. Es por este motivo que surgen nuevos paradigmas fuera de las convenciones actuales, a los que se conoce como bases de datos NoSQL.
Esta asignatura nos permite poner los pilares en el tratamiento de Big Data, ya que permite disponer de mecanismos para representar los datos no estructurados, grabarlos, consultarlos, modificarlos y eliminarlos de acuerdo a necesidades específicas de dominios donde se gestiona mucha información y se deben tomar decisiones en base a la misma.
El objetivo fundamental de este módulo es alcanzar una visión global de qué se entiende por una base de datos NoSQL, proporcionando al estudiante una visión de los múltiples conceptos, modelos y herramientas que se pueden agrupar bajo esta denominación.
El alumno no es necesario que tenga conocimientos previos acerca del mundo de Big Data, aunque sí es recomendable tener conocimientos acerca de los lenguajes de programación sql y scala. Por último, sería también recomendable tener ciertos conocimientos sobre comandos Linux.

.


  1. Introducción a las tecnologías de almacenamiento de datos.:
    1. Introducción a las tecnologías de almacenamiento de datos.:
  2. Modelos de agregación: Bases de datos documentales:
    1. MongoDB:
  3. Modelos de agregación: Bases de datos por columnas::
    1. Apache Cassandra:
  4. Almacenamiento y procesamiento distribuido:
    1. Apache Hadoop:
  5. Procesamiento Distribuido: Apache Spark:
    1. Apache Spark: Fundamentos:
    2. Apache Spark: Spark Streaming:

Los recursos de aprendizaje que se utilizarán en todas las asignaturas de la titulación (salvo las prácticas externas) para facilitar el proceso de enseñanza-aprendizaje, son:

  • Campus online de la UEMC (Open Campus)
  • Plataforma de Webconference (Adobe Connect)

Las comunicaciones con el profesor serán a través de Open Campus vía Mi correo, Tablón o/y Foro.

CB10. Que los estudiantes posean las habilidades de aprendizaje que les permitan continuar estudiando de un modo que habrá de ser en gran medida autodirigido o autónomo
CB6. Poseer y comprender conocimientos que aporten una base u oportunidad de ser originales en el desarrollo y/o aplicación de ideas, a menudo en un contexto de investigación
CB7. Que los estudiantes sepan aplicar los conocimientos adquiridos y su capacidad de resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) relacionados con su área de estudio
CB8. Que los estudiantes sean capaces de integrar conocimientos y enfrentarse a la complejidad de formular juicios a partir de una información que, siendo incompleta o limitada, incluya reflexiones sobre las responsabilidades sociales y éticas vinculadas a la aplicación de sus conocimientos y juicios
CB9. Que los estudiantes sepan comunicar sus conclusiones -y los conocimientos y razones últimas que las sustentan- a públicos especializados y no especializados de un modo claro y sin ambigüedades
El alumno será capaz de:
  1. El alumno será capaz de utilizar las técnicas y herramientas básicas para almacenar y extraer información estructurada en bases de datos relacionales

  2. El alumno será capaz de reconocer los servicios que conforman la arquitectura de una plataforma de grandes volúmenes de datos

  • Rafael Caballero, Enrique Martín (2015), Las bases del Big Data, Catarata
  • Boris Lublinsky , Kevin T. Smith, Alexey Yakubovich (2014), Hadoop. Soluciones Big Data, Anaya
  • Bill Chambers, Matei Zaharia (2018), Spark: The Definitive Guide: Big Data Processing Made Simple, O'Reilly Media

Método dialéctico

Se caracteriza por la participación de los alumnos en las actividades de evaluación continua de debate y la intervención de éstos a través del diálogo y de la discusión crítica (seminarios, grupos de trabajo, etc.). Utilizando este método el alumno adquiere conocimiento mediante la confrontación de opiniones y puntos de vista. El papel del profesor consiste en proponer a través de Open Campus temas referidos a la materia objeto de estudio que son sometidos a debate para, posteriormente, evaluar el grado de comprensión que han alcanzado los alumnos.

Método didáctico

El papel del profesor cobra importancia a través de la impartición de clases magistrales en tiempo real por videoconferencia que podrá utilizar para explicar los contenidos teóricos, resolver dudas que se planteen durante la sesión, ofrecer retroalimentación sobre las actividades de evaluación continua o realizar sesiones de tutoría de carácter grupal.

Método heurístico

Este método puede desarrollarse de forma individual o en grupo a través de las actividades de evaluación continua (entregas de trabajos, resolución de ejercicios, presentaciones, etc.). El objetivo es que el alumno asuma un papel activo en el proceso de aprendizaje adquiriendo los conocimientos mediante la experimentación y la resolución de problemas.

Las actividades formativas que se realizan en la asignatura son las siguientes:

Clases teóricas: Actividad dirigida por el profesor que se desarrollará de forma sincrónica en grupo. Para la realización de esta actividad en Open Campus, la UEMC dispone de herramientas de Webconference que permiten una comunicación unidireccional en las que el docente puede desarrollar sesiones en tiempo real con posibilidad de ser grabadas para ser emitidas en diferido.

Actividades prácticas: Actividades supervisadas por el profesor que se desarrollarán fundamentalmente de forma asíncrona, y de forma individual o en grupo:

    • Actividades de debate. Se trata de actividades en las que se genera conocimiento mediante la participación de los estudiantes en discusiones alrededor de temas de interés en las distintas asignaturas.
    • Entregas de trabajos individuales o en grupos a partir de un enunciado o unas pautas de trabajo que establecerá el profesor.
    • Resolución de ejercicios y problemas que el alumno debe realizar a través de Open Campus en un periodo de tiempo determinado. Esta actividad puede ser en formato test de evaluación.

Tutorías: Las tutorías podrán tener un carácter sincrónico o asíncrono y podrán desarrollarse de manera individual o en grupos reducidos.

Están previstas dos sesiones de tutoría por videoconferencia, una al inicio y otra al final del semestre. En la primera se presentará la asignatura y la guía docente y en la segunda, en las semanas previas a la evaluación final, se dedicará a la resolución de dudas de los estudiantes.

Además, el docente utiliza el Tablón, el Foro y el Sistema de correo interno de Open Campus para atender las necesidades y dudas académicas de los estudiantes.


CV Docente

Ingeniero Informático por la Universidad de Valladolid.

Máster en Ingeniería Informática con especialización en Inteligencia Artificial por la Universidad Politécnica de Madrid.

  • [2022 -  Actualidad] Profesor de la asignatura Tecnología de Almacenamiento de datos en el Máster Universitario de Big Data en la Universidad Europea Miguel de Cervantes.
  • [2022 - Actualidad] Tutor de TFM en el Máster Universitario de Big Data en la Universidad Europea Miguel de Cervantes


CV Profesional

[2023 - Actualidad] Senior Data Scientist/Data Engineer en TomTom

[2019 - 2023] Data Scientist en Accenture, desde Septiembre 2019

[2019 - 2019]  R&D Software Engineer  en HP SCDS, 2019


CV Investigación

[2022 - 2023]  Investigador colaborador en el Grupo de investigación en Información y Computación Cuántica (GIICC) en la Universidad Politécnica de Madrid

[2018 - 2019] Investigador en  grupo Trasgo (MoBiVAP) en Universidad de Valladolid, 2018-2019.

Créditos totales: 6
Tipo: Obligatorio
Período: 1º Semestre