User Tools

Site Tools


proyecto:propuesta_inicial

This is an old revision of the document!


Propuesta de Proyecto

Deben seleccionar algunos datos para su proyecto. Algunas consideraciones:

  • El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.)
  • El esquema final debería tener al menos tres tablas y un buen diseño relacional (p.ej., estar en BCNF)
  • Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, funciones de ventana, etc. Los datos que ustedes elijan deben tener la “complejidad” suficiente para permitir consultas interesantes y no triviales.
  • Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más.
  • Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 3GB de espacio libre en el disco, y aprox. 450MB de memoria total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos.

La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos:

No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se puede usar una muestra interesante. También se pueden seleccionar datos de otra fuente no listada aquí, o datos personales (por ejemplo, datos de ventas, datos de sensores, etc.).

Entrega

Enviar propuesta de proyecto (en PDF) que debe contener:

  • Título del Proyecto
  • Integrantes
  • Descripción del Dataset
  • Descripción y motivación del Problema
  • Opción elegida entre Aplicación Web o Reporte de Análisis Estadístico
  • Exploración inicial de los datos:
    • Cantidad de filas por tabla
    • Distribución/valores típicos de atributos relevantes
  • Para el caso de elegir Análisis Estadístico, agregar las hipotesis a confirmar con el análisis

Esta propuesta puede ser aprobada, aprobada con cambios menores, o rechazada. En caso de ser rechazada, se deberá reformular el proyecto, tomando en cuenta los comentarios asociados de quien revise la propuesta.

proyecto/propuesta_inicial.1682635215.txt.gz · Last modified: 2023/04/27 22:40 by ahogan