proyecto:propuesta_inicial
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
proyecto:propuesta_inicial [2023/04/27 20:16] – sferrada | proyecto:propuesta_inicial [2024/04/25 21:23] (current) – ahogan | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ======Propuesta de Proyecto====== | + | ======Propuesta de Datos/Proyecto====== |
- | Deben seleccionar algunos datos para su proyecto. Algunas consideraciones: | + | Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: |
- | * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.) | + | * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). |
- | * El esquema final debería tener al menos tres tablas y un buen diseño relacional (p.ej., estar en BCNF) | + | |
- | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, | + | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, |
+ | * Muchas veces los archivos crudos no van a corresponder uno-a-uno a tablas normalizadas. No sirven, por ejemplo, tres tablas del mismo contenido dividido por alguna categoría (por ejemplo, año, género, etc.) pues en el esquema final estas tablas deberían ser juntadas en una tabla con una nueva columna para la categoría. | ||
* Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | ||
- | * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. | + | * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. |
+ | * No se pueden usar datos ya usados en el contexto de un lab, ni datos muy similares. | ||
La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | ||
Line 17: | Line 19: | ||
* https:// | * https:// | ||
- | No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se puede usar una muestra interesante. También se pueden seleccionar datos de otra fuente no listada aquí, o datos personales (por ejemplo, datos de ventas, datos de sensores, etc.). | + | No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se pueden seleccionar algunas tablas, columnas, filas, etc. También se pueden seleccionar datos de otra fuente no listada aquí, o datos personales (por ejemplo, datos de ventas, datos de sensores, etc.). Se pueden combinar dos o más fuentes, siempre y cuando las tablas satisfagan los criterios mencionados acá. |
- | =====Entrega===== | + | =====Propuesta de Datos===== |
+ | |||
+ | Cada grupo debe indicar (en el hilo del foro habilitado para este propósito) cuál conjunto de datos desean ocupar. Esto es para que cada grupo trabaje en un conjunto de datos distinto. Hay que publicar el número del grupo, un URL (o una descripción de los datos de ser datos privados), y el título del dataset (para facilitar detectar duplicados). | ||
+ | |||
+ | =====Propuesta de Proyecto===== | ||
Enviar propuesta de proyecto (en PDF) que debe contener: | Enviar propuesta de proyecto (en PDF) que debe contener: | ||
- | * Título del Proyecto | + | * Título del proyecto |
- | * Integrantes | + | * Número de grupo |
- | * Descripción del Dataset | + | * Nombres de integrantes |
- | * Descripción y motivación del Problema | + | * Descripción del conjunto de datos (con enlace, de estar disponible; indicar qué datos se utilizarán) |
- | * Opción elegida entre Aplicación Web o Reporte | + | * Descripción y motivación del problema |
+ | * Opción elegida entre aplicación web o reporte de análisis de datos. La idea del análisis debe ser responder algunas preguntas de investigación | ||
* Exploración inicial de los datos: | * Exploración inicial de los datos: | ||
- | *Cantidad de filas por tabla | + | * Cantidad de filas por tabla |
- | *Distribución/ | + | * Distribución/ |
- | * Para el caso de elegir | + | * Dominio para cada atributo (string, int, etc.); indicar si la columna puede tener múltiples valores; indicar porcentaje de nulos |
+ | * Para el caso de elegir | ||
+ | * Para el caso de elegir la aplicación web, describir las funcionalidades posibles de la aplicación. La aplicación debería permitirle al usuario contestar 3 tipos de consultas con parámetros, | ||
Esta propuesta puede ser **aprobada**, | Esta propuesta puede ser **aprobada**, | ||
proyecto/propuesta_inicial.1682626592.txt.gz · Last modified: 2023/04/27 20:16 by sferrada