proyecto:propuesta_inicial
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
proyecto:propuesta_inicial [2023/04/28 23:31] – [Aviso de Uso de Datos] ahogan | proyecto:propuesta_inicial [2024/04/25 21:23] (current) – ahogan | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ======Propuesta de Proyecto====== | + | ======Propuesta de Datos/Proyecto====== |
Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: | Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: | ||
* El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | ||
* **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | * **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | ||
- | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, | + | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, |
+ | * Muchas veces los archivos crudos no van a corresponder uno-a-uno a tablas normalizadas. | ||
* Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | ||
* Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. | * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. | ||
+ | * No se pueden usar datos ya usados en el contexto de un lab, ni datos muy similares. | ||
La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | ||
Line 21: | Line 23: | ||
=====Propuesta de Datos===== | =====Propuesta de Datos===== | ||
- | Cada grupo debe indicar en el hilo del foro habilitado para este propósito, cuál conjunto de datos desean ocupar. Esto es para que cada grupo trabaje en un conjunto de datos distinto. Hay que publicar el número del grupo, un URL (o una descripción de los datos de ser datos privados), y el título del dataset (para facilitar detectar duplicados). | + | Cada grupo debe indicar |
- | =====Entrega===== | + | =====Propuesta de Proyecto===== |
Enviar propuesta de proyecto (en PDF) que debe contener: | Enviar propuesta de proyecto (en PDF) que debe contener: | ||
Line 36: | Line 38: | ||
* Distribución/ | * Distribución/ | ||
* Dominio para cada atributo (string, int, etc.); indicar si la columna puede tener múltiples valores; indicar porcentaje de nulos | * Dominio para cada atributo (string, int, etc.); indicar si la columna puede tener múltiples valores; indicar porcentaje de nulos | ||
- | * Para el caso de elegir análisis | + | * Para el caso de elegir análisis |
- | * Para el caso de elegir la aplicación web, describir las funcionalidades posibles de la aplicación | + | * Para el caso de elegir la aplicación web, describir las funcionalidades posibles de la aplicación. La aplicación debería permitirle al usuario contestar 3 tipos de consultas con parámetros, |
Esta propuesta puede ser **aprobada**, | Esta propuesta puede ser **aprobada**, | ||
proyecto/propuesta_inicial.1682724678.txt.gz · Last modified: 2023/04/28 23:31 by ahogan