proyecto:propuesta_inicial
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
proyecto:propuesta_inicial [2023/04/28 23:42] – [Propuesta de Proyecto] ahogan | proyecto:propuesta_inicial [2024/04/25 21:23] (current) – ahogan | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ======Propuesta de Proyecto====== | + | ======Propuesta de Datos/Proyecto====== |
Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: | Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: | ||
* El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | ||
* **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | * **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | ||
- | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, | + | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, |
+ | * Muchas veces los archivos crudos no van a corresponder uno-a-uno a tablas normalizadas. | ||
* Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | ||
* Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. | * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. |
proyecto/propuesta_inicial.1682725323.txt.gz · Last modified: 2023/04/28 23:42 by ahogan