proyecto:propuesta_inicial
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
proyecto:propuesta_inicial [2023/04/27 23:03] – ahogan | proyecto:propuesta_inicial [2024/04/25 21:23] (current) – ahogan | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ======Propuesta de Proyecto====== | + | ======Propuesta de Datos/Proyecto====== |
- | Deben seleccionar algunos datos para su proyecto. Algunas consideraciones: | + | Primero, cada equipo debe seleccionar algunos datos para su proyecto. Algunas consideraciones: |
* El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | * El proyecto será más fácil si los datos ya están en un formato de tablas (como, p.ej., CSV, TSV, etc.). | ||
* **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | * **El esquema final debería tener al menos tres tablas y un buen diseño relacional** (p.ej., estar en BCNF) independientemente del formato de los datos crudos. Está bien si los datos crudos tienen menos de tres tablas si, a normalizar los datos, resulta en tres tablas apropiadas. | ||
- | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, | + | * Las consultas finales de la aplicación deberían demostrar una mezcla de operadores de SQL, es decir, joins, consultas anidadas, agregación, |
+ | * Muchas veces los archivos crudos no van a corresponder uno-a-uno a tablas normalizadas. | ||
* Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | * Los datos deben tener una escala razonable, es decir, al menos 10000 tuplas en total (sumando el número de tuplas de cada tabla) pero preferiblemente más. | ||
* Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. | * Por otro lado, sería una buena idea trabajar con menos de un millón de tuplas para evitar problemas de escala que pueden retrasar el proyecto. Cada máquina virtual tiene aprox. 2.7GB de espacio libre en el disco, y aprox. 350MB de RAM total; estos recursos son más que suficientes para un conjunto de datos pequeño, pero no para un conjunto de datos grande (p.ej., más de un millón de tuplas). En el caso de tener un conjunto grande, se puede considerar trabajar con un sub-conjunto de los datos. | ||
+ | * No se pueden usar datos ya usados en el contexto de un lab, ni datos muy similares. | ||
La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | La selección de datos es parte del proyecto, es decir que cada grupo debería encontrar sus propios datos. La siguiente lista da algunos ejemplos de fuentes de datos: | ||
Line 19: | Line 21: | ||
No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se pueden seleccionar algunas tablas, columnas, filas, etc. También se pueden seleccionar datos de otra fuente no listada aquí, o datos personales (por ejemplo, datos de ventas, datos de sensores, etc.). Se pueden combinar dos o más fuentes, siempre y cuando las tablas satisfagan los criterios mencionados acá. | No todos los conjuntos de datos mencionados en estas fuentes son apropiados para el proyecto con respecto a las consideraciones previamente discutidas; p.ej., hay conjuntos de datos que no tienen un formato apropiado, etc. No hay que usar todos los datos disponibles en un conjunto de datos; se pueden seleccionar algunas tablas, columnas, filas, etc. También se pueden seleccionar datos de otra fuente no listada aquí, o datos personales (por ejemplo, datos de ventas, datos de sensores, etc.). Se pueden combinar dos o más fuentes, siempre y cuando las tablas satisfagan los criterios mencionados acá. | ||
- | =====Entrega===== | + | =====Propuesta de Datos===== |
+ | |||
+ | Cada grupo debe indicar (en el hilo del foro habilitado para este propósito) cuál conjunto de datos desean ocupar. Esto es para que cada grupo trabaje en un conjunto de datos distinto. Hay que publicar el número del grupo, un URL (o una descripción de los datos de ser datos privados), y el título del dataset (para facilitar detectar duplicados). | ||
+ | |||
+ | =====Propuesta de Proyecto===== | ||
Enviar propuesta de proyecto (en PDF) que debe contener: | Enviar propuesta de proyecto (en PDF) que debe contener: | ||
Line 27: | Line 33: | ||
* Descripción del conjunto de datos (con enlace, de estar disponible; indicar qué datos se utilizarán) | * Descripción del conjunto de datos (con enlace, de estar disponible; indicar qué datos se utilizarán) | ||
* Descripción y motivación del problema | * Descripción y motivación del problema | ||
- | * Opción elegida entre aplicación web o reporte de análisis | + | * Opción elegida entre aplicación web o reporte de análisis |
* Exploración inicial de los datos: | * Exploración inicial de los datos: | ||
* Cantidad de filas por tabla | * Cantidad de filas por tabla | ||
* Distribución/ | * Distribución/ | ||
* Dominio para cada atributo (string, int, etc.); indicar si la columna puede tener múltiples valores; indicar porcentaje de nulos | * Dominio para cada atributo (string, int, etc.); indicar si la columna puede tener múltiples valores; indicar porcentaje de nulos | ||
- | * Para el caso de elegir análisis | + | * Para el caso de elegir análisis |
- | * Para el caso de elegir la aplicación web, describir las funcionalidades posibles de la aplicación | + | * Para el caso de elegir la aplicación web, describir las funcionalidades posibles de la aplicación. La aplicación debería permitirle al usuario contestar 3 tipos de consultas con parámetros, |
Esta propuesta puede ser **aprobada**, | Esta propuesta puede ser **aprobada**, | ||
proyecto/propuesta_inicial.1682636589.txt.gz · Last modified: 2023/04/27 23:03 by ahogan