Estandarización de datos en Darwin Core
Objetivo
Estructurar un conjunto de datos bajo el estándar Darwin Core (DwC), siguiendo sus vocabularios controlados y las buenas prácticas de documentación.
Sobre la actividad
Estructurar un conjunto de datos de prueba según el estándar DwC, usando la plantilla de publicación de registros biológicos del SiB Colombia. El conjunto de datos tiene problemas de completitud y formato, los cuales deben ser resueltos para que el conjunto se ajuste a las definiciones y contenga los elementos mínimos requeridos por el estándar.
Requisitos
- Para realizar este ejercicio, es necesario contar con un programa que procese archivos de texto. Por ejemplo, Excel.
Archivo de trabajo
- Descargue el archivo «Datos_Caso1_20reg.xlsx» para realizar el laboratorio.
- Descargue la última versión de la «plantilla de publicación» de registros biológicos.
Paso 1 - Caso de estudio
Lea detenidamente el caso de estudio, allí encontrará información relevante para completar el conjunto de datos a publicar.
(Tenga presente que este caso está basado en una historia ficticia y fue creado solo para propósitos educativos).
La «Universidad de Ciencias Naturales» (UCN) es reconocida en el país como una institución de referencia para la investigación sobre biodiversidad. El Departamento de Biología Animal mantiene el Museo de Historia Natural (Registro Nacional de Colecciones Biológicas: 123), en donde la Colección Zoológica se encuentra bien representada con cerca de 700 especímenes recolectados a lo largo del territorio nacional, desde mediados del siglo 20 hasta la fecha. En la actualidad, su cuidado se encuentra a cargo del profesor de Sistemática Animal, Juan Travolta, quien realiza tareas curatoriales, investigativas y de docencia. Además, otros profesores del departamento y algunos estudiantes colaboran ocasionalmente con la identificación de muestras y la toma de datos. El Coordinador del Departamento de Biología Animal, convencido de los beneficios y bondades que brinda la publicación de información a través del SiB Colombia, desea que se publiquen en línea los datos sobre aves de la colección ornitológica (MH-ORNIT), anfibios y reptiles de la colección de herpetología (MH-HERP) y algunos mamíferos (MH-MAM). Esto permitirá ampliar la visibilidad de las colecciones biológicas de la universidad y dar acceso abierto a dichos datos para que sean consultados o usados en diferentes campos de investigación, llegando incluso a ser utilizados por tomadores de decisiones a nivel regional o nacional.
Su misión, a lo largo de este laboratorio, consiste en estructurar los datos del museo con base los lineamientos del estándar Darwin Core (DwC).
Paso 2 - Identificar los elementos obligatorios
Ingrese a la plantilla de publicación, allí encontrará 4 pestañas:
- Instrucciones: contiene la guía de uso y los puntos a tener en cuenta antes de iniciar la documentación de los registros biológicos.
- Plantilla: contiene la tabla de los elementos DwC para documentar los registros biológicos.
- Definiciones: contiene las definiciones para cada uno de los elementos del estándar DwC, recomendaciones de documentación y ejemplos.
- Vocabulario: contiene los vocabularios controlados para algunos de los elementos DwC.
En la pestaña de instrucciones, encontrará adicionalmente una sección titulada «Elementos obligatorios según el origen de los datos» (Fig. 1). De acuerdo a la lectura del caso de estudio, identifique cuáles son los elementos obligatorios para el ejercicio.
Figura 1. Instrucciones de la plantilla DwC. Elementos obligatorios según el origen de los datos.
Paso 3 - Crear los elementos obligatorios
Abra el archivo de trabajo «Datos_Caso1_20reg.xlsx» y cree los elementos obligatorios faltantes a partir de la información del caso de estudio y los mismos datos.
Pista: Debe crear un identificador único del registro biológico (occurrenceID) a partir del código de la institución (institutionCode), código de la colección (collectionCode) y número de catálogo (catalogNumber). Revise la definición del elemento occurrenceID en la plantilla para saber cómo construirlo.
Ejemplo de (occurrenceID): UCN:MH-ORNIT:46-2300MI2008AV0954.
Paso 4 - Mapeo de los datos
Una vez que haya creado los elementos obligatorios, revise detenidamente el nombre y contenido de cada columna del archivo «Datos_Caso1_20reg.xlsx» e identifique a cuál elemento DwC de la plantilla de publicación corresponde. Este proceso recibe el nombre de mapeo de datos. Cuando identifique el elemento correspondiente, copie y pegue el contenido de esa columna en la plantilla, como se muestra en la siguiente imagen (Fig. 2):
Figura 2. Mapeo de datos en la plantilla DwC.
Paso 5 - Ajustar los datos
Una vez que haya trasladado todos los datos del archivo «Datos_Caso1_20reg.xlsx» a la plantilla de publicación, ajuste las columnas de acuerdo a las definiciones y vocabularios controlados del estándar Darwin Core para cada elemento mapeado (Fig. 3).
Figura 3. Estructura de la plantilla de publicación.
Paso 6 - Eliminar los elementos vacíos
Elimine en la plantilla de registros biológicos los elementos DwC que quedaron vacíos. Recuerde que para la publicación solo debe mantener los elementos que hayan sido documentados.
Al finalizar, su plantilla debe verse similar a la siguiente imagen (Fig. 4):
Figura 4. Resultado final del mapeo de datos y la eliminación de elementos vacíos.
Paso 7 - Verificación del resultado
Descargue y compare el siguiente archivo, estandarizado según las definiciones del Darwin Core, con el archivo que trabajó en el laboratorio e identifique aciertos y posibilidades de mejora. ¿Logró completar más información del conjunto de datos en la plantilla?
Paso 8 - Datos propios
Si tiene datos propios que desee publicar, estandarícelos siguiendo los pasos de esta guía. Recuerde usar la plantilla de acuerdo al tipo y origen de los datos.
¡Felicitaciones! Su conjunto de datos ha sido estandarizado según el Darwin Core.
Atribución y uso de los laboratorios
La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente.
¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!
Citación sugerida
Plata C., Ortíz R., Marentes E. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://sib-colombia.github.io/Formacion/