Conversión Fechas
Objetivo
Realizar la transformación y estandarización de fechas en distintos formatos, al formato ISO 8601 (AAAA-MM-DD), de manera automática y masiva.
Sobre la herramienta
La herramienta Date parsing, desarrollada por Canadensys (nodo GBIF Canadá), permite transformar y estandarizar fechas de forma masiva, de acuerdo al estándar ISO 8601: AAAA-MM-DD, requerido para la documentación de fechas en el estándar Darwin Core.
Enlace
Date parsing -Canadensys http://data.canadensys.net/tools/dates
Requerimientos
- Para realizar este ejercicio debe contar con un procesador de archivos de texto como Excel.
Archivo de trabajo
Descargue el archivo datos_canadensys.xlsx
para realizar el laboratorio.
Paso 1 - Ingreso
Ingrese a la aplicación en línea Date parsing. Revise cuidadosamente las opciones disponibles para ingresar las fechas.
Las fechas pueden estar escritas en múltiples formatos siempre y cuando no haya ambiguedades, por ejemplo, que el año sea imposible de distinguir del mes y el día. Opcionalmente las fechas pueden cargarse a la herramienta incluyendo el identificador del reegistro seguido por una tabulación o una barra vertical, como se muestra en los siguientes ejemplos.
Ejemplos de valores de entrada:
- Jun 13, 2008
- 15 Jan 2011
- 2009 IV 02
- VII 1986
-
1 1999/02/24 (Incluyendo un identificador del registro) -
2 02/17/1921 (Incluyendo un identificador del registro)
Paso 2 - Carga de las fechas
Abra en Excel el archivo datos_canadensys.xlsx
y busque la información temporal, encontrará la columna verbatimEventDate
(fecha en el formato original en el cual fue tomada) con fechas de colecta en formatos diferentes.
Seleccione la columna verbatimEventDate
que corresponde a la fecha del evento y cópiela sin el encabezado (Fig. 1).
Figura 1. Seleccion y copia de las fechas originales verbatimEventDate
.
En la aplicación Date parsing pegue los datos previamente copiados. Luego haga clic en Submit
para iniciar la conversión de fechas (Fig. 2).
Figura 2. Fechas originales en diversos formatos ingresadas en la herramienta.
Paso 3 - Resultados
Las fechas originales ingresadas apareceran en la columna original
(que corresponde al elmento verbatimEventDate
) junto con 4 nuevas columas: year
, month
, day
correspondintes al estándar DwC y una columna denominada ISO 8601
, que es el resultado de la estandarización y corresponderá al elemento DwC eventDate
(Fig. 3).
Figura 3. Resultado de la transformación de las fechas al formato ISO 8601 con Date Parsing de Candensys.
Cuando las fechas son ambiguas la herramienta no puede reconocer el formato de la fecha y muesta la fila de la fecha en rojo (Fig. 4).
Esto ocurre cuando no es posible identificar los componentes (año, mes, día) con claridad por ejemplo con la fecha 02/05/07 ¿El año es 2002 o 2007?. Si se presenta este tipo de ambiguedad, es necesario hacer una corrección manual basado en el contexto de los datos.
También se pueden generar inconvenientes cuando hay combinaciones de texto y número (e.g. Abr-2009) ya que el idioma original de la herramienta es el inglés y puede que no reconozca algunos meses en español.
Figura 4. Ejemplo de fechas ambiguas donde la herramienta no reconoce el formato y no puede hacer la transformación (En rojo).
Paso 4 - Incorporar resultados en tabla DwC.
4.1. Preparar el archivo para incorporar los resultados
En el archivo de Excel datos_canadensys.xlsx
, agregue 5 columnas a la izquierda de la columna con las fechas originales. Para esto haga clic en el encabezado de la columna verbatimEventDate
> clic derecho > Insertar. Repita este paso 4 veces más (Fig. 5).
Figura 5. Proceso para insertar nuevas columnas en Excel.
Configure las columnas que creo en el documento de Excel en formato texto (Fig. 6)
Figura 6. Configuración del formato de las columnas a tipo texto.
4.2. Copiar resultados
En la herramienta Date Parsisng seleccione y copie toda la tabla con el resultado de la conversión incluyendo el encabezado. Para el copiado pude ayudarse del mouse de su equipo, desplazandose desde el inicio hasta el final de la tabla manteniendo el clic izquierdo obturado. (Fig. 7).
Figura 7. Selección y copia de los resultados.
4.3. Pegar resultados
Pegue la tabla copiada en el archivo Excel siguiendo estos pasos:
- Ubíquese sobre las celdas insertadas en el paso 5 (Fig. 8A).
- Haga clic en
Inicio
en el menú superior y seleccionePegar
>Pegado especial
(Fig. 8B). - En el menú de
Pegado Especial
seleccioneTexto
y luegoAceptar
(Fig. 8C).
El pegado especial en formato texto es indispensable para que Excel no haga interpretaciones erróneas sobre las fechas ya estandarizadas. Si no se realiza, Excel revertirá las fechas a otro formato y usted perdera su trabajo
Figura 8. Pasos para insertar las fechas copiadas con formato texto. A. Ubicarse en el sitio donde pegará los resultados; B. Selección de opciones de pegado especial; C. Selección de texto como opción de pegado especial.
El pegado especial en formato texto es indispensable para que Excel no haga interpretaciones erróneas sobre las fechas ya estandarizadas, si no se realiza Excel revertirá las fechas a otro formato y usted perdera su trabajo
Verá las columnas incorporadas en el Excel (Fig. 9). Sin embargo note que la columna con la fecha del evento original se ha duplicado.
Figura 9. Resultados de las fechas en la hoja de Excel.
Para finalizar la estandarización debe renombrar y eliminar algunas columnas.
- Eliminar la columna
original
- Renombrar la columna
ISO 8601
, poreventDate
Recuerde que puede aplicar este procedimiento a todos los elementos asociados a fechas en el estándar DwC como
dateIdentified
(Fecha de identificación),georeferencedDate
(Fecha de georreferenciación), etc.
Paso 5 - Verificación del resultado
Compare sus resultados con el siguiente archivo validado según las definiciones del estándar, verifique en que acertó y que puede mejorar.
¿Qué diferencias encontró con sus resultados?
Paso 6 - Datos propios
Si tiene datos propios que desee publicar, intente convertir las fechas al formato ISO 8601 siguiendo los pasos de este laboratorio.
¡Felicitaciones! Terminó la conversión de las fechas del conjunto de datos a el estándar ISO 8601.
Atribución y uso de los laboratorios
La licencia CC-BY te permite usar, redistribuir y construir sobre estos contenidos libremente. Queremos que compartas estos laboratorios y que juntos logremos datos sobre biodiversidad de mejor calidad.
Citación sugerida
Plata C., Ortíz R., Marentes E. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://sib-colombia.github.io/Formacion/