#Aprender3C - Repositorio de datos primarios

Please download to get full document.

View again

All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
 7
 
 

Slides

  En el contexto de la "Semana Internacional de Acceso Abierto" desde #Aprender3C organizamos un webinar por día. La charla del 24 de octubre de 2014, estuvo a cargo del especialista argentino Emiliano Marmonti sobre "Repositorios de datos científicos"
Related documents
Share
Transcript
  • 1. Repositorios de datos científicos Expositor: Emiliano Marmonti emarmonti@gmail.com @emarmonti 24 de Octubre de 2014 Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
  • 2. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Datos Abiertos Datos Gubernamentales Datos Científicos Participación ciudadana Servicios innovadores ● Posibilidad de replicar los resultados ● Evitar el fraude ● Preservación ● Ciencia cooperativa Difundir!
  • 3. Particularidades de los datos científicos Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C A diferencia de otros tipos de información, se recogen, observan o crean datos de investigación a los efectos de producir y validar resultados de investigación originales . Los datos podrían ser creados por un equipo de investigación con un propósito y luego ser re-usados por otro, con otra finalidad o para responder otras preguntas. “Situacionales" Cámara de seguridad / insumo investigación comportamiento
  • 4. Clasificación de datos científicos Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Observacionales: datos capturados en tiempo real, comúnmente únicos e irremplazables Ej: imágenes cerebrales, encuestas Experimentales: datos provenientes de resultados experimentales, Ej: Aquellos que provienen de aparatos de medición en laboratorios, comúnmente reproducibles, pero caros. Simulación: datos generados de modelos de prueba donde el modelo y los metadatos pueden ser mas importantes que los datos de salida del modelo. Ej: Modelos económicos o climáticos. Desarrollados o compilados: resultado de procesar y/o combinar datos “crudos”, comúnmente reproducibles pero caros. Ej. Bases de datos compiladas,Resultados de text mining, Datos de censos consolidados. Reference or canonical: Una (estática u orgánica) conglomeración o collección de datasets mas pequeños (revisados por pares), la mayor parte de ellos publicados y “curados” Ej. Bancos de datos genéticos, bases de datos cristalográficas.
  • 5. Datos primarios vs. Datos secundarios. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Dato colectado por el investigador para conducir la investigación Dato colectado Por alguien más que El usuario Incertidumbre Acerca de Sobre qué base Se colectó Necesidad De conocer Todas las Condiciones de obtención Primario Secundario
  • 6. Qué considera/ría/rá a un investigador al re-usar un dataset? Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Documentación
  • 7. Data Management Plan Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Que haría un investigador de nuestra institución si luego de tres años de publicado un paper ampliamente citado es acusado de falsificar Los datos? One study has found that 80 percent of scientific data is lost within two decades and the odds of sourcing datasets decline by 17 percent each year. If data continues to be poorly managed, science will ultimately suffer, with experiments being hard to replicate, findings called into question, papers retracted and careers impacted. Eighty percent of scientific data are lost within two decades, disappearing into old email addresses and obsolete storage devices, a Canadian study indicated.
  • 8. Data management plan (II). Cifras escalofriantes (diría un noticiero). Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C 1. Data output is growing rapidly. Ninety percent of all the data in the world has been generated over the last two years, while scientific data output is currently increasing at an annual rate of 30 percent. 2. Despite significant investment, data is not being managed effectively —$1.5 trillion is the current estimated total global spending on research and development, which could all be at risk. 3. Much of the data generated is lost. In one study, the odds of sourcing datasets declined by 17 percent each year, with 80 percent of datasets more than 20 years old not available. 4. Much of the data that remains could be unverified. Fifty-four percent of the resources used across 238 published studies could not be identified, making verification impossible. 5. Time and money is wasted, impacting science and society. Since 2000, more than 80,000 patients have taken part in clinical trials based on research that was later retracted because of error or fraud. The number of retractions due to errors has also grown more than fivefold since 1990. 6. Funders now require data management and sharing policies. Thirty-four countries have signed up to the “Declaration on Access to Research Data from Public Funding,” while key funding bodies such as the NIH and Wellcome Trust now request data management plans be part of applications.
  • 9. Por donde empezamos? Por ejemplo, qué antecedentes de planes de administración de datos científicos hay? Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Data management plans are not one-size-fits-all. An appropriate data management plan should take into consideration, early on in the data life cycle, the size and complexity of the data to be collected or assembled, the likely audience for reuse of the data, sponsor requirements, and general legal and ethical requirements (e.g. that data be shared in a way that preserves the confidentiality of subject information).
  • 10. Data Management Plan Template NSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre los datos
  • 11. Data Management Plan Template NSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre los metadatos / infraestructura / seguridad
  • 12. Data Management Plan Template NSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre el presupuesto / propiedad intelectual y otros.
  • 13. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Vemos entonces que las entidades financiadoras de I+D comienzan a solicitar a sus proyectos financiados la existencia de un plan de administración de datos científicos. Lógicamente no resulta económico crear un plan específico para cada proyecto, excepto Situaciones excepcionales. Y con cual dificultad principal se enfrentan? De acuerdo a la literatura, a uno muy grande: La reticencia de la propia comunidad científica Los repositorios de datos científicos nacen como producto De un DMP
  • 14. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cuáles son los retos que deben enfrentar los repositorios de datos científicos? Los repositorios de datos científicos sirven (entre otros fines) para validar resultados de investigación, por tanto deben vincularse con los Repositorios institucionales donde se muestra para qué fueron usados esos datos Se asume entonces que el RI y el RDC son Repositorios distintos dado que difieren en: ● Objetivos ● Técnicas de gestión y mantenimiento ● Políticas de Acceso y depósito ● Tipología ● Cantidad de datos a preservar ● Importancia de la procedencia ● Validez de los datos ● Infraestructura de IT necesaria ● Esquemas de metadatos. Puedo catalogar con el mismo esquema de metadatos del RI Datos Científicos? Es mas, puedo catalogar con un único esquema datos científicos? Desafío en cuanto a infraestructura La cantidad de espacio necesario Excede lo que la institución puede brindar Obsolecencia en formatos. Preservación digital Formación de usuarios y profesionales de bibliotecas para gestionar estos desafíos Presupuesto!
  • 15. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué ejemplos de Repositorios de datos primarios conocemos?
  • 16. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cómo atacan algunos de los desafíos los RdC?
  • 17. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué ejemplos de Repositorios de datos primarios conocemos?
  • 18. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Best practices para el almacenamiento / depósito de datos
  • 19. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cómo intervienen los Bibliotecarios en la administración de los datos científicos? + Citas!
  • 20. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué tipos de metadatos se reporta (en la literatura consultada) que poseen o deberían poseer los datasets?
  • 21. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Porqué es importante citar los datos? ● Importancia: Datos deberían ser considerados productos de investigación legítimamente citables Las citas de datos deberían acordarse con la misma importancia en registros académicos como otros objetos de investigación, tal como las publicaciones. ● Crédito y atribución: Las citas de datos deberían faciliar otorgar crédito académico y atribución normativa y legal a todos quienes contribuyeron a la creación del dataset, reconociendo que un único estilo o mecanismo de atribución no es aplicable a todos los datasets. ● Evidencia: Siempre que se produzca un reclamo académico por sobre los datos, el mismo debe ser citado. ● Identificador único (y persistente): El Dataset debe poseer un identificador único y persistente, accionable por máquina y globlamente usado por una comunidad. Hay mas!
  • 22. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué esquemas de metadatos existen para datasets? (Solo un ejemplo)
  • 23. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Hay algo similar a DOAR o ROAR para RDCs? Esquema de metadatos para describir repositorios de datos?
  • 24. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Hay algo similar a DOAR o ROAR para RDCs?
  • 25. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué plataformas de software existen para administración de repositorios de datos? (Dos ejemplos), hay otros casos de aplicación de plataformas corrientes como Dspace, Eprints o Fedora
  • 26. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué iniciativas encontramos hoy en la región? (no incluyo participación en temáticos donde hay varios países de la región) Argentina Temático Gubernamental México LAGO Regional
  • 27. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Iniciativas en formación en la región Argentina PLICSS Chile ChiVO
  • 28. Bibliografía Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C ● Data Management Plans and you. Boston College. 2012 http://www.bc.edu/content/dam/files/offices/ides/docs/eteachingday/2012/E-Teaching-Day-DMP.pdf ● Research Data MANTRA. Online course http://datalib.edina.ac.uk/mantra/ ● Datos abiertos y repositorios de datos: nuevo reto para los bibliotecarios. http://eprints.rclis.org/19524/1/postprint_Hernandez_Garcia.pdf ● Love, or loose your data http://www.laboratoryequipment.com/articles/2014/04/love-or-lose-your-data ● Data management plan as required by NSF http://thedata.org/book/data-management-plan-template
  • 29. ¿Preguntas? MUCHAS GRACIAS Expositor: Emiliano Marmonti emarmonti@gmail.com 24 de Octubre de 2014 Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
  • Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks