Semana Internacional de los Datos Abiertos –¿qué hay de nuevo?
Principios para citar datos científicos
The BMJ exige intercambio de datos para publicar ensayos clínicos
El proyecto Making Data Count incentiva el intercambio de datos de investigación
Apertura y calidad de un artículo publicado
El Movimiento Open Data se consolida internacionalmente
BOAI (Budapest Open Access Initiative) celebra su 15 aniversario
Yo escribí eso… yo no escribí eso… ahora escribo otra cosa…
¿Cómo será el arbitraje por pares en el año 2030?
La colaboración y la acción concertada son clave para hacer que los datos abiertos sean una realidad [Publicado originalmente en el blog LSE Impact of Social Sciences en Octubre/2017]
Los criterios de Indexación de SciELO se alinean con la comunicación en la ciencia abierta
Conferencia SciELO 20 Años – un foro innovador y participativo sobre el futuro de la comunicación científica
Sobre las veintidós definiciones de la revisión abierta por pares… y más
Los artículos de las revistas SciELO en las plataformas de Ciencia Abierta de la Comisión Europea
Criterios de autoría preservan la integridad en la comunicación científica
Fiocruz frente al desafío de la Ciencia Abierta en favor del Desarrollo y de la Salud Pública
Gestión de Datos Científicos – de la recolección a la preservación
Administración de los datos de investigación en el CNRS de Francia
Por Ernesto Spinak
En la era de la Ciencia Abierta, la administración de los datos de investigación (RDM, research data management) es un desafío importante a tomar en cuenta en las políticas nacionales de investigación, porque los resultados suelen ser objetos complejos, dinámicos, difíciles de describir pero necesarios para validar los descubrimientos de las investigaciones. Estos datos son de tipos variados y complejos pues – para mencionar algunos – pueden ser secuencias del genoma, datos socio económicos, imágenes audiovisuales, bases estadísticas, aplicaciones de software, etc. En las nuevas estrategias de la comunidad europea hacia una ciencia abierta se incluyen (i) el acceso abierto, (ii) la cooperación en el intercambio de datos, y (iii) la administración de los datos bajo los principios de la iniciativa FAIR (Findable, Accessible, Interoperable and Reusable): “(…) todos los objetos de investigación deben ser encontrables, accesibles, interoperables y reutilizables, tanto para máquinas como para personas”1.
Francia es uno de los estados miembros principales en la Unión Europea que lidera este esfuerzo, publicando decenas de miles de artículos científicos cada año y dedicando un porcentaje sustantivo del Producto Nacional Bruto en la investigación e innovación. El CNRS (Centre National de la Recherche Scientifique, Centro nacional de investigaciones científicas) es la organización pública de investigación más grande de Europa desarrollando investigaciones en todas las áreas del conocimiento a través de 10 instituciones con más de 32.500 investigadores en más de 1.000 laboratorios. Francia impulsa, junto con Holanda y Alemania, la iniciativa FAIR en Europa.
A los efectos de medir y evaluar las actitudes y comportamientos de la comunidad científica en Francia sobre el Acceso Abierto y el RDM, se llevó a cabo una encuesta entre julio y septiembre de 2014, enviando un cuestionario de más de 90 preguntas a los directores de 1.250 laboratorios del CRNS que representan todas las áreas de la ciencia básica en Francia. El objetivo fue comprender mejor los procesos de producción, administración y preservación de datos y, en particular, las actitudes de compartir los datos con otros científicos en términos de la cultura y principios FAIR. Los resultados2 fueron publicados recientemente y es el motivo de esta nota.
Las respuestas obtenidas de los directores de los 432 laboratorios que respondieron pueden dividirse en tres temas principales:
- ¿Qué piensan los científicos acerca del intercambio de datos y la apertura? ¿Qué se puede decir de su cultura de datos abiertos?
- ¿Hasta qué punto sus comportamientos y actitudes respecto a los datos apoyan los principios FAIR de RDM?
- ¿Cuáles son las prioridades para RDM y qué tipo de servicios RDM solicitan los científicos?
Gestión de datos
El 61% de los directores declaró que la producción de datos de sus laboratorios necesita una RDM específica, pero solamente un tercio de ellos tiene algún tipo de herramienta para monitorear la producción, y menos aún ha establecido un plan de gestión de datos.
Recursos humanos entrenados
Aproximadamente un tercio de los laboratorios tiene personal específico a su disposición dedicado al RDM. La mayoría de ellos son empleados permanentes, pero más de la mitad de estas unidades también contrata personal por períodos limitados para hacer o ayudar a hacer el trabajo.
¿Cuál trabajo? Procesamiento de datos y creación de datos secundarios, producción de bases de datos; en menor grado curación de datos, incluyendo la producción de metadatos.
¿Qué tan bien están haciendo su trabajo? En general, el 75% de los gerentes sénior evalúan las habilidades RDM de su personal como básicas o buenas, pero solo un 8% como excelentes.
En cuatro dominios del RDM (referencia, seguridad de datos, ética y ley) el personal tiene habilidades que se consideran más altas, en comparación con la publicación de datos, donde casi el 40% de los directores considera que las habilidades del personal es insuficiente.
Compartir datos
El 40% de los directores de laboratorio declaran que sus datos de investigación se publican en línea, a menudo con restricciones de acceso (acceso a pedido, o limitado a usuarios autorizados); solo el 17% reporta que sus datos son difundidos libremente en la web, en acceso abierto.
El 59% de los encuestados confirma que sus laboratorios colaboran con otros científicos y unidades de investigación a través de herramientas de datos compartidos (84%), talleres (47%), directrices comunes (44%) y sesiones de capacitación (41%).
Disponibilidad
Más de la mitad de los directores de laboratorio en ciencias de la tierra y astronomía, informática, ciencias sociales, ecología y física nuclear declaran que sus datos están disponibles en línea. Pero este no es el caso, especialmente en otras tres disciplinas: química, física y matemáticas.
Sobre el intercambio de datos y publicaciones
La encuesta reveló que la mayoría de los encuestados (50-70%) apoya generalmente el acceso abierto y declara el uso real del repositorio nacional francés de HAL (Hyper Articles en Ligne), incluido el depósito de metadatos (registros) y documentos (texto completo), mientras que solo un pequeño grupo parece no estar interesado en la vía verde o la vía dorada, y son renuentes al autoarchivo y la publicación en acceso abierto.
Considerando los principios FAIR (encontrables, accesibles, interoperables y reutilizables), el informe que se comenta menciona que solo el 7% de los directores de laboratorio confirman que su práctica de administración de datos cumplen con estos cuatro criterios: publican datos en línea, permiten que al menos algunos de ellos estén libremente disponibles, aplican formatos de datos interoperables y utilizan estándares específicos de la comunidad. Otro 18% de los directores respondió afirmativamente a tres de las cuatro preguntas; 42% indicaron que cumplen con uno o dos criterios, pero el 32% respondió que “no” al cumplimiento de estas cuatro cuestiones. El “punto débil” más corriente parece ser la aplicación de formatos de datos interoperables, revelando además otros problemas como falta de infraestructura para interoperabilidad, capacidades y experiencia, incentivos y por encima de todo falta del desarrollo de políticas para su implementación.
Conclusiones preliminares
Cambiar las culturas de los científicos es un asunto complejo, como se revela en la encuesta del CNRS, un desafío que tiene que hacer frente a diferencias de valores y prácticas, herramientas y habilidades de los laboratorios e institutos, donde intervienen muchas partes interesadas, por ejemplo los científicos, los financiadores, técnicos, bibliotecarios, etc., con intereses diferentes y a veces opuestos.
Es importante establecer a nivel de cada institución y, como política general, guías de buenas prácticas, como por ejemplo los que se presentaron en la Semana SciELO 20 Años3.
Notas
1. Turning FAIR into reality: Final report and action plan from the European Commission expert group on FAIR data [online]. Publications Office of the EU. 2018 [viewed 16 January 2019]. Available from: https://publications.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-9982-01aa75ed71a1/language-en/format-PDF/source-80611283
2. SCHÖPFEL, J., et al. Research data management in the French National Research Center (CNRS). Data Technologies and Applications [online]. 2018, vol. 52, no. 2, pp. 248-265 [viewed 16 January 2019]. Available from: https://hal.univ-lille3.fr/hal-01728541/
3. Documentos [online]. GT1 – El ayer, hoy y mañana de la Red SciELO – Reunión de la Red SciELO. 2018 [viewed 16 January 2019]. Available from: https://www.scielo20.org/redescielo/es/grupos-de-trabajo/gt1/#1522092702903-74c0a379-eca1
Referencias
Documentos [online]. GT1 – El ayer, hoy y mañana de la Red SciELO – Reunión de la Red SciELO. 2018 [viewed 16 January 2019]. Available from: https://www.scielo20.org/redescielo/es/grupos-de-trabajo/gt1/#1522092702903-74c0a379-eca1
SCHÖPFEL, J., et al. Research data management in the French National Research Center (CNRS). Data Technologies and Applications [online]. 2018, vol. 52, no. 2, pp. 248-265 [viewed 16 January 2019]. Available from: https://hal.univ-lille3.fr/hal-01728541/
Turning FAIR into reality: Final report and action plan from the European Commission expert group on FAIR data [online]. Publications Office of the EU. 2018 [viewed 16 January 2019]. Available from: https://publications.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-9982-01aa75ed71a1/language-en/format-PDF/source-80611283
Sobre Ernesto Spinak
Colaborador do SciELO, Ingeniero en Sistemas y Lic. en Biblioteconomía, con Diploma de Estudios Avanzados pela Universitat Oberta de Catalunya y Maestría en “Sociedad de la Información” por la Universidad Oberta de Catalunya, Barcelona – España. Actualmente tiene una empresa de consultoría que atiende a 14 instituciones de gobierno y universidades en Uruguay con proyectos de información.
Promoviendo y acelerando el intercambio de datos de investigación
Por Lilian Nassi-Calò
La disponibilidad de datos de investigación en formato legible por máquina viene siendo ampliamente discutida – y adoptada – por instituciones de investigación, gobiernos y agencias de fomento desde 2013, tras la publicación del informe McKinsey, Open data: Unlocking innovation and performance con liquid information1, que se ha reportado en este blog2. Uno de los pilares de la ciencia abierta, la apertura de los datos de investigación es una demanda de la sociedad, de los gobiernos y financiadores. Esta práctica trae innumerables ventajas al hacer la ciencia más transparente, reproducible, confiable y verificable, acelera los descubrimientos y ahorra recursos, ya que los datos recopilados pueden ser reutilizados – y debidamente citados – por otros.
Como todo nuevo paradigma, la disponibilidad de datos de investigación de forma abierta, como prevé el informe McKinsey, causa preocupación, y hasta cierto temor por parte de los investigadores. Publicar datos de búsqueda en el formato requerido puede ser desafiante, consume tiempo, recursos humanos y financieros, y tal vez no sea una de las prioridades más apremiantes de los investigadores. Sin embargo, cada vez más instituciones, agencias de fomento, gobiernos e incluso editores vienen demandando publicar conjuntos de datos de búsqueda (datasets) en formato de artículos de datos (data papers) o depositados en repositorios de datos abiertos casi simultáneamente a la publicación de los artículos en revistas.
Los conjuntos de datos, al ser publicados en revistas o depositados en repositorios, reciben un identificador digital (Digital Object Identifier, DOI) y pueden ser debidamente citados. Una forma de estimular a los autores a compartir sus datos sería conferirles el debido crédito en la forma de citación con motivo de la reutilización de sus datos, como ocurre en las publicaciones tradicionales. Considerando esta importante fuente de citas, el Web of Science (WoS) creó el Data Citation Index. Así, los autores pueden contabilizar las citaciones provenientes de la publicación de sus datos de investigación, además de sus artículos. En esta misma dirección, la editorial Elsevier implementó en 2014 una serie de principios para citar datos para las revistas que publica3 y participó en el lanzamiento de la FORCE11 Joint Declaration of Data Citation Principles, una serie de ocho principios para citación de datos de investigación.
A pesar de la existencia de estas directrices para la citación de conjuntos de datos, de acuerdo con el informe The State of Open Data 20184 producido por Digital Science y Figshare en colaboración con la Springer Nature obtuvo 58% de respuestas negativas para la pregunta “¿Usted cree que los investigadores reciben crédito suficiente por compartir sus datos?”. Sólo el 9% respondió afirmativamente.
El informe The State of Open Data 20184 entrevistó a investigadores de todos los continentes sobre las motivaciones, hábitos, conocimiento y prácticas de intercambio de datos. Los resultados, comparados a los informes de 2016 y 2017, traen información relevante sobre la evolución de los datos abiertos de investigación en todo el mundo además de cómo fortalecer esta práctica en la academia, para que alcance los resultados esperados.
Alentar el compartir no es suficiente
El número de conjuntos de datos disponibles en los últimos diez años viene creciendo de forma exponencial, alcanzando la marca de cerca de 10.000 en 2018, motivados principalmente por mandatos institucionales o de agencias de fomento. Sin embargo, a pesar del número creciente, la encuesta encontró que el 60% de los encuestados nunca había oído hablar de los principios FAIR que rigen la disponibilidad de los datos de búsqueda y significan Findable, Accessible, Interoperable and Reusable (hallable, accesible, interoperable y reutilizable). Estos resultados, por lo tanto, indican que cumplir los requisitos de los financiadores es una cosa y realmente hacer que los datos reutilizables es otra bien diferente. Sin embargo, más del 60% de los investigadores respondieron que apoyaría mandatos nacionales en sus países para que los datos de investigación estuvieran disponibles en acceso abierto; el 25% se declaró neutral a este respecto y sólo el 10% se opondría.
En el momento de la recolección de datos para el informe, menos del 30% de los encuestados estaban sujetos a mandatos institucionales, gubernamentales o de agencias de fomento para hacer sus conjuntos de datos disponibles, el 40% afirmó no estar sujetos a ningún mandato y el resto no sabía informar.
Propiedad de los datos
Un aspecto que no está claro a los autores se refiere a la propiedad de los datos. Los entrevistados de la investigación creen que la propiedad de los datos depende de que la investigación haya sido publicada o no.
Antes de la publicación, el 50% de los encuestados creen que los datos son de propiedad de los financiadores de la investigación, el 28% cree que pertenece al editor y menos del 10% atribuyen la propiedad a los autores del estudio. Después de la publicación, el porcentaje que atribuía propiedad a los financiadores cae al 25%, la institución es la opción del 17%, el editor del 22% y el porcentaje asignado a los autores permanece inalterado. Alrededor del 30% no supieron opinar.
La posibilidad de pérdida de datos de investigación sería un fuerte incentivo para almacenar conjuntos de datos en repositorios de datos abiertos o para publicar artículos de datos. Aunque el 56% de los encuestados indicó que nunca perdieron datos de investigación, la pérdida de datos afectó al 30% de los investigadores escuchados por Digital Science. Casi la mitad de las pérdidas se debe a la falta de copia de seguridad de los discos duros de los equipos de los investigadores. Los datos almacenados en versiones anticuadas de software también son responsables de cerca del 10% de las pérdidas de datos.
Experiencias personales
Entre los motivos más frecuentemente señalados por los entrevistados para compartir datos están: mayor visibilidad e impacto de la investigación (22%), beneficio público (20%), transparencia y reutilización de la investigación (12%), solicitud de la revista/editor (10%), y recibir el debido crédito por compartir los datos de la investigación (8%). A pesar de estar situado en quinto lugar, la citación de los datos, en realidad motiva al 67% de los entrevistados, y sólo el 9% cree que los autores reciben suficiente crédito por compartir sus datos, mientras que el 56% considera que los autores no reciben el debido crédito.
Las principales preocupaciones en cuanto a la disponibilidad de los conjuntos de datos incluyen: mal uso de los datos (12%), dudas sobre derechos de autor y licencias (11%), no recibir suficiente crédito o reconocimiento (11%), no saber cómo organizar los datos de forma correcta (10%), los datos contienen información confidencial (10%), y dudas sobre cómo elegir un repositorio adecuado (8%), entre otras.
A pesar de las muchas dudas sobre el proceso de compartir conjuntos de datos, el 80% de los investigadores están perfectamente conscientes de la existencia de datos abiertos y 80% de ellos están dispuestos a utilizar los datos de otros autores en su investigación.
Cómo acelerar el uso compartido de datos?
Considerando los resultados del tercer año de esta investigación, las cifras de 2018 mostraron progresos marcados referentes a la intensión de los autores en disponibilizar sus conjuntos de datos y utilizar datos de otros investigadores en su trabajo.
Agencias de fomento e instituciones han unido esfuerzos para proporcionar apoyo de base a los autores para hacer la tarea de compartir datos menos desafiante y complicada. Una cosa es cierta: establecer políticas y mandatos sólo no es suficiente. Es necesario destinar recursos específicos para curaduría y preparación de los datos para depósito en repositorios o publicación como artículos de datos, además de entrenamiento y orientación.
La cuestión central, según la investigación realizada, reside en los mecanismos de recompensa obtenidos del intercambio de datos. La pregunta “¿Qué mecanismos de crédito usted considera que alentaría a más investigadores a compartir sus datos?” generó más de 600 respuestas libres que requieren un análisis cuidadoso. Sin embargo, los temas más frecuentes incluyen citación, coautoria y colaboración, y crédito en la evaluación de la investigación.
De la misma forma, las dudas que aún persisten en cuanto a la propiedad de los datos y cómo organizarlos demuestran que los investigadores necesitan orientación antes de sentirse confiados en disponibilizar sus datos de forma abierta.
Tal vez cuando perciban que el trabajo de preparar los datos para compartir y su puesta a disposición como datos abiertos finalmente facilitar su trabajo – y de todos los demás investigadores – observamos una mayor adhesión al movimiento de datos abiertos.
Notas
1. MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information
2. SPINAK, E. Datos Abiertos: información líquida, democracia, innovación… los tiempos se están cambiando [online]. SciELO en Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/es/2013/11/18/datos-abiertos-informacion-liquida-democracia-innovacion-los-tiempos-se-estan-cambiando/
3. Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation
4. DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058
Referências
Data Citation [online]. Elsevier. 2019 [viewed 13 June 2019]. Available from: https://www.elsevier.com/about/open-science/research-data/data-citation
DIGITAL SCIENCE, et al. The State of Open Data Report [online]. Figshare. 2018 [viewed 13 June 2019]. Available from: https://figshare.com/articles/The_State_of_Open_Data_Report_2018/7195058
MANYIKA, J., et al. Open data: Unlocking innovation and performance with liquid information [online]. McKinsey. 2013 [viewed 13 June 2019]. Available from: http://www.mckinsey.com/insights/business_technology/open_data_unlocking_innovation_and_performance_with_liquid_information
Recommended practices to promote scholarly data citation and tracking [online]. Clarivate Analytics. 2017 [viewed 13 June 2019]. Available from: https://clarivate.com/wp-content/uploads/2018/03/Crv_SAR_DataCitation_WhitePaper_A4_FA_web-1.pdf
SPINAK, E. Datos Abiertos: información líquida, democracia, innovación… los tiempos se están cambiando [online]. SciELO en Perspectiva, 2013 [viewed 13 June 2019]. Available from: https://blog.scielo.org/es/2013/11/18/datos-abiertos-informacion-liquida-democracia-innovacion-los-tiempos-se-estan-cambiando/
Sobre Lilian Nassi-Calò
Lilian Nassi-Calò estudió química en el Instituto de Química de la USP, tiene un doctorado en Bioquímica por la misma institución y un pos doctorado como becaria de la Fundación Alexander von Humboldt en Wuerzburg, Alemania. Después de concluir sus estudios, fue docente e investigadora en el IQ-USP. Trabajó en la industria privada como química industrial y actualmente es Coordinadora de Comunicación Científica en BIREME/OPS/OMS y colaboradora de SciELO.
Traducido del original en portugués por Ernesto Spinak
Fuentes de datos scientométricos [abiertos] – un directorio colaborativo de fuentes de datos scientometricos [Publicado originalmente en el blog TIB en mayo/2019]
Por Svantje Lilienthal
Como parte del proyecto ROSI (Reference Implementation for Open Scientometric Indicators, Implementación de referencia para indicadores cienciométricos abiertos) de BMBF (Bundesministeriums für Bildung und Forschung, Ministerio Federal de Educación e Investigación), recopilamos fuentes de datos abiertas a partir de las cuales se puede generar información cienciométrica. Queremos desarrollar un prototipo – basado exclusivamente en datos abiertos, que integre estos datos de forma transparente y personalizable en los perfiles de los investigadores en el sistema de información de investigación VIVO. Es especialmente importante para nosotros considerar las necesidades de los científicos y la comunidad científica (más sobre nuestra motivación leyendo este post1). Dado que hay muchas fuentes de datos posibles para información cientométrica y queremos compartir nuestra investigación con la comunidad científica, hemos publicado nuestra colección en el Registry of Scientometric Data Sources (Registro de Fuentes de Datos Cienciométricos).
Figura 1. Resumen de las fuentes de datos enumeradas
Figura 2. Vista detallada de una fuente de datos
Hemos desarrollado un esquema de metadatos para describir las fuentes de datos con el fin de lograr comparabilidad.
Figura 3. Entrada de metadatos según un esquema predefinido
Se hace especial hincapié en la recopilación de información sobre las interfaces técnicas de las fuentes de datos, ya que se utilizará para nuestros prototipos si es necesario.
Figura 4. Resumen sobre los metadatos técnicos de las fuentes
Algunas de las fuentes de datos utilizan información de otras fuentes. Las relaciones se ilustran en un diagrama de flujo de datos2.
Figura 5. Flujo de datos entre las fuentes de datos
Esperamos nuevas fuentes de datos interesantes, mejoras en las descripciones ya existentes y comentarios generales sobre el propio registro. ¡Simplemente envíenos un correo electrónico a <rosi.project@tib.eu> para participar!
Notas
1. HAUSCHKE, C. ROSI – eine Referenzimplementierung für offene szientometrische Indikatoren [online]. TIB Blog, 2018 [viewed 5 July 2019]. Available from: https://blogs.tib.eu/wp/tib/2018/11/21/rosi-eine-referenzimplementierung-fuer-offene-szientometrische-indikatoren/
2. Dataflow between scientometric data sources [online]. Registry of Scientometric Data Sources. 2019 [viewed 5 July 2019]. Available from: https://labs.tib.eu/rosi/graph.php
Referencias
Dataflow between scientometric data sources [online]. Registry of Scientometric Data Sources. 2019 [viewed 5 July 2019]. Available from: https://labs.tib.eu/rosi/graph.php
HAUSCHKE, C. ROSI – eine Referenzimplementierung für offene szientometrische Indikatoren [online]. TIB Blog, 2018 [viewed 5 July 2019]. Available from: https://blogs.tib.eu/wp/tib/2018/11/21/rosi-eine-referenzimplementierung-fuer-offene-szientometrische-indikatoren/
Enlaces externos
Registry of Scientometric Data Sources <https://labs.tib.eu/rosi/index.php>
Registry of Scientometric Data Sources <https://labs.tib.eu/rosi/tech.php>
ROSI – Technische Informationsbibliothek <https://www.tib.eu/de/forschung-entwicklung/projektuebersicht/projektsteckbrief/rosi/>
VIVO <https://vivo.tib.eu/fis/>
Articulo original em inglés
Traducido del original en inglés por Ernesto Spinak.