Try   HackMD

Fuentes abiertas para estudios bibliométricos

1. La evolución y estado actual de las fuentes

Desde inicios de siglo, se ha producido un incremento de fuentes bibliográficas hasta dar lugar a una explosión de fuentes. Esta proliferación es resultado de los avances tecnológicos, especialmente en el ámbito del big data. Anteriormente, las fuentes tradicionales como Web of Science (WoS) y Scopus dominaban el panorama, pero hoy en día existen múltiples alternativas abiertas y accesibles.

Las fuentes abiertas son referidas a todas aquellas bases de datos, repositorios o plataformas que proporciona acceso gratuito y sin restricciones a datos académicos.

Aunque todavía no son alternativas reales, si se vislumbra un valioso, pero incierto, potencial que podría plantear un nuevo escenario para el futuro a corto y medio plazo.

Comparativa de fuentes tradicionales y nuevas

Aspecto Fuentes tradicionales (WoS, Scopus) Fuentes nuevas (OpenAlex, Semantic Scholar)
Accesibilidad De pago, acceso limitado Gratuitas, acceso abierto
Cobertura Media pero centrada en revistas Muy amplia, incluye literatura periférica
Actualización Regular pero menos frecuente Frecuente, casi en tiempo real
Interfaz de consulta Más amigable y estable Variable, a veces menos amigable
Métricas disponibles Alta oferta y fiabilidad Muy limitadas

1.1 La irrupción de la IA

La inteligencia artificial (IA) ha transformado el consumo de literatura (desconociendo todavía el impacto real), pero con claras ventajas y desventajas. Esta tecnología ha permitido la creación de herramientas más sofisticadas y que intervienen desde el acceso al análisis de datos, facilitando procesos que antes eran manuales y tediosos. Pero no todo son ventajas.

Ventajas:

  • Cobertura amplia: Las herramientas impulsadas por IA, sobre todo de terceros se nutren de bases de datos muy amplias en cobertura.
  • Automatización: La IA facilita la automatización en la recuperación y análisis de datos, reduciendo el tiempo y el esfuerzo necesarios.
  • Análisis predictivo: Las capacidades predictivas de la IA pueden ayudar a identificar tendencias emergentes en la investigación científica.

Inconvenientes:

  • Menor rigor: Con una cobertura más amplia, puede haber una disminución en la precisión y la calidad de los datos. La automatización puede llevar a errores no detectados.
  • Sesgos algorítmicos: La IA puede introducir sesgos en la selección y análisis de datos, afectando la objetividad de los estudios.

Imagen

1.2 Web of Science y Scopus ¿en riesgo?

La situación actual muestra una tendencia preocupante con varias universidades desuscribiéndose de bases de datos comerciales como Web of Science (WoS) y Scopus debido a diversos factores. Los costos elevados y la disponibilidad de alternativas más accesibles han llevado a muchas instituciones a reconsiderar sus suscripciones. Existe un claro movimiento a combinar una sola fuente comercial y todas las abiertas.

Ejemplos de universidades que han desistido de bases de datos tradicionales:

Universidad Base de datos Motivo Alternativa Adoptada
Arizona State University Web of Science Ahorro de costos, Scopus ofrece cobertura similar a menor precio Scopus
Sorbonne University Web of Science Ajustes presupuestarios y búsqueda de fuentes más accesibles OpenAlex
CNRS Scopus Alineación con política de ciencia abierta y reducción de costos Web of Science
OpenAlex

1.3 Desaparición de infraestructuras

Un aspecto crítico a considerar en el uso de fuentes abiertas es la posibilidad de que estas infraestructuras puedan desaparecer, como sucedió con la base de datos bibliométrica de Microsoft Academic. A pesar de su utilidad y popularidad, factores como la falta de financiamiento sostenido, cambios en la política organizacional, o simplemente la evolución tecnológica, pueden llevar al cierre de servicios valiosos. Esto pone en evidencia la necesidad de contar con múltiples fuentes y de respaldar datos de manera adecuada para mitigar el impacto de tales eventos.

2. Las nuevas fuentes (abiertas)

Las fuentes bibliográficas han evolucionado para incluir una variedad de formatos y herramientas que permiten a los investigadores acceder a datos de forma más eficiente y democrática.

2.1 Nuevas fuentes abiertas

Las fuentes abiertas están ganando popularidad debido a su accesibilidad y la riqueza de datos que ofrecen. Estas fuentes universalizan el consumo de literatura.

Fuente Descripción Ventajas
Semantic Scholar Utiliza IA para proporcionar resúmenes de artículos y métricas de impacto. Cobertura amplia, acceso gratuito
Lens.org Ofrece acceso gratuito a datos de patentes y publicaciones académicas. Integración de datos de patentes y publicaciones
OpenAlex Alternativa abierta a WoS y Scopus, enfocada en transparencia y accesibilidad de datos. Cobertura más extensa y constante evolución
Dimensions Plataforma que ofrece datos bibliométricos gratuitos y de pago. Diversas métricas, cobertura amplia
Crossref Event Data Recopila menciones y referencias en diversas plataformas para un análisis de impacto más amplio. Datos altmétricos en abierto
ORCID Proporciona identificadores únicos para investigadores, facilitando el seguimiento de la producción académica. Integración con múltiples plataformas
DOAJ Directory of Open Access Journals, un índice de revistas de acceso abierto. Promueve la accesibilidad y la calidad
Leiden Ranking Clasificación de universidades basada en datos bibliométricos. Análisis comparativo detallado
Scimago Journal Rank Indicador que mide el impacto de las revistas científicas. Métrica reconocida, fácil de interpretar
Stanford Ranking Clasificación de los mejores científicos del mundo según su impacto. Reconocimiento global de la excelencia

Las limitaciones en algunos de estos sistemas, frente a los sistemas tradicionales son claros:

  1. falta de precisión
  2. control limitado de información
  3. problemas de normalización de contenidos

2.2 APIs como nuevos formatos

No solo han evolucionado las fuentes sino que también lo ha hecho la manera en la que nos comunicamos con los datos. Las APIs han revolucionado la manera de acceder y trabajar con datos bibliométricos. Estas interfaces permiten la automatización de consultas y la integración de datos de diversas fuentes, facilitando análisis más completos y detallados.

Ventajas de las APIs:

  • Automatización de consultas: Permiten realizar consultas automáticas y acceder a grandes volúmenes de datos de manera eficiente.
  • Interoperabilidad: Facilitan la integración de datos de diversas fuentes, proporcionando una visión más completa del campo de estudio.
  • Actualización continua: Las APIs permiten acceder a datos actualizados en tiempo real (en muchos de los casos), lo que es crucial para el análisis bibliométrico dinámico.

2.3 La relevancia de la interconexión de fuentes

La interconexión de diferentes fuentes de datos es crucial para obtener una visión completa y precisa del panorama de la investigación.

Herramientas como ORCID y Crossref facilitan esta integración, facilitando la base para la generación de nuevas fuentes.

Asimismo, identificadores como el DOI o el ORCID sirven de enlace de datos para múltiples plataformas, favoreciendo el enriquecimiento y generación de una panorámica holística.

  • ORCID: Proporciona un identificador único para cada investigador, lo que facilita la vinculación de sus trabajos a través de diferentes bases de datos y plataformas.
  • Crossref: A través de sus DOI, facilita la integración y el acceso a publicaciones en múltiples plataformas, asegurando la trazabilidad y la accesibilidad de la investigación.

3. El caso de OpenAlex

OpenAlex es una de las fuentes abiertas más prometedoras en el campo de la bibliografía y bibliometría. Esta plataforma proporciona una amplia cobertura de datos y se destaca por su accesibilidad y constante desarrollo (para cuando estés leyendo esto puede que tengamos alguna novedad no comentada aquí).

Funcionalidades clave de OpenAlex:

Característica Descripción
Accesibilidad El acceso a sus datos está garantizado para todos los usuarios.
Datos agregados Su interfaz permite una vista agregada de los datos, facilitando análisis bibliométricos.
Interfaz API Facilita la integración y automatización de consultas.
Clasificación temática Gracias a su nuevo sistema de clasificación, las publicaciones cuentan con asignaciones precisas.

OpenAlex no solo ofrece datos bibliométricos de manera gratuita, sino que también promueve una ciencia más abierta y colaborativa. Su API versátil permite a los investigadores recuperar datos de manera eficiente y personalizada, facilitando análisis avanzados y detallados.

4. Herramientas para el acceso a los datos

Además de la interfaz, cuando está disponible, para facilitar el análisis bibliométrico, existen diversas herramientas de acceso abierto. Estas herramientas varían en su enfoque y funcionalidad, pero todas comparten el objetivo de hacer más accesible el análisis de datos bibliométricos.

4.1 Anaconda/Python

Anaconda facilita la gestión de entornos y paquetes de Python, mientras que Python es ideal para escribir scripts que interactúen con APIs.

4.2 R y RStudio

R es un lenguaje de programación ideal para el análisis bibliométrico. RStudio proporciona un entorno de desarrollo integrado que facilita el trabajo con R, ofreciendo una amplia gama de paquetes y funciones para el análisis de datos, sobre todo basados en API.

4.3 Bibliometrix

Un paquete de R especializado en bibliometría que permite importar, procesar y analizar datos bibliométricos de manera integral.

4.4 VOSviewer

Software para la construcción y visualización de redes de información científica, útil para mapear coautorías, citas y palabras clave. En sus últimas versiones permite la consulta de fuentes abiertas.

4.5 CiteSpace

Herramienta para el análisis y visualización de tendencias en la literatura científica, capaz de identificar puntos de inflexión y tendencias emergentes. Al igual que VOSviewer permite consultar fuentes abiertas.

4.6 Postman

Una herramienta para consultar APIs que ofrece una interfaz gráfica intuitiva, facilitando la gestión de solicitudes y la recuperación de datos.

5. Cómo hacer un análisis bibliométrico con datos abiertos

Realizar un análisis bibliométrico efectivo utilizando datos abiertos implica seguir una serie de pasos meticulosos para asegurar la precisión y relevancia de los resultados. Ten en consideración que aquí serán necesarios nuevos esfuerzos para limpiar datos y/o calcular indicadores.

A continuación, se presenta un flujo de trabajo detallado:

5.1 Aspectos básicos

5.1.1 Dimensiones clave

Un análisis bibliométrico debe considerar varias dimensiones básicas:

  • Producción: Volumen de publicaciones.
  • Impacto: Influencia de la investigación medida a través de citas y otros indicadores.
  • Acceso abierto: Nivel de accesibilidad de las publicaciones.
  • Colaboración: Redes de colaboración entre autores e instituciones.
  • Liderazgo: Rol de los investigadores e instituciones en el campo de estudio.
  • Temas: Frentes de investigación y áreas temáticas.

5.1.2 Enfoques generales

Para evitar los riesgos asociados con los indicadores básicos y el 'bean counting', se recomiendan tres acciones fundamentales:

  1. Análisis de tendencias: Estudio de la evolución de una variable para identificar patrones y tendencias.

  2. Benchmarking: Comparación de una entidad con otras similares para evaluar su desempeño.

  3. Normalización: Uso de indicadores normalizados para obtener resultados significativos y comparables (por ejemplo, el porcentaje de publicaciones en abierto).

5.1.3 Consideraciones Previas

Para garantizar la consistencia en el análisis bibliométrico, se deben considerar los siguientes parámetros:

  • Establecer un periodo de análisis práctico.
  • Analizar únicamente años cerrados.
  • Cuidar la selección de tipologías documentales.

5.2 Indicadores

5.2.1 Nivel publicación

Desde OpenAlex se pueden obtener varios indicadores básicos:

  • Citas: Recuento de citas.
  • Percentil de Citación: Indicador normalizado de citas.
  • Acceso abierto: Tipo de acceso abierto.
  • Colaboración: Número de instituciones que firman.

5.2.2 Nivel autor

Indicadores básicos de los autores obtenibles a través de OpenAlex:

  • Producción: Total de publicaciones.
  • Citas: Total de citas.
  • Percentil promedio de xitación: Promedio de los percentiles de citación.
  • Acceso abierto: Total de publicaciones en acceso abierto.
  • % Acceso abierto: Porcentaje de publicaciones en acceso abierto.
  • Colaboración: Total de publicaciones en colaboración.
  • % Colaboración: Porcentaje de publicaciones en colaboración.

5.2.3 Nivel institución

Indicadores a nivel institucional:

  • Autores: Total de autores.
  • Producción: Total de publicaciones.
  • Citas: Total de citas.
  • Percentil promedio de citación: Promedio de los percentiles de citación.
  • Acceso abierto: Total de publicaciones en acceso abierto.
  • % Acceso abierto: Porcentaje de publicaciones en acceso abierto.
  • Colaboración: Total de publicaciones en colaboración.
  • % Colaboración: Porcentaje de publicaciones en colaboración.

4.3 Análisis temáticos

OpenAlex permite la evaluación de temáticas a través de los topics:

5.3.1 Indicadores temáticos

Indicadores temáticos:

  • Autores: Total de autores.
  • Producción: Total de publicaciones.
  • Citas: Total de citas.
  • Percentil promedio de citación: Promedio de los percentiles de citación.
  • Acceso abierto: Total de publicaciones en acceso abierto.
  • % Acceso abierto: Porcentaje de publicaciones en acceso abierto.
  • Colaboración: Total de publicaciones en colaboración.
  • % Colaboración: Porcentaje de publicaciones en colaboración.

5.3.2 Comparativas y tendencias

Indagar en las principales contribuciones y posiciones en un campo específico, como las entidades que más contribuyen a un tema específico.

4.5 Mapas científicos

Los mapas de la ciencia proporcionan resultados visuales y fácilmente interpretables, complementados con clustering y overlay.

5.4.1 Colaboración Científica

Mapas que muestran las estructuras de colaboración a varios niveles:

  • Autor
  • Institución
  • País

5.4.2 Temas

Mapas temáticos que muestran los principales frentes de investigación y sus relaciones.

6. Recomendaciones finales

  1. Considerar las características del caso de estudio para evitar usar datos o métricas inapropiadas.
  2. Integrar datos de distintas fuentes para cubrir carencias, cuidando la consistencia de los datos.
  3. Indicar siempre el origen de los datos, su proceso de recuperación y posibles limitaciones.
  4. Resaltar los aspectos negativos tanto como los positivos.

Recursos adicionales: