# Fuentes abiertas para estudios bibliométricos ## 1. La evolución y estado actual de las fuentes Desde inicios de siglo, se ha producido un incremento de fuentes bibliográficas hasta dar lugar a una explosión de fuentes. Esta proliferación es resultado de los avances tecnológicos, especialmente en el ámbito del big data. Anteriormente, las fuentes tradicionales como Web of Science (WoS) y Scopus dominaban el panorama, pero hoy en día existen múltiples alternativas abiertas y accesibles. Las fuentes abiertas son referidas a todas aquellas bases de datos, repositorios o plataformas que proporciona acceso gratuito y sin restricciones a datos académicos. Aunque todavía no son alternativas reales, si se vislumbra un valioso, pero incierto, potencial que podría plantear un nuevo escenario para el futuro a corto y medio plazo. ### Comparativa de fuentes tradicionales y nuevas | **Aspecto** | **Fuentes tradicionales (WoS, Scopus)** | **Fuentes nuevas (OpenAlex, Semantic Scholar)** | |---------------------------|-----------------------------------------|-------------------------------------------------| | **Accesibilidad** | De pago, acceso limitado | Gratuitas, acceso abierto | | **Cobertura** | Media pero centrada en revistas | Muy amplia, incluye literatura periférica | | **Actualización** | Regular pero menos frecuente | Frecuente, casi en tiempo real | | | **Interfaz de consulta** | Más amigable y estable | Variable, a veces menos amigable | | **Métricas disponibles** | Alta oferta y fiabilidad | Muy limitadas | ### 1.1 La irrupción de la IA La inteligencia artificial (IA) ha transformado el consumo de literatura (desconociendo todavía el [impacto real](https://t.co/WV9u5jLRzg)), pero con claras ventajas y desventajas. Esta tecnología ha permitido la creación de herramientas más sofisticadas y que intervienen desde el acceso al análisis de datos, facilitando procesos que antes eran manuales y tediosos. Pero no todo son ventajas. **Ventajas:** - **Cobertura amplia:** Las herramientas impulsadas por IA, sobre todo de terceros se nutren de bases de datos muy amplias en cobertura. - **Automatización:** La IA facilita la automatización en la recuperación y análisis de datos, reduciendo el tiempo y el esfuerzo necesarios. - **Análisis predictivo:** Las capacidades predictivas de la IA pueden ayudar a identificar tendencias emergentes en la investigación científica. **Inconvenientes:** - **Menor rigor:** Con una cobertura más amplia, puede haber una disminución en la precisión y la calidad de los datos. La automatización puede llevar a errores no detectados. - **Sesgos algorítmicos:** La IA puede introducir sesgos en la selección y análisis de datos, afectando la objetividad de los estudios. ![Imagen](https://hackmd.io/_uploads/r1oTxPbUA.png) ### 1.2 Web of Science y Scopus ¿en riesgo? La situación actual muestra una tendencia preocupante con varias universidades desuscribiéndose de bases de datos comerciales como Web of Science (WoS) y Scopus debido a diversos factores. Los costos elevados y la disponibilidad de alternativas más accesibles han llevado a muchas instituciones a reconsiderar sus suscripciones. Existe un claro movimiento a combinar [una sola fuente comercial y todas las abiertas](https://libguides.usu.edu/scopus/announcement). **Ejemplos de universidades que han desistido de bases de datos tradicionales:** | **Universidad** | **Base de datos** | **Motivo** | **Alternativa Adoptada** | |---------------------------|-------------------|---------------------------------------------------------------------|--------------------------------------| | *Arizona State University* | Web of Science | Ahorro de costos, Scopus ofrece cobertura similar a menor precio | Scopus | | *Sorbonne University* | Web of Science | Ajustes presupuestarios y búsqueda de fuentes más accesibles | OpenAlex | | *CNRS* | Scopus | Alineación con política de ciencia abierta y reducción de costos | Web of Science<br>OpenAlex | ### 1.3 Desaparición de infraestructuras Un aspecto crítico a considerar en el uso de fuentes abiertas es la posibilidad de que estas infraestructuras puedan desaparecer, como sucedió con la base de datos bibliométrica de [Microsoft Academic](https://blogs.lse.ac.uk/impactofsocialsciences/2021/05/27/goodbye-microsoft-academic-hello-open-research-infrastructure/). A pesar de su utilidad y popularidad, factores como la falta de financiamiento sostenido, cambios en la política organizacional, o simplemente la evolución tecnológica, pueden llevar al cierre de servicios valiosos. Esto pone en evidencia la necesidad de contar con múltiples fuentes y de respaldar datos de manera adecuada para mitigar el impacto de tales eventos. ## 2. Las nuevas fuentes (abiertas) Las fuentes bibliográficas han evolucionado para incluir una variedad de formatos y herramientas que permiten a los investigadores acceder a datos de forma más eficiente y democrática. ### 2.1 Nuevas fuentes abiertas Las fuentes abiertas están ganando popularidad debido a su accesibilidad y la riqueza de datos que ofrecen. Estas fuentes universalizan el consumo de literatura. | **Fuente** | **Descripción** | **Ventajas** | |---------------------|---------------------------------------------------------------------------------------------------|-------------------------------------------------| | **Semantic Scholar**| Utiliza IA para proporcionar resúmenes de artículos y métricas de impacto. | Cobertura amplia, acceso gratuito | | **Lens.org** | Ofrece acceso gratuito a datos de patentes y publicaciones académicas. | Integración de datos de patentes y publicaciones| | **OpenAlex** | Alternativa abierta a WoS y Scopus, enfocada en transparencia y accesibilidad de datos. | Cobertura más extensa y constante evolución | | **Dimensions** | Plataforma que ofrece datos bibliométricos gratuitos y de pago. | Diversas métricas, cobertura amplia | | **Crossref Event Data**| Recopila menciones y referencias en diversas plataformas para un análisis de impacto más amplio. | Datos altmétricos en abierto | | **ORCID** | Proporciona identificadores únicos para investigadores, facilitando el seguimiento de la producción académica. | Integración con múltiples plataformas | | **DOAJ** | Directory of Open Access Journals, un índice de revistas de acceso abierto. | Promueve la accesibilidad y la calidad | | **Leiden Ranking** | Clasificación de universidades basada en datos bibliométricos. | Análisis comparativo detallado | | **Scimago Journal Rank** | Indicador que mide el impacto de las revistas científicas. | Métrica reconocida, fácil de interpretar | | **Stanford Ranking** | Clasificación de los mejores científicos del mundo según su impacto. | Reconocimiento global de la excelencia | Las limitaciones en algunos de estos sistemas, frente a los sistemas tradicionales son claros: 1. falta de precisión 2. control limitado de información 3. problemas de normalización de contenidos ### 2.2 APIs como nuevos formatos No solo han evolucionado las fuentes sino que también lo ha hecho la manera en la que nos comunicamos con los datos. Las APIs han revolucionado la manera de acceder y trabajar con datos bibliométricos. Estas interfaces permiten la automatización de consultas y la integración de datos de diversas fuentes, facilitando análisis más completos y detallados. **Ventajas de las APIs:** - **Automatización de consultas:** Permiten realizar consultas automáticas y acceder a grandes volúmenes de datos de manera eficiente. - **Interoperabilidad:** Facilitan la integración de datos de diversas fuentes, proporcionando una visión más completa del campo de estudio. - **Actualización continua:** Las APIs permiten acceder a datos actualizados en tiempo real (en muchos de los casos), lo que es crucial para el análisis bibliométrico dinámico. ### 2.3 La relevancia de la interconexión de fuentes La interconexión de diferentes fuentes de datos es crucial para obtener una visión completa y precisa del panorama de la investigación. Herramientas como ORCID y Crossref facilitan esta integración, facilitando la base para la generación de nuevas fuentes. Asimismo, identificadores como el DOI o el ORCID sirven de enlace de datos para múltiples plataformas, favoreciendo el enriquecimiento y generación de una panorámica holística. - **ORCID:** Proporciona un identificador único para cada investigador, lo que facilita la vinculación de sus trabajos a través de diferentes bases de datos y plataformas. - **Crossref:** A través de sus DOI, facilita la integración y el acceso a publicaciones en múltiples plataformas, asegurando la trazabilidad y la accesibilidad de la investigación. ## 3. El caso de OpenAlex OpenAlex es una de las fuentes abiertas más prometedoras en el campo de la bibliografía y bibliometría. Esta plataforma proporciona una amplia cobertura de datos y se destaca por su accesibilidad y constante desarrollo (para cuando estés leyendo esto puede que tengamos alguna novedad no comentada aquí). ### Funcionalidades clave de OpenAlex: | **Característica** | **Descripción** | |---------------------------|-------------------------------------------------------| | **Accesibilidad** | El acceso a sus datos está garantizado para todos los usuarios. | | **Datos agregados** | Su interfaz permite una vista agregada de los datos, facilitando análisis bibliométricos. | | **Interfaz API** | Facilita la integración y automatización de consultas. | | **Clasificación temática** | Gracias a su [nuevo sistema de clasificación](https://help.openalex.org/how-it-works/topics), las publicaciones cuentan con asignaciones precisas. | OpenAlex no solo ofrece datos bibliométricos de manera gratuita, sino que también promueve una ciencia más abierta y colaborativa. Su API versátil permite a los investigadores recuperar datos de manera eficiente y personalizada, facilitando análisis avanzados y detallados. ## 4. Herramientas para el acceso a los datos Además de la interfaz, cuando está disponible, para facilitar el análisis bibliométrico, existen diversas herramientas de acceso abierto. Estas herramientas varían en su enfoque y funcionalidad, pero todas comparten el objetivo de hacer más accesible el análisis de datos bibliométricos. ### 4.1 Anaconda/Python Anaconda facilita la gestión de entornos y paquetes de Python, mientras que Python es ideal para escribir scripts que interactúen con APIs. ### 4.2 R y RStudio R es un lenguaje de programación ideal para el análisis bibliométrico. RStudio proporciona un entorno de desarrollo integrado que facilita el trabajo con R, ofreciendo una amplia gama de paquetes y funciones para el análisis de datos, sobre todo basados en API. ### 4.3 Bibliometrix Un paquete de R especializado en bibliometría que permite importar, procesar y analizar datos bibliométricos de manera integral. ### 4.4 VOSviewer Software para la construcción y visualización de redes de información científica, útil para mapear coautorías, citas y palabras clave. En sus últimas versiones permite la consulta de fuentes abiertas. ### 4.5 CiteSpace Herramienta para el análisis y visualización de tendencias en la literatura científica, capaz de identificar puntos de inflexión y tendencias emergentes. Al igual que VOSviewer permite consultar fuentes abiertas. ### 4.6 Postman Una herramienta para consultar APIs que ofrece una interfaz gráfica intuitiva, facilitando la gestión de solicitudes y la recuperación de datos. ## 5. Cómo hacer un análisis bibliométrico con datos abiertos Realizar un análisis bibliométrico efectivo utilizando datos abiertos implica seguir una serie de pasos meticulosos para asegurar la precisión y relevancia de los resultados. Ten en consideración que aquí serán necesarios nuevos esfuerzos para limpiar datos y/o calcular indicadores. A continuación, se presenta un flujo de trabajo detallado: ### 5.1 Aspectos básicos #### 5.1.1 Dimensiones clave Un análisis bibliométrico debe considerar varias dimensiones básicas: - **Producción:** Volumen de publicaciones. - **Impacto:** Influencia de la investigación medida a través de citas y otros indicadores. - **Acceso abierto:** Nivel de accesibilidad de las publicaciones. - **Colaboración:** Redes de colaboración entre autores e instituciones. - **Liderazgo:** Rol de los investigadores e instituciones en el campo de estudio. - **Temas:** Frentes de investigación y áreas temáticas. #### 5.1.2 Enfoques generales Para evitar los riesgos asociados con los indicadores básicos y el '*bean counting*', se recomiendan tres acciones fundamentales: 1. **Análisis de tendencias:** Estudio de la evolución de una variable para identificar patrones y tendencias. 2. **Benchmarking:** Comparación de una entidad con otras similares para evaluar su desempeño. 3. **Normalización:** Uso de indicadores normalizados para obtener resultados significativos y comparables (por ejemplo, el porcentaje de publicaciones en abierto). #### 5.1.3 Consideraciones Previas Para garantizar la consistencia en el análisis bibliométrico, se deben considerar los siguientes parámetros: - Establecer un periodo de análisis práctico. - Analizar únicamente años cerrados. - Cuidar la selección de tipologías documentales. ### 5.2 Indicadores #### 5.2.1 Nivel publicación Desde OpenAlex se pueden obtener varios indicadores básicos: - **Citas:** Recuento de citas. - **Percentil de Citación:** Indicador normalizado de citas. - **Acceso abierto:** Tipo de acceso abierto. - **Colaboración:** Número de instituciones que firman. #### 5.2.2 Nivel autor Indicadores básicos de los autores obtenibles a través de OpenAlex: - **Producción:** Total de publicaciones. - **Citas:** Total de citas. - **Percentil promedio de xitación:** Promedio de los percentiles de citación. - **Acceso abierto:** Total de publicaciones en acceso abierto. - **% Acceso abierto:** Porcentaje de publicaciones en acceso abierto. - **Colaboración:** Total de publicaciones en colaboración. - **% Colaboración:** Porcentaje de publicaciones en colaboración. #### 5.2.3 Nivel institución Indicadores a nivel institucional: - **Autores:** Total de autores. - **Producción:** Total de publicaciones. - **Citas:** Total de citas. - **Percentil promedio de citación:** Promedio de los percentiles de citación. - **Acceso abierto:** Total de publicaciones en acceso abierto. - **% Acceso abierto:** Porcentaje de publicaciones en acceso abierto. - **Colaboración:** Total de publicaciones en colaboración. - **% Colaboración:** Porcentaje de publicaciones en colaboración. ### 4.3 Análisis temáticos OpenAlex permite la evaluación de temáticas a través de los *topics*: #### 5.3.1 Indicadores temáticos Indicadores temáticos: - **Autores:** Total de autores. - **Producción:** Total de publicaciones. - **Citas:** Total de citas. - **Percentil promedio de citación:** Promedio de los percentiles de citación. - **Acceso abierto:** Total de publicaciones en acceso abierto. - **% Acceso abierto:** Porcentaje de publicaciones en acceso abierto. - **Colaboración:** Total de publicaciones en colaboración. - **% Colaboración:** Porcentaje de publicaciones en colaboración. #### 5.3.2 Comparativas y tendencias Indagar en las principales contribuciones y posiciones en un campo específico, como las entidades que más contribuyen a un tema específico. ### 4.5 Mapas científicos Los mapas de la ciencia proporcionan resultados visuales y fácilmente interpretables, complementados con clustering y overlay. #### 5.4.1 Colaboración Científica Mapas que muestran las estructuras de colaboración a varios niveles: - **Autor** - **Institución** - **País** #### 5.4.2 Temas Mapas temáticos que muestran los principales frentes de investigación y sus relaciones. # 6. Recomendaciones finales 1. Considerar las características del caso de estudio para evitar usar datos o métricas inapropiadas. 2. Integrar datos de distintas fuentes para cubrir carencias, cuidando la consistencia de los datos. 3. Indicar siempre el origen de los datos, su proceso de recuperación y posibles limitaciones. 4. Resaltar los aspectos negativos tanto como los positivos. --- Recursos adicionales: - [Repositorio GitHub para APIs](https://github.com/Wences91/Fuentes_de_informacion/wiki/APIs)