# Explorando Wikidata para la investigación en Ciencias Sociales --- # Explorando Wikidata para la Investigación en Ciencias Sociales ## Preámbulo Dentro del amplio espectro de fuentes de datos para la investigación en Ciencias Sociales, es crucial reconocer la importancia de acceder a bases de datos de conocimiento libre y colaborativas. Estas plataformas son fundamentales no solo por la amplitud y profundidad de información que ofrecen, sino también por fomentar la apertura de datos. Permiten el análisis detallado y una comprensión amplia de temas sociales, económicos y culturales, impulsando la innovación metodológica. ## 1. Sobre Wikidata ### 1.1. ¿Qué es? **Wikidata** es una extensa base de datos documental colaborativa. Se trata de un *Open Knowledge Graph*. Un tipo de base de datos orientado a grafos que permite almacenar datos interconectados y modelar información compleja de manera que tanto máquinas como humanos puedan entenderla y utilizarla eficientemente. Un grafo esta compuesto de dos elementos: + **Entidades** - elemento del mundo real + **Relaciones** - conexión semántica entre dos entidades A partir de ello se pueden contruir frase o tripletas, que es la únión básica de dos entidas por medio de una relación. Por ejemplo: ![grafo](https://hackmd.io/_uploads/HyBg9RcA6.png) ### 1.2. ¿En que se diferencia de Wikipedia? A diferencia de **Wikipedia**, que contiene artículos enciclopédicos, Wikidata permite recopilar y compartir datos estructurados de cualquier tipo de entidad, ya esté presente o no en Wikipedia, y orientada a su reutilización. En Wikidata, los elementos se organizan por ítems, propiedades y declaraciones, permitiendo una consulta y análisis de datos mucho más flexible y poderoso. Además, mientras los usuarios contribuyen a Wikipedia escribiendo y editando texto, en Wikidata, añaden y mantienen datos en un formato estructurado. Esto hace que Wikidata sea una herramienta invaluable para proyectos que requieren acceso a datos estructurados y actualizados, abriendo nuevas posibilidades para la investigación, especialmente en las Ciencias Sociales. ### 1.3. Estructura de Wikidata En el caso concreto de Wikidata [son varios los elementos a conisderar](https://www.wikidata.org/wiki/Wikidata:Glossary/es), destacando sobre todo: + **Ítems (*Items*)**: son las entidad. Cada ítem tiene una etiqueta (nombre), una descripción, y un identificador único que comienza con una Q seguida de un número. + **Propiedades (*Properties*)**: permiten describir los datos de los ítems y establecer relaciones entre ellos. Las propiedades también tienen su propio identificador único que comienza con una P seguida de un número. + **Declaraciones (*Statements*)**: son las sentencias construidas a partir de ítems y propiedades. Además de ellos existen otros elementos relevantes, como las **referencias** para ofrecer soporte a los datos. ## 2. Búsqueda y consulta Como se trata de Open Knowledge Graph los datos pueden ser consultados de multiples maneras. De manera general diferenciaremos: + **Wikidata Search**: buscador básico y desde el cual es posible colaborar. + **Wikidata Query Service (WDQS)**: herramienta principal para la consulta masiva mediante SPARQL. + **Otros servicios**: al ser los datos y estructura completamente abierta se facilita la posibilidad de generación de nuevos servicios y plaraformas como [Reasonator](https://reasonator.toolforge.org) y [Scholia](https://scholia.toolforge.org). ## 3. Estrategias de consulta en WQDS ## Estrategias y Recomendaciones para Consultar Wikidata mediante SPARQL Cuando se trata de explorar y extraer datos de Wikidata el punto de acceso base está en SPARQL. Por ello, el primer paso está en familiarizarse con este lenguaje, para lo cual hay una [extensa cantidad de recursos de ayuda](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/Wikidata_Query_Help/es). De manera general, se pueden realizar varias recomendaciones para ponerte a ello: + Utiliza el asistente de búsqueda + Aprende de ejemplos + Usa la IA pero con conocimiento + Comienza con consultas simples y divide la consulta en varias + Recupera solo campos imprescindibles + Limita los resultados para hacer pruebas + Filtra y fragmenta para dividir consultas costosas ## 4. Aprovechando los datos ### 4.1. Bibliometría Generar una lista de científicos, humanos, incluyendo su nombre y la universidad donde estudiaron o trabajaron. ``` SELECT DISTINCT ?cientifico ?nombreCientifico ?universidad ?nombreUniversidad WHERE { ?cientifico wdt:P31 wd:Q5; wdt:P106 wd:Q901; wdt:P108|wdt:P69 ?universidad. ?cientifico rdfs:label ?nombreCientifico. ?universidad rdfs:label ?nombreUniversidad. FILTER(LANG(?nombreCientifico) = "es"). FILTER(LANG(?nombreUniversidad) = "es"). } LIMIT 100 ``` ### 4.2. Estuidos de género Extraer nombres y género de personas nacidas en España en los últimos 20 años. ``` SELECT ?person ?givenName ?genderLabel WHERE { ?person wdt:P31 wd:Q5; wdt:P21 ?gender; wdt:P27 wd:Q29; wdt:P569 ?birthdate; wdt:P735 ?givenNameItem. ?givenNameItem rdfs:label ?givenName. ?gender rdfs:label ?genderLabel. FILTER(YEAR(?birthdate) >= 2000). FILTER(LANG(?givenName) = "es"). FILTER(LANG(?genderLabel) = "es"). } LIMIT 100 ``` ### 4.3. Análisis de trayectorias Recuperar personas que estudiaron en la Universidad de Granada y su profesión. ``` SELECT ?alumnus ?alumnusName ?occupation ?occupationName WHERE { ?alumnus wdt:P69 wd:Q1232180; wdt:P106 ?occupation. ?alumnus rdfs:label ?alumnusName. ?occupation rdfs:label ?occupationName. FILTER(LANG(?alumnusName) = "es"). FILTER(LANG(?occupationName) = "es"). } LIMIT 100 ``` ### 4.4. Análisis de redes sociales Extraer artistas que están influenciados por David Bowie. ``` SELECT ?artist ?artistLabel WHERE { ?artist wdt:P737 wd:Q5383; rdfs:label ?artistLabel. FILTER(LANG(?artistLabel) = "en"). } ``` ## 5. Constribuyendo a Wikidata No te olvides que es fundamental no solo el usar los datos sino el contribuir. Son muchos los puntos en los que puedes ayudar, por ejemplo traduciendo. --- # Información <div class="alert alert-block alert-info"> <b>Autor:</b> Wenceslao Arroyo-Machado</br> <b>Fecha de actualización:</b> 22/03/2024</br> <b>GitHub:</b> <a href="https://github.com/Wences91/teaching">https://github.com/Wences91/teaching</a> </div>