# Explorando Wikidata para la investigación en Ciencias Sociales
---
# Explorando Wikidata para la Investigación en Ciencias Sociales
## Preámbulo
Dentro del amplio espectro de fuentes de datos para la investigación en Ciencias Sociales, es crucial reconocer la importancia de acceder a bases de datos de conocimiento libre y colaborativas. Estas plataformas son fundamentales no solo por la amplitud y profundidad de información que ofrecen, sino también por fomentar la apertura de datos. Permiten el análisis detallado y una comprensión amplia de temas sociales, económicos y culturales, impulsando la innovación metodológica.
## 1. Sobre Wikidata
### 1.1. ¿Qué es?
**Wikidata** es una extensa base de datos documental colaborativa. Se trata de un *Open Knowledge Graph*. Un tipo de base de datos orientado a grafos que permite almacenar datos interconectados y modelar información compleja de manera que tanto máquinas como humanos puedan entenderla y utilizarla eficientemente. Un grafo esta compuesto de dos elementos:
+ **Entidades** - elemento del mundo real
+ **Relaciones** - conexión semántica entre dos entidades
A partir de ello se pueden contruir frase o tripletas, que es la únión básica de dos entidas por medio de una relación. Por ejemplo:
![grafo](https://hackmd.io/_uploads/HyBg9RcA6.png)
### 1.2. ¿En que se diferencia de Wikipedia?
A diferencia de **Wikipedia**, que contiene artículos enciclopédicos, Wikidata permite recopilar y compartir datos estructurados de cualquier tipo de entidad, ya esté presente o no en Wikipedia, y orientada a su reutilización. En Wikidata, los elementos se organizan por ítems, propiedades y declaraciones, permitiendo una consulta y análisis de datos mucho más flexible y poderoso.
Además, mientras los usuarios contribuyen a Wikipedia escribiendo y editando texto, en Wikidata, añaden y mantienen datos en un formato estructurado. Esto hace que Wikidata sea una herramienta invaluable para proyectos que requieren acceso a datos estructurados y actualizados, abriendo nuevas posibilidades para la investigación, especialmente en las Ciencias Sociales.
### 1.3. Estructura de Wikidata
En el caso concreto de Wikidata [son varios los elementos a conisderar](https://www.wikidata.org/wiki/Wikidata:Glossary/es), destacando sobre todo:
+ **Ítems (*Items*)**: son las entidad. Cada ítem tiene una etiqueta (nombre), una descripción, y un identificador único que comienza con una Q seguida de un número.
+ **Propiedades (*Properties*)**: permiten describir los datos de los ítems y establecer relaciones entre ellos. Las propiedades también tienen su propio identificador único que comienza con una P seguida de un número.
+ **Declaraciones (*Statements*)**: son las sentencias construidas a partir de ítems y propiedades.
Además de ellos existen otros elementos relevantes, como las **referencias** para ofrecer soporte a los datos.
## 2. Búsqueda y consulta
Como se trata de Open Knowledge Graph los datos pueden ser consultados de multiples maneras. De manera general diferenciaremos:
+ **Wikidata Search**: buscador básico y desde el cual es posible colaborar.
+ **Wikidata Query Service (WDQS)**: herramienta principal para la consulta masiva mediante SPARQL.
+ **Otros servicios**: al ser los datos y estructura completamente abierta se facilita la posibilidad de generación de nuevos servicios y plaraformas como [Reasonator](https://reasonator.toolforge.org) y [Scholia](https://scholia.toolforge.org).
## 3. Estrategias de consulta en WQDS
## Estrategias y Recomendaciones para Consultar Wikidata mediante SPARQL
Cuando se trata de explorar y extraer datos de Wikidata el punto de acceso base está en SPARQL. Por ello, el primer paso está en familiarizarse con este lenguaje, para lo cual hay una [extensa cantidad de recursos de ayuda](https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/Wikidata_Query_Help/es).
De manera general, se pueden realizar varias recomendaciones para ponerte a ello:
+ Utiliza el asistente de búsqueda
+ Aprende de ejemplos
+ Usa la IA pero con conocimiento
+ Comienza con consultas simples y divide la consulta en varias
+ Recupera solo campos imprescindibles
+ Limita los resultados para hacer pruebas
+ Filtra y fragmenta para dividir consultas costosas
## 4. Aprovechando los datos
### 4.1. Bibliometría
Generar una lista de científicos, humanos, incluyendo su nombre y la universidad donde estudiaron o trabajaron.
```
SELECT DISTINCT ?cientifico ?nombreCientifico ?universidad ?nombreUniversidad WHERE {
?cientifico wdt:P31 wd:Q5;
wdt:P106 wd:Q901;
wdt:P108|wdt:P69 ?universidad.
?cientifico rdfs:label ?nombreCientifico.
?universidad rdfs:label ?nombreUniversidad.
FILTER(LANG(?nombreCientifico) = "es").
FILTER(LANG(?nombreUniversidad) = "es").
} LIMIT 100
```
### 4.2. Estuidos de género
Extraer nombres y género de personas nacidas en España en los últimos 20 años.
```
SELECT ?person ?givenName ?genderLabel WHERE {
?person wdt:P31 wd:Q5;
wdt:P21 ?gender;
wdt:P27 wd:Q29;
wdt:P569 ?birthdate;
wdt:P735 ?givenNameItem.
?givenNameItem rdfs:label ?givenName.
?gender rdfs:label ?genderLabel.
FILTER(YEAR(?birthdate) >= 2000).
FILTER(LANG(?givenName) = "es").
FILTER(LANG(?genderLabel) = "es").
} LIMIT 100
```
### 4.3. Análisis de trayectorias
Recuperar personas que estudiaron en la Universidad de Granada y su profesión.
```
SELECT ?alumnus ?alumnusName ?occupation ?occupationName WHERE {
?alumnus wdt:P69 wd:Q1232180;
wdt:P106 ?occupation.
?alumnus rdfs:label ?alumnusName.
?occupation rdfs:label ?occupationName.
FILTER(LANG(?alumnusName) = "es").
FILTER(LANG(?occupationName) = "es").
} LIMIT 100
```
### 4.4. Análisis de redes sociales
Extraer artistas que están influenciados por David Bowie.
```
SELECT ?artist ?artistLabel WHERE {
?artist wdt:P737 wd:Q5383;
rdfs:label ?artistLabel.
FILTER(LANG(?artistLabel) = "en").
}
```
## 5. Constribuyendo a Wikidata
No te olvides que es fundamental no solo el usar los datos sino el contribuir. Son muchos los puntos en los que puedes ayudar, por ejemplo traduciendo.
---
# Información
<div class="alert alert-block alert-info">
<b>Autor:</b> Wenceslao Arroyo-Machado</br>
<b>Fecha de actualización:</b> 22/03/2024</br>
<b>GitHub:</b> <a href="https://github.com/Wences91/teaching">https://github.com/Wences91/teaching</a>
</div>