<style>
.reveal {
font-size: 26px;
}
</style>
## Data-driven research </br> Open data
<!-- Put the link to this slide here so people can follow -->
link: https://hackmd.io/@mpalinski/ddr-open-data
---
### Plan zajęć
- Otwarte dane w nauce: same zalety?
- Przykłady dobrych, otwartych repozytoriów danych
- Jak z nich korzystać? Odświeżenie pakietu Pandas
---
### Dlaczego otwierać dane?
- Transfer wiedzy: otwarte dane + kod ułatwiają:
- reprodukcję: sprawdzenie rzetelności badawczej, sprawdzenie wrażliwości na zmianę założeń
- replikację: sprawdzenie czy wyniki danego badania można uogólnić np. na inną populację, inny okres czasu, inną dziedzinę nauki etc.
---
### Kryzys reprodukcji/replikacji
> _One-third of 18 experimental studies from two top-tier economics journals (AER and QJE) failed to successfully replicate._
[Camerer, C. et al., (2016), Evaluating replicability of laboratory experiments in economics. *Science* 351 (6280).](https://science.sciencemag.org/content/351/6280/1433)
> _The majority of the average effects in the empirical economics literature are exaggerated by a factor of at least 2 and at least one-third are exaggerated by a factor of 4 or more"._
[Ioannidis, J., et al., (2017), The Power of Bias in Economics Research. *The Economic Journal* 127 (605).](https://onlinelibrary.wiley.com/doi/abs/10.1111/ecoj.12461)
----
> _A 2016 poll of 1,500 scientists reported that 70% of them had failed to reproduce at least one other scientist's experiment (50% had failed to reproduce one of their own experiments). In 2009, 2% of scientists admitted to falsifying studies at least once and 14% admitted to personally knowing someone who did. Misconducts were reported more frequently by medical researchers than others._
[Nature Video (2016). Is There a Reproducibility Crisis in Science?. Scientific American](https://www.scientificamerican.com/video/is-there-a-reproducibility-crisis-in-science/)
[Fanelli, Daniele (2009). How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data". PLOS ONE. 4 (5).](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2685008/)
----
### Więcej o kryzysie reprodukcji/replikacji w nauce i sposobach na radzenie sobie z tym problemem: https://hackmd.io/@WHardy/BkK6NHxG_#/
---
### Jak wyglądają obecne praktyki open data w czasopismach naukowych?
### Czy udostępnianie danych jest korzystne dla autorów?
----
Rys. 1 Data availability statements (DAS).

----
Rys. 2 DAS w czasie.

Źródło: Colavizza, G., (2020), The citation advantage of linking publications to research data, *PLOS One* 15(4), https://doi.org/10.1371/journal.pone.0230416
----
## Wnioski z badania praktyk open data i ich wpływu na cytowalność
- W 2017 i 2018, 20.8% publikacji w czasopismach PLOS (Public Library of Science) i 12.2% w BMC (BioMed Central) zawierały link do repozytorium z danymi
- Artykuły z podlinkowanymi danymi (kategoria DAS 3) były cytowane średnio o 25.36% (± 1.07%) częściej. Autorzy kontrolowali w modelu m.in. jakość publikacji (indeks H).
---
## Przykładowe źródła otwartych danych
- https://www.kaggle.com/datasets
- https://projects.fivethirtyeight.com/
- https://opendatamonitor.eu/frontend/web/index.php?r=dashboard%2Findex
- https://datasetsearch.research.google.com/
- https://www.google.com/publicdata/directory
- https://registry.opendata.aws/
- https://wiki.dbpedia.org/
- https://zenodo.org/communities/ngi_forward/
---
# Ćwiczenia Pandas!

{"metaMigratedAt":"2023-06-15T20:25:26.865Z","metaMigratedFrom":"YAML","title":"Data-driven Research - Open data","breaks":true,"slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"8b999831-3930-4ead-8913-6e39a724b825\",\"add\":4245,\"del\":498}]"}