<style> .reveal { font-size: 26px; } </style> ## Data-driven research </br> Open data <!-- Put the link to this slide here so people can follow --> link: https://hackmd.io/@mpalinski/ddr-open-data --- ### Plan zajęć - Otwarte dane w nauce: same zalety? - Przykłady dobrych, otwartych repozytoriów danych - Jak z nich korzystać? Odświeżenie pakietu Pandas --- ### Dlaczego otwierać dane? - Transfer wiedzy: otwarte dane + kod ułatwiają: - reprodukcję: sprawdzenie rzetelności badawczej, sprawdzenie wrażliwości na zmianę założeń - replikację: sprawdzenie czy wyniki danego badania można uogólnić np. na inną populację, inny okres czasu, inną dziedzinę nauki etc. --- ### Kryzys reprodukcji/replikacji > _One-third of 18 experimental studies from two top-tier economics journals (AER and QJE) failed to successfully replicate._ [Camerer, C. et al., (2016), Evaluating replicability of laboratory experiments in economics. *Science* 351 (6280).](https://science.sciencemag.org/content/351/6280/1433) > _The majority of the average effects in the empirical economics literature are exaggerated by a factor of at least 2 and at least one-third are exaggerated by a factor of 4 or more"._ [Ioannidis, J., et al., (2017), The Power of Bias in Economics Research. *The Economic Journal* 127 (605).](https://onlinelibrary.wiley.com/doi/abs/10.1111/ecoj.12461) ---- > _A 2016 poll of 1,500 scientists reported that 70% of them had failed to reproduce at least one other scientist's experiment (50% had failed to reproduce one of their own experiments). In 2009, 2% of scientists admitted to falsifying studies at least once and 14% admitted to personally knowing someone who did. Misconducts were reported more frequently by medical researchers than others._ [Nature Video (2016). Is There a Reproducibility Crisis in Science?. Scientific American](https://www.scientificamerican.com/video/is-there-a-reproducibility-crisis-in-science/) [Fanelli, Daniele (2009). How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data". PLOS ONE. 4 (5).](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2685008/) ---- ### Więcej o kryzysie reprodukcji/replikacji w nauce i sposobach na radzenie sobie z tym problemem: https://hackmd.io/@WHardy/BkK6NHxG_#/ --- ### Jak wyglądają obecne praktyki open data w czasopismach naukowych? ### Czy udostępnianie danych jest korzystne dla autorów? ---- Rys. 1 Data availability statements (DAS). ![](https://i.imgur.com/FUqH4Sv.png) ---- Rys. 2 DAS w czasie. ![](https://i.imgur.com/mLY3Lf0.png) Źródło: Colavizza, G., (2020), The citation advantage of linking publications to research data, *PLOS One* 15(4), https://doi.org/10.1371/journal.pone.0230416 ---- ## Wnioski z badania praktyk open data i ich wpływu na cytowalność - W 2017 i 2018, 20.8% publikacji w czasopismach PLOS (Public Library of Science) i 12.2% w BMC (BioMed Central) zawierały link do repozytorium z danymi - Artykuły z podlinkowanymi danymi (kategoria DAS 3) były cytowane średnio o 25.36% (± 1.07%) częściej. Autorzy kontrolowali w modelu m.in. jakość publikacji (indeks H). --- ## Przykładowe źródła otwartych danych - https://www.kaggle.com/datasets - https://projects.fivethirtyeight.com/ - https://opendatamonitor.eu/frontend/web/index.php?r=dashboard%2Findex - https://datasetsearch.research.google.com/ - https://www.google.com/publicdata/directory - https://registry.opendata.aws/ - https://wiki.dbpedia.org/ - https://zenodo.org/communities/ngi_forward/ --- # Ćwiczenia Pandas! ![](https://i.imgur.com/MkYfCvv.jpg)
{"metaMigratedAt":"2023-06-15T20:25:26.865Z","metaMigratedFrom":"YAML","title":"Data-driven Research - Open data","breaks":true,"slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"8b999831-3930-4ead-8913-6e39a724b825\",\"add\":4245,\"del\":498}]"}
    281 views