Dane badawcze

Dane badawcze (Research Data) – są to zebrane lub wytworzone dane w wyniku zastosowania różnych technik badawczych materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych. Dane badawcze można podzielić na dane surowe (uzyskane w wyniku zastosowania narzędzia badawczego) oraz dane przetworzone czyli poddane obróbce. Specyfika rodzaju danych badawczych zależy od dyscypliny, w ramach której powstają określone dane.

Przykłady danych badawczych:

  • notatki z eksperymentów, dzienniki
  • protokoły laboratoryjne, opisy procedur
  • opisy metodologiczne
  • próbki
  • artefakty, obiekty
  • dokumenty tekstowe
  • kwestionariusze, ankiety
  • nagrania audio lub wideo
  • fotografie, obrazy
  • zawartość baz danych (obrazy, teksty, nagrania audio i wideo)
  • oprogramowanie (skrypty, pliki wejściowe)
  • wyniki symulacji komputerowych
  • modele matematyczne i algorytmy

Otwarte dane badawcze

Otwarte Dane Badawcze (ang. Open Research Data – ORD) stanowią część szerszej idei, jaką jest Otwarta Nauka, na którą składa się również otwarty dostęp do publikacji (ang. Open Access – OA) oraz otwarta komunikacja naukowa (ang. Open Scholarly Communication – OSC).

Otwarte dane badawcze to dane wytworzone w trakcie badań i użyte w pracy naukowej, do których każdy użytkownik ma swobodny i bezpłatny dostęp. Dane te można wykorzystywać, modyfikować i udostępniać zgodnie z prawem. Otwieranie danych badawczych ma wiele korzyści.

Korzyści te to między innymi szersza komunikacja między naukowcami oraz możliwość nawiązania współpracy, wzrost liczby cytowań danych i opartych na nich publikacji, możliwość analizy na podstawie unikalnych danych, które nie da się powtórzyć, ocena rzetelności prowadzonych badań oraz wykorzystanie istniejących zasobów, co z kolei przyczynia się do obniżenia kosztów badań i uniknięcia konieczności kilkukrotnego wytwarzania tych samych badań. Udostępnienie i otwarcie danych badawczych ułatwia innym naukowcom prowadzenie badań oraz pozwala na skorzystanie z tych danych w przyszłości, pozwala na przeprowadzenie nowych analiz oraz zachęca do nowych interpretacji. Udostępnione dane to również bardzo dobre źródło informacji o tym, czym i w jaki sposób się zajmujemy. Zapewnienie otwartego dostępu do danych to również unikanie wcześniej popełnionych błędów badawczych (pokazywanie błędów a nie tylko sukcesów), unikanie finansowania tych samych badań i tych samych błędów badawczych (efektywne wydatkowanie środków publicznych na badania).

Oprócz korzyści płynących z udostępniania danych badawczych są wymagania narzucone przez grantodawców (np. w konkursach Narodowego Centrum Nauki), wydawców czasopism publikujących artykuły naukowe (polityka wydawców narzucająca obowiązek prezentowania danych związanych z daną publikacją), przepisy prawa i dostęp do informacji publicznej (Dyrektywą Parlamentu Europejskiego i Rady (UE) 2019/1024 z dn. 20 VI 2019 r. w sprawie otwartych danych i ponownego wykorzystywania informacji sektora publicznego oraz Ustawa z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego.)

Zgodnie z powyższą dyrektywą wyniki badań naukowych finansowanych ze środków publicznych powinny zostać opublikowane w otwartym dostępie. W unijnych programach Horyzont 2020, Horyzont Europa oraz w konkursach Narodowego Centrum Nauki ustalono zasady zarządzania danymi badawczymi oraz sposoby ich udostępniania. W Polsce powyższą dyrektywę Parlamentu Europejskiego wdraża Ustawa z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego.

Nie wszystkie dane mogą mieć charakter otwarty. Niektóre dane mogą być archiwizowane w modelu zamkniętym, z uwagi na:

  • komercjalizację wyników badań, np. zgłoszenie wynalazku do ochrony patentowej
  • bezpieczeństwo narodowe
  • ochronę danych osobowych
  • ograniczenia z tytułu praw autorskich
  • ograniczenia techniczne (zamknięty rzadko stosowany format danych, którego konwersja na format otwarty powoduje utratę jakości danych)

Informacje o istnieniu danych powinny jednak zawsze być publicznie dostępne, aby uniknąć duplikacji badań, a w przypadku danych, które nie mogą być otwarte, powinna istnieć możliwość poproszenia dostępu do nich. Repozytoria danych badawczych posiadają w swojej infrastrukturze funkcjonalności, które umożliwiają wysyłanie próśb o dostęp do danych.

Warto wiedzieć, że Unia Europejska jest liderem jeżeli chodzi o  zarządzanie danymi badawczymi. Komisja Europejska podejmuje wiele aktywności związanych z wdrażaniem inicjatywy otwartych danych badawczych.

Wdrażanie Otwartej Nauki w Unii Europejskiej:

https://commission.europa.eu/research-and-innovation_en

Dane badawcze

 

Dane badawcze (Research Data) – są to zebrane lub wytworzone dane w wyniku zastosowania różnych technik badawczych materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych. Dane badawcze można podzielić na dane surowe (uzyskane w wyniku zastosowania narzędzia badawczego) oraz dane przetworzone czyli poddane obróbce. Specyfika rodzaju danych badawczych zależy od dyscypliny, w ramach której powstają określone dane.

 

Przykłady danych badawczych:

  • notatki z eksperymentów, dzienniki
  • protokoły laboratoryjne, opisy procedur
  • opisy metodologiczne
  • próbki
  • artefakty, obiekty
  • dokumenty tekstowe
  • kwestionariusze, ankiety
  • nagrania audio lub wideo
  • fotografie, obrazy
  • zawartość baz danych (obrazy, teksty, nagrania audio i wideo)
  • oprogramowanie (skrypty, pliki wejściowe)
  • wyniki symulacji komputerowych
  • modele matematyczne i algorytmy

 

Otwarte dane badawcze

 

Otwarte Dane Badawcze (ang. Open Research Data – ORD) stanowią część szerszej idei, jaką jest Otwarta Nauka, na którą składa się również otwarty dostęp do publikacji (ang. Open Access – OA) oraz otwarta komunikacja naukowa (ang. Open Scholarly Communication – OSC).

 

Otwarte dane badawcze to dane wytworzone w trakcie badań i użyte w pracy naukowej, do których każdy użytkownik ma swobodny i bezpłatny dostęp. Dane te można wykorzystywać, modyfikować i udostępniać zgodnie z prawem. Otwieranie danych badawczych ma wiele korzyści.

 

Korzyści te to między innymi szersza komunikacja między naukowcami oraz możliwość nawiązania współpracy, wzrost liczby cytowań danych i opartych na nich publikacji, możliwość analizy na podstawie unikalnych danych, które nie da się powtórzyć, ocena rzetelności prowadzonych badań oraz wykorzystanie istniejących zasobów, co z kolei przyczynia się do obniżenia kosztów badań i uniknięcia konieczności kilkukrotnego wytwarzania tych samych badań. Udostępnienie i otwarcie danych badawczych ułatwia innym naukowcom prowadzenie badań oraz pozwala na skorzystanie z tych danych w przyszłości, pozwala na przeprowadzenie nowych analiz oraz zachęca do nowych interpretacji. Udostępnione dane to również bardzo dobre źródło informacji o tym, czym i w jaki sposób się zajmujemy. Zapewnienie otwartego dostępu do danych to również unikanie wcześniej popełnionych błędów badawczych (pokazywanie błędów a nie tylko sukcesów), unikanie finansowania tych samych badań i tych samych błędów badawczych (efektywne wydatkowanie środków publicznych na badania).

 

Oprócz korzyści płynących z udostępniania danych badawczych są wymagania narzucone przez grantodawców (np. w konkursach Narodowego Centrum Nauki), wydawców czasopism publikujących artykuły naukowe (polityka wydawców narzucająca obowiązek prezentowania danych związanych z daną publikacją), przepisy prawa i dostęp do informacji publicznej (Dyrektywą Parlamentu Europejskiego i Rady (UE) 2019/1024 z dn. 20 VI 2019 r. w sprawie otwartych danych i ponownego wykorzystywania informacji sektora publicznego oraz Ustawa z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego.)

 

Zgodnie z powyższą dyrektywą wyniki badań naukowych finansowanych ze środków publicznych powinny zostać opublikowane w otwartym dostępie. W unijnych programach Horyzont 2020, Horyzont Europa oraz w konkursach Narodowego Centrum Nauki ustalono zasady zarządzania danymi badawczymi oraz sposoby ich udostępniania. W Polsce powyższą dyrektywę Parlamentu Europejskiego wdraża Ustawa z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego.

 

Nie wszystkie dane mogą mieć charakter otwarty. Niektóre dane mogą być archiwizowane w modelu zamkniętym, z uwagi na:

  • komercjalizację wyników badań, np. zgłoszenie wynalazku do ochrony patentowej
  • bezpieczeństwo narodowe
  • ochronę danych osobowych
  • ograniczenia z tytułu praw autorskich
  • ograniczenia techniczne (zamknięty rzadko stosowany format danych, którego konwersja na format otwarty powoduje utratę jakości danych)

 

Informacje o istnieniu danych powinny jednak zawsze być publicznie dostępne, aby uniknąć duplikacji badań, a w przypadku danych, które nie mogą być otwarte, powinna istnieć możliwość poproszenia dostępu do nich. Repozytoria danych badawczych posiadają w swojej infrastrukturze funkcjonalności, które umożliwiają wysyłanie próśb o dostęp do danych.

 

Warto wiedzieć, że Unia Europejska jest liderem jeżeli chodzi o  zarządzanie danymi badawczymi. Komisja Europejska podejmuje wiele aktywności związanych z wdrażaniem inicjatywy otwartych danych badawczych.

 

Wdrażanie Otwartej Nauki w Unii Europejskiej:

https://commission.europa.eu/research-and-innovation_en

Po etapie pozyskiwania danych zgodnie z przyjęta metodologią konieczne jest podjęcie decyzji, czy dane zostaną udostępnione czy nie a przede wszystkim czy dane mogą zostać udostępnione Ze względu na wymagania grantodawcy bądź wydawcy oraz w celu weryfikacji wyników przedstawionych w określonej publikacji naukowej, dane powinny być otwarte co najmniej w zakresie wymaganym.

 

Dane badawcze udostępniane są standardowo w formie tzw. datasetów stanowiących odrębną całość. Datasety zawierają najczęściej dane powiązane z jedną publikacją, projektem badawczym czy też eksperymentem. Zbiory danych badawczych powinny być opisane za pomocą metadanych (metadane to “dane o danych”), co zapewnia z kolei prawidłowe ich indeksowanie, wyszukanie oraz ponowne wykorzystanie. W ten sposób spełnione są zasady FAIR.

 

Etapy przygotowania danych do udostępniania:

 

  1. Selekcja

 

Należy wybrać dane, które muszą zostać udostępnione. Przy wyborze danych do udostępniania należy kierować się przede wszystkim wymaganiami instytucji finansujących badania naukowe oraz wartościami naukowymi danych, które w przyszłości mogłyby być wykorzystane przez innych badaczy

  1. Usunięcie danych wrażliwych

 

Jeżeli mamy do czynienia z badaniami z udziałem ludzi (są to najczęściej badania medyczne bądź ankietowe), mamy do czynienia z danymi wrażliwymi oraz osobowymi. Jeżeli  dane te umożliwiają identyfikację innych osób, należy rozważyć anonimizację lub pseudonimizację. Anonimizacja polega na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby. Pseudonimizacja to przetworzenie danych tak, by nie można ich było przypisać osobie, której te dane dotyczą, bez użycia dodatkowych informacji. Różnica między pseudonimizacją i anonimizacją dotyczy odwracalności. Anonimizacja jest procesem nieodwracalnym, pseudonimizacja zaś jest odwracalna.

  1. Odpowiednie formaty plików

 

Spełniając zasady FAIR oraz wytyczne Narodowego Centrum Nauki, dane należy udostępnić w ogólnodostępnym formacie, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie (ASCII, UTF-8). Należy również wziąć pod uwagę, jakie formaty plików funkcjonują dla danej dyscypliny, tak aby po pobraniu określonego zbioru danych nie była konieczna dodatkowa konwersja formatu zamkniętego na otwarty, która mogłaby się przyczynić do utraty jakości danych bądź ich zniekształcenia.

  1. Przemyślane nazewnictwo folderów i plików

 

Należy zaplanować odpowiednią strukturę folderów i plików oraz ich nazewnictwo tak, aby w przyszłości dane w nich zawarte mogły być bez problemu odnalezione i wykorzystane. Nazwy plików powinny mieć charakter opisowy (odzwierciedlający zawartość pliku).Ważne elementy, na które zawsze powinniśmy zwracać uwagę: należy używać się tylko cyfr, liter i znaków podkreślenia, nie należy używać się znaków specjalnych, myślników, spacji, daty powinny mieć standardowy format np. DDMMYYYY, numeracja sekwencyjna powinna pozwalać na wzrost i zawierać wiodące zera, np. jeżeli jest to 100 plików, nazwy powinny zaczynać się od 001 do 100.

  1. Wersjonowanie

 

Wersjonowanie to sposób na śledzenie zmian w procesie bądź w zestawach danych. Wiele repozytoriów danych badawczych umożliwia tworzenie kolejnych wersji dla określonych zbiorów danych. Przy wersjonowaniu ważne jest używanie konwencji w nazewnictwie plików, np. nagłówki plików.

 

W celu przygotowania danych do udostępnienia, można skorzystać z gotowych narzędzi np. do czyszczenia danych np. OpenRefine https://openrefine.org/ czy też do masowej zmiany nazw plików np. Renamer https://renamer.com/

 

Więcej informacji na temat selekcji i przygotowania danych do udostępniania:

https://drodb.icm.edu.pl/wp-content/uploads/2019/10/Selekcja-i-przygotowanie-danych-badawczych-do-udost%C4%99pnienia.pdf

Plan zarządzania danymi badawczymi

 

Plan Zarządzania Danymi, czyli Data Management Plan (DMP) to dokument opisujący czynności wykonywane na każdym etapie pracy z danymi badawczymi. DMP powinien powstać już na wstępnym etapie badań naukowych. Plan zarządzania danymi to podstawowe narzędzie do zarządzania danymi badawczymi, które zawiera szczegółowe informacje o rodzajach danych badawczych, zasadach korzystania z nich, w tym procedur ich udostępniania i archiwizacji w trakcie i po zakończeniu badań naukowych lub procesu badawczego. Plan Zarządzania Danymi jest wymagany przez instytucje i agencje przyznające środki finansowe na badania naukowe (konkursy Narodowego Centrum Nauki, granty w programach Horyzont 2020 i Horyzont Europa finansowanych przez Komisję Europejską). DMP ma charakter dokumentu dynamicznego, który może i powinien zmieniać się w trakcie realizacji projektu badawczego.

 

Plan zarządzania danymi to część planu badań, pokazuje tzw. cykl życia danych od momentu ich wytworzenia aż do zarchiwizowania/zdeponowania w repozytorium. Jego celem jest uzupełnienie planu badań o techniczny opis sposobu zarządzania danymi w czasie realizacji projektu i po jego zakończeniu.

 

Struktura planu zarządzania danymi

 

W planie należy opisać, z jakich danych wnioskodawcy będą korzystali w trakcie swojej pracy:

  • w jaki sposób dane zostaną wytworzone (np. czy zostaną samodzielnie wytworzone, czy będą wykorzystane dane wtórne.)
  • kto będzie miał do nich prawa
  • czy będą udostępniane innym użytkownikom i na jakich zasadach
  • gdzie będą przechowywane
  • w jaki sposób zostaną opisane

 

Plan Zarządzania Danymi badawczymi (DMP) przygotowuje się na etapie składania wniosku o grant. Dostępny jest wzór planu, jaki należy złożyć, szablon jest podzielony na 6 części – w każdej z nich znajduje się zestaw pytań. Format jest identyczny dla wszystkich konkursów i naborów ale DMP musi być dostosowany do projektu.

 

DMP jest dokumentem dynamicznym i może podlegać zmianom w trakcie realizacji projektu. Zalecane jest uaktualnianie Planu Zarządzania Danymi w trakcie trwania projektu, nie ma obowiązku informowania NCN o zmianach w planie. W raporcie końcowym należy opisać stan faktyczny dotyczący danych w projekcie – na dzień zakończenia projektu. Może on być inny niż początkowo planowany.

 

NCN udostępnia wytyczne dotyczące przygotowania planu zarządzania danymi:

https://ncn.gov.pl/sites/default/files/pliki/regulaminy/wytyczne_zarzadzanie_danymi.pdf

Plan zarządzania danymi badawczymi – najczęściej zadawane pytania:

https://www.ncn.gov.pl/aktualnosci/2020-03-06-plan-zarzadzania-danymi-pytania

 

Od czerwca 2019 roku Narodowe Centrum Nauki wprowadziło obowiązek przygotowania takich planów w ramach organizowanych przez NCN konkursów grantowych (od 33. edycji konkursów).

 

Ocena planów zarządzania danymi w Narodowym Centrum Nauki

 

Plan zarządzania danymi podlega ocenie merytorycznej oraz formalnej. Ocena formalna dokonywana jest przez pracowników Narodowego Centrum Nauki, natomiast ocenę  merytoryczną przeprowadzają niezależni eksperci z konkretnej dziedziny. W raportach rocznych należy opisać kwestie związane z udostępnianiem danych powiązanych z publikacjami (jeżeli dotyczy), natomiast w raporcie końcowym stan faktyczny na koniec realizacji projektu i wskazać zestawy udostępnionych danych wraz z informacją o metadanych. W razie braku kompletnego planu lub błędów w jego realizacji Narodowe Centrum Nauki może wezwać do uzupełnień bądź wprowadzić przewidziane w umowie sankcje.

 

Przydatne narzędzia do tworzenia DMP:

  • DMPTool – narzędzie online służące tworzeniu planów zarządzania danymi; zawiera przykłady planów,
  • DMPonline – kreator planów zarządzania danymi badawczymi,
  • ARGOS – zawiera dwie funkcjonalności: kreator planu zarządzania danymi (DMP) oraz kreator zbioru danych (dataset)

Lista kontrolna DCC (Checklist for a Data Management Plan) – pozwala szybko określić, jakich informacji może brakować w przygotowywanym PZD.