Plan zarządzania danymi badawczymi

Na grafice napis: Findable, Accessible, Interoperable, Reusable

Jak przygotować dane, aby były FAIR?

W maju odbyło się seminarium na temat zarządzania danymi badawczymi, zorganizowane przez Politechnikę Gdańską – właściciela repozytorium Most Danych. Przedstawiciele uczelni oraz NCN i GO FAIR dyskutowali nad wciąż jeszcze nowymi kwestiami, związanymi z danymi badawczymi. Warto więc przypomnieć, „co w danych piszczy”.

Pierwsze pytanie, wydawałoby się, jest dość oczywiste: czym są dane badawcze? Według definicji NCN dane „(…) obejmują wszelkiego rodzaju informacje (ilościowe i jakościowe) wytwarzane, zbierane, przetwarzane, poddawane analizie w ramach projektu badawczego, obejmujące wszystkie możliwe formaty zarówno cyfrowe, jak i niecyfrowe (np. próbki, wypełnione papierowe kwestionariusze, nagrania dźwiękowe na dyktafonie, papierowe dokumenty archiwalne): statystyki, wyniki eksperymentów, wyniki analizy treści, pomiary, obserwacje wynikające z prac terenowych, wyniki ankiet, nagrania wywiadów, obrazy, modele matematyczne, algorytmy, oprogramowanie, notatki”. Okazuje się, że w projektach różne dane są przeważnie zbierane i – zgodnie z obecnymi zaleceniami projektowymi – należy nimi odpowiednio zarządzać.

Jak opisać we wniosku grantowym zarządzanie danymi badawczymi? Przede wszystkim należy mieć na uwadze, że plan zarządzania danymi (Data Management Plan – DMP) stanowi część planu badań i powinien odzwierciedlać planowane badanie. Dlatego nie warto kopiować planu z innych projektów lub internetowych poradników. Plan trzeba dopasować do projektu, pamiętając, że jest to techniczny opis sposobu zarządzania danymi, który może się zmieniać w trakcie realizacji przedsięwzięcia. Plan zarządzania danymi podlega ocenie merytorycznej, dlatego warto poświęcić mu więcej uwagi i rzetelnie opisać cały proces jego budowania.

Można się zastanawiać, dlaczego w ogóle zarządzać danymi badawczymi i w dodatku je otwarcie udostępniać. Można wymienić kilka powodów. Jak wiadomo, wraz z rozwojem Internetu dużo się zmieniło w zakresie upowszechniania wyników badań. Wiele instytucji na świecie finansujących badania naukowe przyjęło politykę otwartości. Już w 2019 r. NCN podjęło działania mające na celu wprowadzenie polityki otwartego dostępu do danych naukowych wytworzonych lub wykorzystanych w ramach realizacji projektów finansowanych przez to centrum, a także do publikacji naukowych, zgodnie z zasadami otwartości, przejrzystości, replikowalności i weryfikowalności. Zasada przejrzystości badań jest coraz częstszym wymogiem czasopism, w których naukowcy chcą publikować swoje artykuły. Niektórzy redaktorzy naukowi wręcz życzą sobie przesłania surowych danych, na podstawie których powstał artykuł. Dane udostępnia się także w celu umożliwienia powtórzenia wcześniej przeprowadzonych badań, jako że w ostatnich latach zdarzały się w nauce przypadki p-hackingu i HARKingu (nadużyć i błędów metodologicznych).

Innym powodem jest lepsze, bardziej odpowiedzialne gospodarowanie środkami publicznymi, które nie powinny być wydawane na podobne badania, już wcześniej sfinansowane z tych samych źródeł. Na podstawie tych samych danych można bowiem formułować nowe hipotezy badawcze, rozszerzać badania, np. o aspekty porównawcze, czy też przeprowadzać metaanalizy. Zwiększa się w ten sposób dynamika prowadzenia badań naukowych, zaś środki publiczne przeznaczone na finansowanie nauki mogą być lepiej alokowane. Udostępnianie oznacza też ochronę danych przed ich utratą, co nie tylko przekłada się na dbałość o aspekt finansowy, ale i wiąże się z poszerzaniem wiedzy. Ważne jest również edukowanie innych naukowców, szczególnie rozpoczynających dopiero karierę naukową, w zakresie stosowania poszczególnych (nowych) technik czy metod badawczych.

Według badania przeprowadzonego w 2020 r. prace, które zawierają linki do danych, uzyskują o 25% wyższy wskaźnik cytowań [Colavizza, G., Hrynaszkiewicz, I., Staden, I., Whitaker, K., McGillivray, B. (2020). The citation advantage of linking publications to research data. PLoS ONE 15(4): e0230416. https://doi.org/10.1371/journal.pone.0230416]. Badacze z kolei zwiększają swoją „widzialność” w środowisku naukowym nawet wtedy, kiedy tekst nie został opublikowany lub uzyskano negatywne wyniki badania.

Plan zarządzania danymi badawczymi to jednak dopiero początek drogi. W trakcie realizowania projektu badawczego od razu warto postępować zgodnie ze wskazanymi w planie założeniami, aby nie tylko usprawnić zarządzanie danymi, ale także oszczędzić czas na koniec przedsięwzięcia, gdy nadejdzie pora przygotowania danych do udostępnienia oraz sporządzenia raportu z badań. Ideą przewodnią powinno być postępowanie z danymi w taki sposób, aby nie tylko ktoś inny (człowiek lub maszyna), ale i sami autorzy – kilka lat później – w łatwy sposób mogli skorzystać z takich zbiorów.

Najprościej jest realizować zalecenia kryjące się pod akronimem FAIR (Findable, Accessible, Interoperable, Reusable). Co to oznacza? Po pierwsze, dane powinny być łatwe do odnalezienia (findable data), a więc opisane metadanymi (najlepiej z wykorzystaniem tzw. standardu Dublin Core), nazwane i opisane słowami kluczowymi dla danej dyscypliny, opatrzone datą oraz numerem DOI. Dobrze jest je również udostępnić (accessible data) w repozytorium, które jest indeksowane w istniejących wyszukiwarkach danych badawczych. Można je znaleźć w witrynie https://www.re3data.org/. W Polsce najlepiej obecnie indeksowanym repozytorium danych jest Most Danych. Poza repozytoriami istnieją też data journals, czyli czasopisma naukowe publikujące recenzowane artykuły opisujące zbiory danych. Jeśli istnieją jakieś ważne powody, dla których danych lub ich części nie można udostępnić, należy to wskazać w DMP. Zanim autor otworzy dane, powinien je najpierw sam wykorzystać np. do napisania artykułu lub uzyskania patentu.

Interoperacyjność jest związana ze standaryzacją, a więc z możliwością łatwego wykorzystania przez inne osoby czy maszyny, co można zapewnić, stosując otwarte formaty danych (np. .csv lub .odt), odczytywane przez otwarte oprogramowanie. Jeśli nie jest to możliwe, warto wskazać, za pomocą jakiego oprogramowania można korzystać ze zbioru danych. Z pełną interoperacyjnością danych (interoperable data) mamy do czynienia wówczas, gdy zbiór udostępnia się za pośrednictwem API, zaś metadane – za pośrednictwem protokołu OAI-PMH; wtedy można go odczytywać maszynowo.

Ponowne wykorzystanie danych (reusable data) jest możliwe dzięki opisanym już procedurom: nazwaniu i klasyfikacji zbiorów danych, ich opisaniu (np. podaniu zastosowanej metodologii czy jakichś specyficznych parametrów) oraz zapisaniu w odpowiednim formacie i dodaniu metadanych. Odnosi się to również do licencji, na jakich dane są udostępniane (najlepiej, aby były to otwarte lub wolne licencje, takie jak CC 4.0. lub CC0). W ten sposób informuje się, na jakich zasadach dane mogą być ponownie wykorzystywane.

Na pierwszy rzut oka wszystkie te działania wydają się skomplikowane, ale to jest tak jak z nauką języka obcego: na początku jest trudno, a później „możemy się delektować” literaturą czytaną w oryginale. Warto również pamiętać o tym, że działania związane z otwartą nauką, w tym z zarządzaniem danymi badawczymi, trzeba uwzględniać w budżecie projektu.


dr ANNA ANETTA JANOWSKA, pełnomocniczka rektora SGH ds. otwartej nauki

Artykuł opracowano na podstawie: prezentacji dr Anety Pazik-Aybar (NCN) pt. „Otwarte dane badawcze w polityce NCN” oraz Fenrich, W. (2019). Selekcja i przygotowanie danych badawczych do udostępnienia. https://drodb.icm.edu.pl/wp-content/uploads/2019/10/Selekcja-i-przygoto…