Zarządzanie danymi badawczymi – widać światełko w tunelu

Komunikat o błędzie

Wykryto nieprawidłowe ustawienie. Proszę się skontaktować z administratorem.
Zarządzanie danymi badawczymi – widać światełko w tunelu. RZECZYOBRAZKOWE

O niektórych aspektach zarządzania danymi badawczymi pisaliśmy już w artykule opublikowanym w zimowym wydaniu „Gazety SGH”. Dziś kontynuujemy temat na podstawie informacji i poradników, jakie kilka polskich uczelni stworzyło już dla swoich pracowników. Nie ma ich jeszcze zbyt wiele, gdyż zagadnienie jest stosunkowo nowe. 

Przypomnijmy, że Narodowe Centrum Nauki we wnioskach grantowych wymaga dziś przygotowania planu zarządzania danymi badawczymi, który uznawany jest za część planu badań i oceniany podobnie jak część merytoryczna projektu. O czym należy pamiętać przy przygotowywaniu takiego planu? Trzeba zacząć od opisania, jakie dane zostaną wytworzone w projekcie, zebrane lub zakupione, jak zostaną one uporządkowane i opisane – ze wskazaniem metodologii, standardów danych i rodzajów metadanych, w jaki sposób potraktowane zostaną kwestie etyczne i prawne, a więc z jednej strony sprawa danych niejawnych, a z drugiej – własności intelektualnej, w tym prawa autorskiego oraz innych regulacji odnoszących się do baz danych

Kolejnym ważnym zagadnieniem jest wskazanie, które dane będą przechowywane długoterminowo, jak będą one przechowywane i chronione, a także które dane i w jaki sposób będą udostępniane. Przy czym należy pamiętać, że długofalowym celem wprowadzenia omawianej koncepcji zarządzania danymi jest udostępnienie w otwartym dostępie możliwie szybko tak wielu danych, jak to tylko możliwe.

W planie zarządzania danymi badawczymi ważne jest określenie, jakie dane będą wytwarzane, zebrane czy zakupione i mogą to być np.: dokumenty tekstowe, notatki, dane liczbowe, kwestionariusze, ankiety i wyniki badań ankietowych, nagrania audio i wideo, a także zdjęcia, próbki, artefakty, obiekty, modele matematyczne, algorytmy, oprogramowanie, wyniki symulacji komputerowych, protokoły laboratoryjne czy też opisy metodologiczne. Należy również wskazać planowaną wielkość (wolumen) danych, sposób ich pozyskiwania, wytwarzania czy zakupu, a także w jaki sposób będzie kontrolowana i dokumentowana jakość i spójność danych.

Dane zebrane lub wytworzone w projekcie powinny być odpowiednio sformatowane, najlepiej zgodnie z otwartymi formatami i według standardowego kodowania (więcej na ten temat w poprzednim wydaniu „Gazety SGH”). Najlepiej zadbać o tę kwestię od samego początku realizacji projektu i stosować od razu zalecane formaty, by później, zwłaszcza gdy przejdziemy do etapu udostępniania danych, oszczędzić sobie dodatkowej pracy zmiany formatów i kodowania. 

Dane powinny być odpowiednio przechowywane, zarówno w trakcie trwania projektu, jak i po jego zakończeniu. NCN zaleca, aby minimalnym okresem przechowywania danych było 10 lat i odnosi się to do wszystkich zgromadzonych danych, zarówno przeznaczonych do otwarcia, jak i danych zamkniętych. Ważna jest więc tutaj klasyfikacja poszczególnych danych: ich uporządkowanie i opisanie zbiorów. Jeśli chodzi o przechowywanie bieżące oraz późniejszą archiwizację, wykorzystać będzie można infrastrukturę uczelni. Powinna ona zapewnić procedury techniczne dotyczące m.in. zabezpieczenia i ochrony danych, ich przenoszenia oraz tworzenia kopii zapasowych. Ważne jest także wskazanie w procedurach osób, które będą miały dostęp do poszczególnych rodzajów danych w trakcie trwania projektu, oraz określenie zasad tego dostępu. Obszar ten pozostaje w SGH w gestii Centrum Technologii Informatycznych, które będzie wspierało badaczy w tym zakresie.

Przechowywanie, szczególnie po zakończeniu projektu, wiąże się również z udostępnianiem w sposób otwarty, zgodnie z zasadami FAIR (o tym więcej także w poprzednim numerze „Gazety SGH”). Oczywiście nie wszystkie dane mogą czy powinny być udostępniane, o czym decyduje nie tylko badacz, ale też przepisy dotyczące ochrony danych. Naczelną zasadą jest udostępnianie maksymalnie dużej ilości danych z projektu w możliwie najkrótszym czasie, zgodnie z koncepcją open data. Dlatego w planie zarządzania trzeba dokładnie opisać, jakie dane będą mogły zostać udostępnione (wspomniana już wyżej klasyfikacja danych), kiedy, czy będzie to dostęp pełny, czy ograniczony oraz czy inni badacze będą mogli te dane ponownie wykorzystać. W tym celu stosuje się specjalne, otwarte licencje, takie jak Creative Commons 0, Creative Commons BY czy Creative Commons BY SA, a także Open Data Commons – czyli licencje regulujące udostępnianie baz danych. Z kolei dane wrażliwe powinny być zabezpieczone we właściwy sposób, zgodnie z polityką ochrony danych uczelni.

Należy pamiętać, że jedną z zasad FAIR jest łatwość znalezienia danych (ang. data findable), czemu służy właściwe ich opisanie za pomocą tzw. metadanych. Chodzi tutaj o opisanie całego zbioru danych za pomocą takich informacji jak nazwisko autora, tytuł, data utworzenia czy licencja. Najlepiej wykorzystać w tym celu międzynarodowe standardy, np. Dublin Core czy Open AIRE. 

Podczas gdy do archiwizacji będzie można korzystać z infrastruktury technicznej uczelni, to w celu udostępnienia warto się zainteresować istniejącymi w Polsce i na świecie repozytoriami danych. Istnieją repozytoria ogólne, tematyczne, specjalistyczne bądź też instytucjonalne. Wśród nich warto polecić Zenodo – repozytorium, które powstało jako wspólny projekt OpenAIRE oraz CERN, a także RepOD – stworzone przez ICM UW. Obydwa repozytoria umożliwiają archiwizację i udostępnianie tzw. małych danych. ICM przygotowuje obecnie jeszcze inne platformy, które będzie można wykorzystywać. Inne istniejące repozytoria można odnaleźć za pomocą wyszukiwarki repozytoriów danych: re3data.org (Registry of Research Data Repositories). Okazuje się, że na świecie funkcjonuje aż 835 repozytoriów danych z dziedziny nauk humanistycznych i społecznych, z czego 186 w obszarze ekonomii, z których w większości można swobodnie korzystać. W Unii Europejskiej jest takich repozytoriów danych aż 262, co może się szczególnie przydać przy okazji realizowania projektów europejskich.

Na początku marca odbyło się w SGH spotkanie poświęcone kwestii zarządzania danymi badawczymi, na które zostali zaproszeni eksperci z ICM UW zajmujący się otwartą nauką. Ze strony naszej uczelni wzięli w nimi udział prorektor ds. współpracy z zagranicą, przedstawiciele Działu Obsługi Projektów SGH, Działu Nauki SGH, Biblioteki SGH, Centrum Przedsiębiorczości i Transferu Technologii, Centrum Technologii Informatycznych, Działu Radców Prawnych SGH oraz pełnomocnik rektora ds. otwartego dostępu. Celem spotkania było przede wszystkim uświadomienie władzom uczelni, a także pracownikom administracji wspierającym naszych badaczy, jak żywotną sprawą jest zarządzanie danymi badawczymi oraz że należy przygotować naszym naukowcom pomoc w tym zakresie. Postawiliśmy już więc pierwszy krok, pora na kolejne.

Eksperci z ICM UW przeprowadzą dla naszych badaczy szkolenia dotyczące zarządzania danymi badawczymi, zarówno jeśli chodzi o kwestie techniczne, jak i prawne. O terminach szkoleń będziemy informować na bieżąco.

Poradnik – plan zarządzania danymi badawczymi
Plan zarządzania danymi badawczymi – Uniwersytet Mikołaja Kopernika w Toruniu 
Prawne aspekty otwierania danych – poradnik (Krzysztof Siewicz, Nikodem Rycko)
Practical Guide to the International Alignment of Research Data Management
Open Data Kit – zestaw narzędzi działających na zasadzie open source służących do zbierania danych, zarządzania nimi oraz ich wykorzystywania.