Zarządzanie danymi badawczymi – bestia, którą trzeba oswoić

Zarządzanie danymi badawczymi – bestia, którą trzeba oswoić

W ostatnim konkursie grantowym NCN wprowadziło do wniosku nową, sporą rubrykę, która u jednych badaczy wywołała lekki niepokój, a u innych zupełną bezradność. W rubryce tej chodziło bowiem o opisanie sposobu zarządzania danymi badawczymi w projekcie. Czym są dane badawcze i na czym polega zarządzanie nimi?

Należy zacząć od tego, że 6 czerwca 2019 r. Rada UE zaakceptowała dyrektywę o otwartych danych i ponownym wykorzystaniu informacji sektora publicznego, która ma wejść w życie w 2021 r. W dyrektywie tej zobowiązuje się podmioty takie jak instytucje naukowe i instytucje finansujące badania do przekazywania bezpłatnie wszystkim zainteresowanym danych wytworzonych w toku badań, umożliwiając ponowne wykorzystanie tych danych, zarówno w celach niekomercyjnych, jak i komercyjnych. Chodzi tutaj o informacje, których wytworzenie bądź uzyskanie zostało sfinansowane ze środków publicznych. Dane badawcze zdefiniowano tutaj jako „dokumenty w formie cyfrowej, inne niż publikacje naukowe, które są gromadzone lub opracowywane w ramach działalności badawczo-naukowej i są wykorzystywane jako dowody w procesie badawczym bądź też są powszechnie akceptowane w środowisku naukowym jako konieczne do weryfikacji poprawności ustaleń i wyników badań” (art. 2, p. 9). Możemy więc do nich zaliczyć m.in.: wyniki pomiarów, eksperymentów, obserwacji, ankiet, zdjęcia, nagrania wywiadów, specyfikacje i metadane. Działanie NCN jest tym samym pierwszym krokiem w kierunku realizacji zaleceń dyrektywy, testowanych wcześniej w programie Horyzont 2020 w ramach fazy pilotażowej „Open Research Data Pilot”.

Zarządzanie danymi badawczymi to proces złożony i wieloetapowy, polegający m.in. na stworzeniu schematu zarządzania danymi w trakcie realizowania projektu i po jego zakończeniu, czyli zasadzający się na określeniu, jakie dane zostaną wytworzone lub zebrane, na ich odpowiednim opisaniu, zapisie w konkretnych formatach, wskazaniu, w jaki sposób będą wykorzystywane, na decyzji, które z nich i jak zostaną udostępnione, a także na odpowiedniej archiwizacji i zabezpieczeniu danych. Przykłady planów zarządzania można znaleźć na stronie DMPonline (dmponline.dcc.ac.uk). Zaleca się udostępnianie jak największej ilości danych w sposób otwarty, zgodnie z zasadami FAIR, co oznacza, że dane powinny być: 1. możliwe do znalezienia (findable), 2. dostępne (accessible), 3. interoperacyjne (interoperable), 4. możliwe do ponownego wykorzystania (re-usable). Zatem wchodzą tutaj w grę zarówno kwestie techniczne, jak i prawne. Ze względu na złożoność zagadnienia poniżej omówione zostaną niektóre techniczne aspekty zarządzania danymi badawczymi, odpowiadające dwóm elementom FAIR: findable i interoperable.

Jak znaleźć dane? Albo inaczej: jak je udostępniać, aby było je łatwo znaleźć? Pierwsza sprawa to zapisanie ich w odpowiednim formacie w taki sposób, aby były zrozumiałe zarówno dla ludzi, jak i dla maszyn, a także by były otwarte. Istotne jest tutaj uniknięcie problemów związanych z koniecznością posiadania komercyjnego oprogramowania do korzystania z takich danych. Dlatego np. zamiast zapisywania dokumentów w formatach MS Office firmy Microsoft, takich jak .doc czy .xls, należy korzystać z formatów otwartych, czyli .odt lub .ods (Open Document Format for Office Applications). W przypadku danych tabelarycznych właściwy jest format .csv, dla zdjęć .png, dla danych geoprzestrzennych .json lub .geojson czy też .kml i .kmz. Dzięki zastosowaniu otwartych formatów, a także standardowego kodowania (np. Unicode czy ASCII) dane pochodzące z różnych zbiorów można również w łatwy sposób łączyć, nadając im w ten sposób nową wartość.

Kolejną kwestią jest opisanie zbiorów danych za pomocą metadanych, czyli informacji odnoszących się do całego zbioru i zawierających np.: nazwisko autora, tytuł, datę utworzenia czy licencję. Istnieje wiele międzynarodowych standardów metadanych, wśród których najbardziej popularne to: Dublin Core (https://www.dublincore.org/specifications) czy też Open AIRE (https://guidelines.openaire.eu/en/latest/data/index.html). Właściwie opisane zbiory, do tego odpowiednio nazwane (nazwa pliku z danymi), są w ten sposób łatwe do odnalezienia, szczególnie przez algorytmy wyszukiwarek danych. Jedną z najpopularniejszych wyszukiwarek takich baz jest re3data.org (Registry of Research Data Repositories) zawierająca zbiór repozytoriów danych z różnych dyscyplin naukowych.

W odnalezieniu danych pomaga również zdeponowanie ich w repozytorium indeksowanym przez popularne wyszukiwarki. COR SGH, repozytorium otwarte niedawno w SGH, nie pozwala deponować danych, jest bowiem przeznaczone do archiwizacji publikacji naukowych. Mamy jednak do dyspozycji narzędzie oferowane przez ICM UW pod nazwą RepOD, w którym można udostępnić dane badawcze zgodnie z zaleceniami NCN. Każdy zbiór danych, w celu łatwiejszego odnalezienia i później odpowiedniego cytowania, powinien również mieć numer DOI, który będzie można zakupić – podobnie jak to się dzieje w przypadku DOI dla publikacji naukowych – w sklepie SGH. W ten sposób już sam numer, odpowiednio skonfigurowany dla SGH, będzie wskazywał, że dane zostały wytworzone w ramach badań prowadzonych na naszej uczelni.

Powyższe informacje to tylko czubek góry lodowej. Konieczność implementacji dyrektywy unijnej spowoduje, że kwestia zarządzania danymi badawczymi stanie się nieodłączną częścią przygotowywania wniosków grantowych, zarówno polskich, jak i na poziomie UE. Warto więc pomyśleć o systemowym rozwiązaniu w SGH: przygotowaniu procedur i wskazówek dla naukowców. Otwieranie danych badawczych – to już się dzieje!