
Naukowcy prowadzący badania od zawsze zbierali dane badawcze. Były one jednak traktowane jako swego rodzaju półśrodek do przygotowania publikacji naukowej czy po prostu etap pośredni między pomysłem na badanie a publikacją. Dzisiaj, jak wiadomo, dane to „nowa ropa naftowa”, dlatego również dane naukowe nabrały istotnego znaczenia. Znajduje to swoje odzwierciedlenie w nowych wymogach NCN dotyczących zarządzania danymi badawczymi w trakcie realizacji projektów, a szczególnie udostępniania wytworzonych danych w otwartych repozytoriach. Jak ugryźć ten problem i przełknąć ze smakiem?
Udręka. Fanaberia NCN. To wciąż częste podejście do tematu ze strony badaczy, którzy składają do NCN projekty o finansowanie badań. By jednak spełnić wymogi NCN odnośnie do danych badawczych, warto zacząć od zmiany podejścia. Zamiast traktować dane jak wspomniany wyżej „półśrodek”, dobrze jest przyjąć, że są centralnym elementem projektu. No i tutaj z pomocą przychodzi plan zarządzania danymi badawczymi.
Nadrzędnym celem, do którego dąży NCN, jest dzielenie się, przede wszystkim z innymi naukowcami, danymi badawczymi, których wytworzenie lub pozyskanie zostało sfinansowane ze środków publicznych. (...) Dlatego dane badawcze powinniśmy traktować bardziej jak dobro wspólne, zamiast – jak to dotychczas często się działo – jak „prywatną własność” zespołu badawczego.
Nie da się przygotować jednego wzoru planu zarządzania danymi do wykorzystania we wszystkich projektach. Takie bowiem sugestie docierają do mnie od kolegów badaczy. Plan zarządzania jest trochę jak lewa strona tkaniny, czyli w tym wypadku metody badania. Jest jej dokładnym acz lustrzanym odbiciem i pasuje tylko do konkretnego projektu. Powinien odzwierciedlać to, co chcemy zbadać i w jaki sposób. Dlatego najlepiej przygotowywać plan równolegle z opracowywaniem metodologicznej części projektu. W planie chodzi o opisanie od strony praktycznej, technicznej, jakie dane będziemy zbierać, w jaki sposób, w jakich formatach, jakich narzędzi będziemy używać do ich obróbki. Co ważne, plan jest tworem plastycznym. Może, a nawet powinien ewoluować wraz z badaniem.
Przy planowaniu pracy z danymi powinniśmy w pierwszej kolejności zadbać o kwestie związane z danymi osobowymi, a szczególnie z danymi wrażliwymi, co musi znaleźć odzwierciedlenie w planie zarządzania danymi. Tutaj najpierw trzeba rozważyć aspekty prawne, czyli zgodność z regulacjami RODO czy z prawem o szkolnictwie wyższym i nauce, później zaś techniczne, a więc przechowywanie danych w trakcie realizacji projektu, oraz sposób ich zabezpieczenia przed utratą lub nieautoryzowanym użyciem.
Nadrzędnym celem, do którego dąży NCN, jest dzielenie się, przede wszystkim z innymi naukowcami, danymi badawczymi, których wytworzenie lub pozyskanie zostało sfinansowane ze środków publicznych. Chodzi tutaj nie tylko o to, by nie finansować bardzo podobnych badań, ale przede wszystkim o to, aby już zebrane dane mogły posłużyć rozwijaniu innych koncepcji, niekoniecznie nawet w tej samej dyscyplinie lub dziedzinie nauki. Poza tym zebrane przez nas dane mogą również się przydać w naszych własnych, przyszłych badaniach. Dlatego dane badawcze powinniśmy traktować bardziej jak dobro wspólne, zamiast – jak to dotychczas często się działo – jak „prywatną własność” zespołu badawczego.
Warto więc od samego początku zbierać dane, porządkować je, przechowywać i obrabiać z myślą o przyszłych potencjalnych użytkownikach, tzw. reuserach. Zbieranie danych powinno się odbywać z zachowaniem odpowiednich zasad kontroli jakości. Należy te kwestie ująć w planie zarządzania danymi badawczymi.
Jeśli chodzi o porządkowanie danych, to dobrze jest od początku zaprojektować drzewo folderów, w których poszczególne rodzaje danych będą przechowywane, w podziale np. na dane surowe, dane zanonimizowane, dane przetworzone itd., również w podziale na kolejne wersje. Cenne w porządkowaniu danych jest również przyjęcie systemu nazywania zarówno samych plików z danymi, jak i całych folderów. I tutaj z pomocą przychodzi klasyfikacja, jaką proponuje University of Cambridge: https://www.data.cam.ac.uk/data-management-guide/organising-your-data. Z kolei narzędziem, które ułatwi zmianę nazw wielu plików jednocześnie, jest PSRenamer. Odpowiednie uporządkowanie danych pozwoli również w prosty sposób zdecydować, które dane zostaną przeznaczone do udostępnienia po zakończeniu projektu. Nie wszystkie bowiem udostępnić możemy i nie wszystkie udostępnić warto.
Właściwe nazywanie plików i folderów z danymi nie tylko ułatwia pracę zespołowi badawczemu, ale też stanowi ważny element zasad FAIR, zgodnie z którymi powinniśmy w projektach traktować dane. FAIR to skrót, który oznacza: findable, accessible, interoperable oraz reusable (możliwy do znalezienia, dostępny, interoperacyjny, wielokrotnego użytku – red.) i odnosi się do takiego przygotowania danych, aby przyszli użytkownicy mogli je łatwo znaleźć i wykorzystać do innych działań.
Dane są FAIR wówczas, gdy mogą je znaleźć zarówno ludzie, jak i maszyny, czyli internetowe wyszukiwarki danych. Powinny być więc uporządkowane i nazwane w zrozumiały sposób, jak już wspomniałam wyżej, a także opatrzone metadanymi oraz dodatkową dokumentacją. Metadane to informacje o danych, takie jak nazwa zbioru, wersja, data utworzenia, nazwisko autora, format i oprogramowanie użyte do analizy, schemat nazwania plików, słownik z opisem czego dane dotyczą, licencja udostępnienia, informacje kontaktowe, numer DOI itp. Tego rodzaju informacje wpisuje się w odpowiednich polach przy deponowaniu datasetów w otwartym repozytorium. Te same informacje oraz szczegółowy opis tego, czego dane dotyczą, ich organizacji, metody badawczej, okoliczności zbierania danych, sprzętu, oprogramowania itp., powinny się znaleźć w specjalnym pliku readme.txt. To standard przyjęty w repozytoriach danych badawczych. Plik taki tworzy się po to, aby inni badacze uzyskali jak najwięcej informacji o zdeponowanych danych. Wówczas rzeczywiście będą mogli skutecznie z nich skorzystać. Może się to też przydać nam samym za kilka lat, kiedy będziemy chcieli wrócić do naszych dawnych badań i ewentualnie je wykorzystać. Pamięć ludzka, jak wiadomo, jest zawodna.
Dane są możliwe do znalezienia i dostępne także wtedy, gdy poszczególne zbiory opatrzone są numerem DOI i zostały zdeponowane w otwartym repozytorium danych, które spełnia odpowiednie standardy dostępu, przechowywania czy bezpieczeństwa. W Polsce warto skorzystać z repozytorium ogólnego RepOD, albo też znaleźć repozytorium odpowiednie dla danej dyscypliny lub węższego obszaru badań w wyszukiwarce re3data (https://www.re3data.org/). Niektóre repozytoria, takie jak RepOD czy europejskie Zenodo oferują darmowe DOI, z czego warto dziś skorzystać. Należy również pamiętać, że najlepiej jest deponować pliki z danymi zapisane w otwartych formatach, takich jak .csv, .odt, .txt, .jpeg, .djvu, .mp4 czy .css. Oprogramowanie komercyjne bywa zawodne, poza tym nie wszyscy mają do niego dostęp.
Ostatnią istotną kwestią jest udostępnienie danych w repozytorium na odpowiedniej licencji. NCN sugeruje użycie licencji Creative Commons: CC0 (domena publiczna) lub CCBY (uznanie autorstwa). Licencję wybieramy z poziomu repozytorium w momencie deponowania zbiorów z danymi.
Zarządzanie danymi badawczymi oraz ich udostępnianie w otwartych repozytoriach to dość obszerny temat. Dlatego zapraszam do skorzystania ze szkolenia wideo, które przygotowałam dla naszych pracowników (szczególnie tych najmniej doświadczonych). Jest dostępne na platformie e-sgh. Dodatkowo zachęcam do dołączenia do grupy na Teams: Pogotowie Otwartej Nauki (kod n05avec), gdzie służę pomocą przy pisaniu planów zarządzania danymi, w kwestiach faktycznego zarządzania danymi przy realizacji projektów oraz deponowania danych.

DR ANNA ANETTA JANOWSKA, pełnomocniczka rektora ds. otwartego dostępu SGH