Sztuczna inteligencja: od wąskiej specjalizacji do twórczej wszechstronności

dłoń człowieka styka się palcem wskazującym z dłonią wirtualn

„Wiosna” sztucznej inteligencji to okres jej przyspieszonego rozwoju. Ta, którą aktualnie obserwujemy, jest szczególnie intensywna.

Wąska sztuczna inteligencja to w uproszczeniu systemy uczenia maszynowego zaprojektowane do wykonywania określonego zadania, działające w ograniczonym zakresie, nieposiadające zdolności do pozyskiwania kompetencji poza nim. Najczęstsze przykłady zastosowania tego typu mechanizmów to rozpoznawanie wzorców, diagnostyka, predykcja, rekomendacje. Nadają się one do rozwiązywania problemów w ciągu jednej sekundy, a nie nadają się do problemów nieustrukturyzowanych, w których brakuje ustalonego algorytmu postępowania [McAfee, Brynjolfsson, 2017].

Najpopularniejszym jej rodzajem jest uczenie nadzorowane. Model uczy się na dużym zbiorze oznaczonych danych po to, aby następnie klasyfikować dane nieoznaczone lub przeprowadzać na nich inne operacje. Profesor Andrew Ng [czyt: iing] z Uniwersytetu Stanforda podaje, że algorytm potrzebuje ok. 10 tys. zdjęć RTG do wyuczenia się diagnozowania zapalenia płuc, podczas gdy student medycyny zaledwie kilku. W niektórych zastosowaniach algorytmy osiągają wyniki lepsze od ludzi. Czasami popełniają jednakże zabawne błędy, np. model za zdjęcia ryb uznawał fotografie przedstawiające dłonie. Nauczony bowiem został rozpoznawać ryby z wykorzystaniem zdjęć, na których były one trzymane w rękach przez wędkarzy. Wzorcem, który brał pod uwagę, były właśnie palce.

Andrew Ng podaje cztery charakterystyki modeli biznesu, w których sztuczna inteligencja odgrywa zasadniczą rolę: pozyskiwanie strategicznych danych, ujednolicona hurtownia danych, istotna automatyzacja, nowe role i podział pracy. Na tego typu model działania spojrzeć można jako na system, w którym dane są tworzone, a następnie wykorzystywane w automatyzacji, co prowadzi do dalszego tworzenia danych. Pytanie o systemy uczenia maszynowego zadawaliśmy – w badaniach prowadzonych z doktorem Nikodemem Sarną – menedżerom odpowiedzialnym za programatyczną emisję reklamy w internecie. Nasi respondenci udzielali zróżnicowanych odpowiedzi. Można zatem wnioskować, że nie wszyscy w pełni rozumieją działanie systemów opartych o uczenie maszynowe.

Pomimo wielości zastosowań algorytmów uczenia maszynowego pojawiały się głosy o stagnacji i braku przełomu w rozwoju sztucznej inteligencji. Pogląd taki wyraził w 2018 roku Judea Pearl, specjalista od statystycznego wnioskowania przyczynowego: „Wszystkie imponujące osiągnięcia głębokiego uczenia sprowadzają się do dopasowywania krzywych”.

Przełomem okazała się generatywna sztuczna inteligencja z modelami podstawowymi (ang. foundation models). Są to wielkoskalowe modele uczenia maszynowego wytrenowane na obszernych zbiorach danych. Najpopularniejszymi z nich są duże modele językowe (ang. large language models, LLM), ale modele podstawowe mogą być oparte o obrazy, kod oprogramowania, dane chemiczne, finansowe czy klimatyczne [IBM 2023].

Modele LLM są często trenowane na wielkich zbiorach danych obejmujących treści np. z 250 miliardów dokumentów internetowych [Common Crawl, 2023]. Są również modele trenowane na mniejszych, wyspecjalizowanych zbiorach, np. model Bloomberga wyuczony na treściach finansowych. Firma Bosch podaje, że jej model podstawowy, wyuczony z wykorzystaniem danych produkcyjnych, ma być stosowany w kontroli jakości wytwarzanych produktów. Zapowiadany polski model językowy PLLuM, tworzony przez konsorcjum krajowych instytucji naukowych, trenowany ma być na treściach polskojęzycznych.

W pierwszej fazie tworzenia modeli LLM algorytmy w sposób nienadzorowany analizują zależności występujące w zbiorze. Jest to proces stochastyczny i – jak podaje Andrej Karpathy – nie w pełni zrozumiały. Drugim etapem jest finetuning (strojenie). Polega on na dostosowaniu modelu do wymagań związanych z wykonywaniem określonego zadania. W procesie uczenia modelu wykorzystuje się również informacje zwrotne pochodzące od ludzi (ang. reinforcement learning from human feedback, RLHF). Testerzy oceniają wygenerowane treści, na bazie tych ocen działanie modeli jest korygowane po to, aby ograniczyć ich mankamenty. Są nimi halucynacje, czyli podawanie nieprawidłowych lub nierealistycznych wyników, oraz naruszenie norm społecznych, np. poprzez generowanie obraźliwych treści.

Możliwości dużych modeli językowych zależą od liczby wykorzystanych przez nie parametrów. Dr Leszek Bukowski przyrównuje je do pokręteł, które są ustawiane podczas treningu, aby model trafnie generował kolejne wyrazy. Zdaniem Andrew Nga proste modele obejmujące miliard parametrów nadają się do analizy sentymentu opinii konsumenckich, średnie modele oparte na ok. 10 miliardach parametrów mogą być podstawą do stworzenia chatbota przyjmującego zamówienia w restauracji. Z kolei modele bazujące na 100 miliardach parametrów mogą służyć jako narzędzie do brainstormingu. GPT-3 wykorzystuje 175 miliardów parametrów [OpenAI], natomiast według niektórych szacunków GPT-4 ma bilion lub więcej parametrów [Semafor, 2023]. Warto wspomnieć o modelu Llama2 występującym w trzech wersjach, o 7, 13 i 70 miliardach parametrów. Jest to model opensource’owy rozwijany przez firmę Meta, właściciela serwisu Facebook. Oprogramowanie to można pobrać i zainstalować na własnym komputerze.

Modele LLM zostały wytrenowane na analizie obszernych zbiorów tekstowych. Ich prymarną funkcją jest dopisywanie kolejnego słowa do stworzonego już ciągu wyrazów. Jak wspomina Karpathy, nie rozumiemy do końca, jak działają te modele. Wynika to stąd, że wraz z rosnącą liczbą parametrów i wielkością zbioru treningowego model zaczyna nabierać cech emergentnych, czyli nowych właściwości, które nie są bezpośrednio wyjaśniane przez jego indywidualne komponenty.

Wąska sztuczna inteligencja umożliwia automatyzację, ale wymaga dużych zbiorów danych. Generatywna sztuczna inteligencja oferuje korzyści automatyzacji i poszerzenia kompetencji pracowników, nie wymagając przy tym dużych zbiorów danych.

Podstawową ich funkcją jest generowanie tekstu o zadanych parametrach. Czytelnicy mogą sami przekonać się, jak działa to w praktyce. Wystarczy uruchomić przeglądarkę Bing, kliknąć ikonę składającą się z dwóch niebieskich wstążek znajdującą się w prawym górnym rogu. Aktywowana zostanie wówczas usługa Copilot bazująca na modelu GPT-4. Prompt, czyli zadane polecenie, może mieć podaną konstrukcję: napisz limeryk, w którym X dokonuje czynności Y, limeryk kończy się w zaskakujący sposób i jest utrzymany w stylu twórczości Z. Modele LLM potrafią również dokonywać operacji na tekście takich, jak korekta językowa, przeformułowanie tekstu, tłumaczenie między językami naturalnymi czy też streszczanie tekstów. Stosowane są również do tworzenia kodu komputerowego na podstawie opisu algorytmu podanego w języku naturalnym.

Jedną z ich cech emergentnych jest wnioskowanie. Modele LLM w niektórych przypadkach potrafią wyciągać poprawne i nieoczywiste wnioski, choć w innych podają błędne odpowiedzi lub przyznają się do zaskakującej niewiedzy. Przykładem wnioskowania może być odpowiedź na absurdalne pytanie, czy Perykles mógł pocałować Elizę Orzeszkową? Wyszukiwarka Google (nie będąca modelem językowym) odpowiada, że w internecie nie ma wyników dla tego zapytania. ChatGPT podaje natomiast, że obie postacie żyły w innych epokach „dlatego spotkanie tych dwóch osób w rzeczywistości nie było możliwe, a co za tym idzie, Perykles nie mógł pocałować Elizy Orzeszkowej”. Ten prosty eksperyment można potraktować jako głos w dyskusji, czy modele LLM wnioskują, czy też – skoro w procesie uczenia się „przeczytały cały internet” –  jedynie odnajdują właściwe odpowiedzi.

Kolejną cechą emergentną jest klasyfikacja. Duże modele językowe potrafią dokonywać prostych klasyfikacji. Przykładem jest polecenie ustalenia sentymentu, czyli wydźwięku emocjonalnego wypowiedzi: „Film był ciekawy, ale zmarzłem w kinie”. ChatGPT odpowiada, że „Obie części wypowiedzi równoważą się, tworząc ogólnie mieszany sentyment”.

Warto wspomnieć również o ograniczeniach modeli LLM. Nie potrafią one planować swoich działań, na co zwraca uwagę Yann LeCun z firmy Meta. Nie są w stanie rozwiązywać problemów w inny sposób niż poprzez dopisywanie kolejnego słowa do wygenerowanego już tekstu [Karpathy, 2023]. Nie potrafią w końcu rozwiązywać teoretycznych problemów matematycznych, a tym samym rozwijać teorii matematyki. W tym ostatnim obszarze pojawiają się ostatnio jednakże pewne osiągnięcia. Oprogramowanie Alpha Geometry rozwiązuje zadania geometryczne na poziomie uczestników Międzynarodowej Olimpiady Matematycznej [Trinh, 2023]. Program Funsearch rozwiązał algorytmiczny problem zwany Cap set polegający na znalezieniu największego zbioru punktów w wielowymiarowej przestrzeni, w którym żadne trzy z nich nie są współliniowe [Romera-Paredes i in., 2023].

Jak zatem modele LLM mogą być wykorzystane w biznesie? Najprostszym zastosowaniem jest funkcja asystenta. Są one przydatne w zakresie tworzenie tekstów, przeprowadzania operacji na nich, znajdowania rozwiązań problemów, tworzenia kodu programowania itp. W ten sposób oferują one poszerzenie kompetencji ludzkich (ang. augmentation). Drugim obszarem ich zastosowania jest automatyzacja np. w zakresie ekstrakcji najważniejszych treści ze skarg klientów i ich odpowiedniej klasyfikacji. Tego typu automatyzację można oprzeć o opisane w pierwszej części artykułu wyspecjalizowane algorytmy uczenia maszynowego. Jak podaje Andrew Ng, zdobycie odpowiednich danych i wytrenowanie własnego modelu może zająć wówczas kilka miesięcy, podczas gdy wdrożenie podobnej automatyzacji z wykorzystaniem modelu LLM to kwestia kilku godzin lub dni. Potrzebny jest tu dużo mniejszy zbiór treningowy, a komendy można wydawać w języku naturalnym. Innym przykładem wykorzystania modeli LLM jest ich integracja z własnym zbiorem dokumentów zawierającym np. akty prawne lub opisy produktów. Automatyzacja może wówczas polegać na wyszukiwaniu, wartościowaniu i streszczaniu informacji w nim zawartych.

Sztuczna inteligencji z pewnością zmieni rynek pracy. Spekulacje dotyczą tego, w jakich zawodach algorytmy zajmą miejsce ludzi. W tym kontekście warto przytoczyć wypowiedź Geoffreya Hintona, pioniera uczenia głębokiego, wygłoszoną w 2016 roku: „Powinno się już zaprzestać szkolenia radiologów. Jest całkowicie oczywiste, że w ciągu pięciu lat głębokie uczenie będzie działać lepiej niż radiolodzy. (...) Może to być nawet dziesięć lat”. Wypowiedź ta – w skróconej formie pomijającej okres dziesięciu lat – jest często cytowana jako przykład nietrafionej prognozy. Odnosi się do niej Ng, sugerując, że powinniśmy analizować wpływ sztucznej inteligencji na konkretne czynności wykonane w ramach zawodu, a nie cały zawód. Jedną z nich jest w tym przypadku interpretacja zdjęć RTG. Tu możliwości zastosowania sztucznej inteligencji są duże. Kolejne czynności to obsługa urządzeń, komunikowanie wyników badania oraz ich dokumentacja. W tych czynnościach sztuczna inteligencja może być stosowana w ograniczonym zakresie. Nie sprawdzi się ona specjalnie w reagowaniu na niestandardowe sytuacje podczas zabiegu prześwietlania, takie jak np. panika pacjenta.

Przyjmuje się, że internet zapewnił nam demokratyzację informacji. Jacek Dukaj użył natomiast pojęcia „demokratyzacja kreatywności” dla opisania sytuacji, w której sztuczna inteligencja pozwala każdemu realizować się w dowolnej dziedzinie sztuki. Sztuczna inteligencja – podobnie jak kiedyś internet – zmieni relacje gospodarcze, strategie i modele biznesu firm oraz zachowania konsumentów. Stoimy zatem na progu rewolucji, tak jak ćwierć wieku temu obserwowaliśmy szybko rosnącą popularność firm internetowych, które według odmiennych zasad zaczynały funkcjonować w nieinternetowej gospodarce.

Na zakończenie warto wspomnieć o niektórych inicjatywach związanych ze sztuczną inteligencją w SGH. W 2023 roku powstał AI Lab, czyli Międzykolegialne Centrum Sztucznej Inteligencji i Platform Cyfrowych. W maju 2024 r. odbędzie się konferencja naukowa „AI Spring. Jak badać sztuczną inteligencję w naukach ekonomicznych?”. Opracowywane są szczegółowe zasady wykorzystania sztucznej inteligencji w przygotowywaniu przez studentów i doktorantów prac pisemnych. Prawdopodobnie będą one dotyczyły poniższych obszarów: ideacja, pozyskiwanie wiedzy i przegląd literatury, pisanie, operacje na tekście, programowanie, analiza danych, modelowanie ekonomiczne i matematyczne. Obszary te odzwierciedlają etapy procesu twórczego oraz zróżnicowanie prac opracowywanych w SGH. Od ponad roku odbywają się webinaria intoDIGITAL, z których wiele dotyczy sztucznej inteligencji (nagrania dostępne są w serwisie YouTube SGH). Do oferty dydaktycznej na poziomie magisterskim wprowadzony zostanie przedmiot sztuczna inteligencja w biznesie. 

Wąska sztuczna inteligencja umożliwia automatyzację, ale wymaga dużych zbiorów danych. Generatywna sztuczna inteligencja oferuje korzyści automatyzacji i poszerzenia kompetencji pracowników, nie wymagając przy tym dużych zbiorów danych.


Tymoteusz Doligalski

Dr hab. Tymoteusz Doligalski, prof. SGH, pracownik badawczo-dydaktyczny w Zakładzie e-Biznesu, Instytut Informatyki i Gospodarki Cyfrowej, Kolegium Analiz Ekonomicznych SGH. Zajmuje się badaniem funkcjonowania firm internetowych, w szczególności platform, z perspektywy modeli biznesu oraz zarządzania relacjami z klientami. Jest koordynatorem programów dydaktycznych dotyczących e-biznesu i marketingu internetowego. Był opiekunem zespołów studenckich będących laureatami konkursu Google Online Marketing Challenge (1. miejsce na świecie w latach 2012 i 2014, 1. miejsce w Europie w 2011 r.). Wyniki badań publikuje na blogu: doligalski.net