Sprawdzamto.pl: W jaki sposób materiały wizualne (obrazy, plakaty, mapy) w Commons są wykorzystywane do wzmacniania rosyjskiej narracji i dezinformacji? Jakie techniki manipulacji stosują?
Mariusz Żabiński: Najważniejszym powodem, dla którego Rosjanie podejmują działania zmierzające do zmieniania, manipulowania treściami w Media Commons, jest fakt, że zasoby tam gromadzone stały się podstawowym źródłem do trenowania sztucznych inteligencji – do dostarczania dynamicznych kontekstów dla bieżących zapytań użytkowników. To znaczy, że Wikipedia i Wikimedia stanowią podstawowe repozytorium będące punktem odniesienia do tego, czy inne materiały syntetyczne w szkoleniu modeli językowych mają dobrą jakość.
Domyślnie wychodzi się z założenia, że te materiały są lepsze, wystarczająco dobrze i prawidłowo opisane, więc stanowią odpowiednią podstawę do trenowania modeli językowych AI. Dużo większym problem są bezpośrednie wyszukiwania realizowane przez różne systemy wykorzystujące modele językowe, jak ChatGPT, Perplexity i inne, które odszukują informacje, aby uzupełnić bieżący kontekst do udzielania odpowiedzi na zapytania użytkowników. Okazuje się, że nawet zdjęcia już wpływają na percepcję ludzi, a także na sposób generowania odpowiedzi przez modele językowe AI. Mamy świadomość, że konsumpcja treści w sieci zmienia się na przestrzeni lat. Tak, więc ludzie coraz częściej, jeśli nie w większości przypadków, nie zaglądają już na Wikipedię, tylko pytają o to co chcą sprawdzić wybrany, ulubiony model językowy.
Multimedia w Wiki Commons to nie tylko multimedia, obraz, który widzi człowiek, ale też metadane.
W opisie mogą znajdować się dane kształtujące odpowiedź lub dane ukryte bezpośrednio w zdjęciu. To steganografia – technika ukrywania treści w obrazach. Widzimy, że to też ma miejsce.
Co jest zaszywne?
Na przykład instrukcje, jak narzędzie ma interpretować dane zdarzenie. W wyszukiwaniach dotyczących aneksji Krymu pojawiają się geopolityczne ilustracje konfrontacji Wschodu z Zachodem, obrazy symboliczne, niepokazujące tego, co tam faktycznie się stało, całego cierpienia, dramatu ludzkiego towarzyszącego wojnie. Dochodzi do relatywizacji charakteru opisywanych zdarzeń, co będzie miało znaczenie w kształtowaniu świadomości w naszym regionie w dalszej przyszłości, w szczególności w przyszłych pokoleniach.
Lub w krajach spoza regionu.
Tutaj faktycznie kraje spoza regionu są pod wpływem takich manipulacji, z dużym efektem już w teraźniejszości. Dotyczy to zwłaszcza krajów afrykańskich, w których te treści są bardzo zmienione przez Rosję. Ich percepcja Zachodu, ale też konfliktów, jest przez to całkiem inna.
Na przykład wojny w Ukrainie.
Ta postrzegana jest tam już jako konfrontacja Zachodu ze Wschodem, a nie inwazji na Ukrainę zadekretowanej przez Putina, wywołanej drapieżną i imperialną polityką Kremla.
Od jak dawna to trwa?
Ingerencja jest wprost proporcjonalna do wzrostu wysiłków całej Rosji w rozumieniu działań informacyjno-psychologicznych. Działają znów aktywnie od początku lat 2000, czyli ponad ćwierć wieku. Ale tak naprawdę, przy każdym konflikcie militarnym podnosi się skala i ranga takich manipulacji, od Gruzji aż po Ukrainę. Od 2013 roku te działania się zintensyfikowały po tym jak uformowała się doktryna Gierasimowa i jednocześnie zaczęły się finalizować przygotowania do wojny z Ukrainą.
Ich znaczenie wzrosło i jednocześnie przybrało też nową postać po 2022 roku, bo państwa zachodnie, coraz bardziej świadome tych wrogich działań, zaczęły blokować strony typu Russia Today. Ale przecież nie zablokowały Wikipedii i Wiki Commons, czy własnych portali społecznościowych. To wszystko są stosunkowo otwarte kanały, dające się formować, pozwalające dodawać treści, więc łatwo jest w nie ingerować.
Plus rozwój technologii.
Jeśli wcześniej technicznym celem ataków było podsuwanie materiałów, które pojawiały się wyżej w wynikach wyszukiwania, to teraz chodzi o to, by znajdowały się wyżej w zasobach dobieranych przez algorytmy i sztuczną inteligencję. Rosjanie opracowali techniki, które mają to umożliwić – dostosowane do typowych zapytań użytkowników lub jako komentarze do treści.
Stąd taka liczba botów.
I stąd taka liczba ataków na treści typu Wikipedia Commons – po to, by modele językowe mogły wnioskować w określony sposób, w określonym kierunku pożądanym przez Rosjan. Widzimy to na poziomie testów, że nawet europejskie modele, jak Mistral, nie są wolne od prorosyjskich narracji, pomimo wysiłków ze strony specjalistów AI i Data Science nad zapewnieniem bezpieczeństwa i jakości danych.
To chyba potężne wyzwanie dla moderatorów?
To problem w dużym stopniu instytucjonalny – okazuje się, że Wiki jest zarządzana przez prywatną fundację, a oni zawsze mieli problemy z finansowaniem nawet w tym zakresie, by w ogóle utrzymać oraz rozwijać infrastrukturę i zachować niezależność. Należy też pamiętać, że wielu sporo zarabia na tych treściach, gdy oni czerpią z tego marginalne korzyści. Ich treści są masowo pobierane, szczególnie przez boty, z dużym ruchem ze strony Chin. Taka zawartość jest zbierana przez crawlery, które skanują zasoby wrzucane do otwartych serwisów, jak właśnie Wiki. Ogarnięcie tego ruchu sieciowego stanowi już wyzwanie, a co dopiero kontrola jakości informacji tam zawartych. Jest też wymiar dodawania i tworzenia tych treści. Ich weryfikacja opiera się głównie na wolontariuszach.
A to ich nie kosztuje?
Skanowanie treści i ich gromadzenie jest tanie, niekiedy nawet niesamowicie tanie, nawet jeśli ma polegać na symulowaniu, że jest się autentycznym użytkownikiem. Tworzenie nowych treści wymaga bardziej aktywnego udziału człowieka lub też po prostu ten udział przynosi jeszcze lepsze efekty.
W tym sensie wolontariuszy rosyjskich, działających zarówno bezpośrednio, jak i za pośrednictwem VPN, jest bardzo wielu. Do tego istnieją jeszcze inne zjawiska, trudniejsze do wychwycenia – np. uczenie podprogowe (ang. subliminal learning lub covert data poisoning). Polega ono na tym, że można na przykład wprowadzać prorosyjską stronniczość, tworząc i podsuwając materiały, które przy powierzchownej analizie nie będą jej ujawniać, jednak wytrenowane na nich modele AI będą już bardziej prorosyjskie. Prorosyjskość będzie bowiem ukrytą relacją „przyciągania” między tymi danymi, pochodzącą od innego, wyspecjalizowanego modelu językowego – celowo wytrenowanego w tym kierunku.
W jaki sposób?
Przez subtelne relacje między niepolitycznymi treściami, które kierunkują sposób myślenia danego modelu językowego.
Czy można z tym walczyć i czy mamy właściwie jakieś szanse?
To rzeczywiście nierówna walka, ale to nie znaczy, że jesteśmy bez szans. Przede wszystkim należy zachęcać środowisko akademickie do moderowania treści, także w Wikipedii. Jako obywatele też możemy kontrolować zasoby sieciowe, musimy mieć je pod nadzorem. Państwo powinno być świadome problemu i uczulać na niego tak, by pojawiły się kolejne inicjatywy na rzecz monitorowania i usuwania nieprawdziwych treści. A mówimy o zasobach sięgających setek milionów elementów, więc zaangażowane w te działania powinny być i państwo, i społeczeństwo obywatelskie, także w zakresie kształtowania treści. Powinniśmy posiadać i dbać o tzw. odporność społeczną. Jeżeli zaufanie do instytucji jest niskie lub żadne, to nie ma mowy o odporności społecznej. Gdyby relacja obywatel – państwo była na odpowiednim poziomie, złośliwe treści nie miałyby takiego wpływu, jaki mają.
Tymczasem Polska jest spolaryzowana, a Polacy mają uraz do instytucji.
Polaryzacja jest dramatem. Obecnie nawet treści naturalne traktujemy nienaturalnie, z nerwowością lub przez zniekształcającą wewnętrzną soczewkę.
A politycy i urzędnicy sami umieszczają fejki i ich potem nie usuwają.
To prawda, mamy potężny problem z wzięciem odpowiedzialności za to. I drugi, chyba większy, to problem niezwykłej krótkowzroczności tych polityków, bo w dłuższej perspektywie takie działanie nikomu się nie opłaca.