Mentionsy

Techstorie - rozmowy o technologiach
18.06.2024 15:00

88# AI za chwilę przeczyta cały internet! Pasie się na naszych danych i twórczości artystów

Za dwa lata sztucznej inteligencji mogą się skończyć dane treningowe. A to oznacza, że ta technologia nie będzie mogła się dalej rozwijać. Dlatego Big Techy dwoją się i troją, żeby zdobyć coraz to nowe wysokiej jakości dane dla swoich modeli. Meta chciała nakarmić swoją sztuczną inteligencję danymi użytkowników Facebooka i Instagrama, zbieranymi od 2007 r. To podejście na razie zostało zawieszone, ale i tak nie był to najbardziej kontrowersyjny z rozważanych pomysłów. Tyle, że choć Meta nie nakarmi naszymi danymi swojej AI, to robią to inni. W jakim zakresie i jak agresywnie? I najważniejsze: czy jest coś, co możemy z tym zrobić? To kluczowe pytania, na które szukamy odpowiedzi w tym odcinku. Gośćmi tego odcinka są: - Maria Magierska prawniczka i doktorantka na Wydziale Prawa Europejskiego Instytutu Uniwersyteckiego we Florencji - dr Michał Nowakowski, partner odpowiedzialny za AI i cyberbezpieczeństwo w kancelarii ZP Zackiewicz&Partners Śródtytuły: 00:00 - Wprowadzenie 02:49 - Skargi na pomysł Mety 23:25 - Dane na wagę złota 31:08 - OpenAI, Google i Meta 36:35 - Trudny wybór mediów 43:07 - Bunt przeciw AI Linki do źródeł: - O decyzji Norwegii: https://www.datatilsynet.no/aktuelt/aktuelle-nyheter-2024/meta-vil-bruke-brukernes-bilder-og-innlegg-til-a-utvikle-ki/ - O tym, że AI kończą się dane: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html - O pozwie NYT przeciwko OpenAI: https://wyborcza.biz/biznes/7,177150,30545493,new-york-times-oskarza-openai-i-microsoft-to-moze-byc-kluczowy.html - O wzroście Cary: https://petapixel.com/2024/06/10/anti-ai-app-cara-and-alternative-to-instagram-explodes-in-popularity/ - Jak zapobiec wykorzystywaniu danych do szkolenia sztucznej inteligencji: https://www.wired.com/story/how-to-stop-your-data-from-being-used-to-train-ai/ - Odzyskaj kontrolę nad swoimi danymi:https://www.linkedin.com/pulse/regain-control-your-data-how-opt-out-ai-training-jenish-pithadiya-v5tpc/ Polecane odcinki TECHSTORII - 45, 73, 76: - Czy Chiny wygrają wyścig w dziedzinie sztucznej inteligencji?https://audycje.tokfm.pl/podcast/141817,45-Czy-Chiny-wygraja-wyscig-w-dziedzinie-sztucznej-inteligencji - Artyści kontra nowe technologie:https://audycje.tokfm.pl/podcast/154214,73-Walka-o-przetrwanie-czy-o-wieksza-kase-Artysci-kontra-nowe-technologie - Nvidia. Jak stała się królową rewolucji AI: https://audycje.tokfm.pl/podcast/155262,76-Nvidia-Jak-stala-sie-krolowa-rewolucji-AI-Czy-cos-moze-jej-zagrozic

Szukaj w treści odcinka

Znaleziono 64 wyników dla "AI"

Jej mały fragment widzieliśmy w pierwszej połowie czerwca, kiedy Meta niby niewinnie zapytała 400 milionów Europejczyków, czy mają coś przeciwko, żeby ich danymi karmić swoją AI.

AI przeczyta cały internet i wtedy de facto mają skończyć się dane treningowe, więc ta technologia po prostu nie będzie mogła się dalej rozwijać.

Czy zatem nie ma żadnego sposobu, żeby zatrzymać żarłoczność AI?

A może jest już za późno i nie zostaje nam nic innego, jak po prostu czerpać korzyści z generatywnej AI bez jakiegoś szczególnego drążenia, jak takiego pasa powstaje?

W dzisiejszym odcinku swoją wiedzą, doświadczeniem i przemyśleniami wspierają nas Maria Magierska, prawniczka i doktorantka na Wydziale Prawa Europejskiego Instytutu Uniwersyteckiego we Florencji oraz dr Michał Nowakowski, partner odpowiedzialny za AI i cyberbezpieczeństwo w Kancelarii Zackiewicz & Partners.

No tak, ale też trzeba przyznać, że jesteśmy trochę przyzwyczajone do tego, że praca z newsami trochę na tym polega, że w każdej chwili może nastąpić jakaś duża i niespodziewana zmiana, ale... Na przykład można zwolnić szefa OpenAI, przywrócić szefa OpenAI, zwolnić szefa OpenAI szybciej niż jesteśmy w stanie nagrywać odcinki.

No to jest kolejny przykład tego typu niespodziewanych wydarzeń, ale de facto dla naszej głównej dzisiejszej historii to ta zmiana nie była aż taka duża, bo w dalszym ciągu chcemy opowiedzieć Państwu o tym, czy, a jeśli tak, to w jaki sposób możemy mieć wpływ na wykorzystywanie naszych danych do szkolenia AI, bo dziś to się dzieje niezależnie od tego, czy meta się wycofuje, czy nie.

Co bardzo ważne, ten mail, bo to była taka komunikacja mailowa, mail został wysłany do użytkowników w Europie, a nie w innych częściach świata.

Nasze modele AI, aby mogły właściwie służyć naszej europejskiej społeczności, muszą być wyszkolone na odpowiednich informacjach, które będą odzwierciedlać różnice językowe, geograficzne i kulturowe.

No więc wysłuchała ekspertów, pod koniec maja wysłała te maile.

Nic dziwnego, że te maile zaczęły wzbudzać naprawdę sporą konsternację, bo wiadomości od firmy Zuckerberga były dosyć tajemnicze.

Już sama treść tak sformułowanego maila była co najmniej dziwna i zaczęła zwracać uwagę kolejnych i kolejnych osób, w tym także prawniczki Marii Magierskiej, w imieniu której została złożona skarga na tą wiadomość.

Najpierw posłuchajmy, co Magierska ma do powiedzenia o tych mailach.

Na początku całego maila zignorowałam, ponieważ został sformułowany tak, jak...

Tak jakby to była kolejna aktualizacja polityki prywatności i wydaje mi się, że my już jesteśmy też tym znudzeni, że dostajemy non stop te maile, tym bardziej teraz po wprowadzeniu DMA, DSA, mnóstwo dostawaliśmy tego rodzaju maili od wszystkich i myślałam, że to jest po prostu kolejny i zignorowałam.

Tam gdzieś był schowany ten formularz sprzeciwu i w ogóle to jest wszystko o technologii AI.

Generalnie sprawa jest dużo poważniejsza niż zwykła aktualizacja polityki prywatności, tak jak te, do których nas już przyzwyczaili.

I dopiero jak zaczęłam się w to wczytywać, patrzę na tego maila i widzę, że ten link jest gdzieś schowany, to są po prostu hiperłącze.

które trzeba dopiero tam wejść, trzeba się zalogować przez przeglądarkę, żeby do tego formularzu sprzeciwu dotrzeć, nie można się zorientować, o co właściwie chodzi, po co to jest, tam byłaby wzmianka tylko o tych technologiach AI, to bez żadnego sprecyzowania, no ale właściwie jakie to technologie, co to znaczy, do czego to jest potrzebne.

W swoich mailach meta powoływała się na tzw.

A perspektywa użytkownika jest taka, że osoby, które nie zgadzałyby się na to, by ich dane tuczyły AI-mety, mogły co najwyżej wyrazić sprzeciw.

Generalnie ten, myśmy cytowały treść tego maila faktycznie w poprzednim odcinku.

Ale to już jest odpowiedzią, wiesz, nie na mail, tylko odpowiedzią na ten sprzeciw.

Natomiast sam mechanizm wygląda w ten sposób, że rzeczywiście musimy podać takie podstawowe dane identyfikacyjne, na przykład e-mail,

bliscy i tak dalej i tak dalej, ale no na przykład jak ja dostałem informację, jak ja złożyłem ten sprzeciw, to ja nie wiem, może po 30 sekundach dostałem informację o tym, że ten sprzeciw został uwzględniony, więc być może tu nawet są zastosowane jakieś rozwiązania właśnie AI-owe do tego, żeby potwierdzać, że to prawo do sprzeciwu zostanie zrealizowane na przyszłość.

Ogólnie od samego początku były komunikacje mety, że oni chcą zrobić jakąś tam technologię AI.

No tak, bo meta z tym swoim mailem do Europejczyków wcale nie była wyjątkowa.

Ale jakbym miała strzelać, to prawdopodobnie autorowi chodziło o to, że treści generowane przez użytkowników, w tym nawet ich prace na zlecenia, także te objęte kontraktami, często poufnymi przecież, mogą być używane do trenowania AI.

Wyjątek, ale nie, bo w świecie big techów jest to absolutna reguła i co gorsza, ja mam takie poczucie, że myśmy się chyba do tego przyzwyczaili.

Przyzwyczailiśmy się, bo w zamian dostajemy naprawdę sporo wygodnych usług.

Tyle, że z trenowaniem sztucznej inteligencji jest trochę inaczej, bo jak zauważa Magierska, zbieranie danych do szkolenia AI odbywa się po prostu mega masowo.

Mamy po pierwsze OpenAI i te sprawy, które już są skargi poskładane przeciwko OpenAI i już w zeszłym roku we Włoszech, kiedy tylko OpenAI zaczęło swoją działalność, no to Urząd Ochrony Danych sam wyszedł z inicjatywą i faktycznie przez parę miesięcy nie mieliśmy

Więc to jest pierwsza próba na pewno, żeby dotrzeć do danych, które nie są po prostu gdzieś w internecie, bo są publicznie dostępne, bo to jest Wikipedia albo YouTube i łatwo do tego wejść każdemu, tylko to są dane, które zostały wyprodukowane przez użytkowników w mediach społecznościowych, czyli w ogóle do konkretnych celów tego, żeby skorzystać z mediów społecznościowych, a nie żeby w przyszłości dowiedzieć się, że są wykorzystywane do technologii AI.

Otóż inżynierowie AI są przekonani, że im większa będzie baza danych, na której będzie trenowany model AI, tym lepszy będzie efekt końcowy.

Byłoby to miłe, ale też trzeba zaznaczyć, że takie wąskie zastosowania AI są coraz rzadsze i New York Times zrobił taką symulację, w której pokazywał na ilu danych były trenowane modele kiedyś, a na ilu teraz i ten przeskok jest po prostu gigantyczny, gigantyczny.

A więc teraz, kiedy posiadanie jak najlepszej sztucznej inteligencji jest kwestią kluczową i dla państw, i dla korporacji, i często też dla mniejszych firm, które właśnie oferują jakieś wyspecjalizowane usługi, to przewaga w zakresie danych, na których można trenować te mechanizmy, te modele AI, może przesądzić o tym, który model językowy będzie lepszy, który będzie popularniejszy i który wreszcie zacznie na siebie zarabiać.

I oczywiście tutaj można przypomnieć choćby dwa odcinki, ten numer 76, ten o NVIDII oraz numer 45, ten o chińskich modelach AI.

Za to z danymi jest trudniej, bo wspomniana już we wstępie firma badawcza Epoch oszacowała, że AI przebija się przez dostępne dane szybciej niż one powstają.

Dlatego według EPOC do 2026 roku AI przeczyta cały internet.

To znaczy, jak spojrzymy na przykład na rozwiązania dostarczane przez OpenAI, no to tam mamy wyszczególnione mniej więcej, mówię mniej więcej, jakie to zbiory danych były takie publicznie właśnie dostępne, na przykład jakieś wiki i tak dalej, i tak dalej.

I proszę bardzo, OpenAI pod koniec 2021 roku miało problem, bo właśnie wtedy natknęło się na brak nowych danych treningowych dla szkolenia AI.

Dlatego, jak opisywał New York Times, inżynierowie OpenAI stworzyli takie specjalne oprogramowanie, nazwane Whisper, czyli szept, którego celem było przetwarzanie audio na tekst.

W ten sposób OpenAI przeorał ponad milion godzin nagrań właśnie na YouTubie i nakarmił nimi model GPT-4.

No to nie jest wyjątek, bo Google w zeszłym roku też prowadził zmiany w swoich warunkach świadczenia usług i rozszerzył możliwość trendowania swojej AI choćby na publicznie dostępne dokumenty Google, bo stwierdził, że hej, przecież jest tyle treści w naszym de facto narzędziu, a jeżeli one są publiczne, to przecież możemy je wykorzystać, ale także dołączył do tego zestawu recenzję restauracji w Google Maps.

Ale to w dalszym ciągu oczywiście nie jest koniec, bo Meta ponoć rozważała też wykupienie wydawnictwa Simon & Shuster, tylko po to, żeby kazać im pisać długie teksty, którymi można byłoby karmić AI.

No i tutaj można byłoby zadać pytanie, dlaczego nie kazali AI napisać tysięcy nowych, długich tekstów, żeby uczyć AI, ale ja od razu odpowiem na to pytanie, które sama sobie zadałam.

A ja jeszcze jestem ciekawa, czy te historie też są spisywane i trafiają do którejś AI jako pasza.

Więc Associated Press, jedna z głównych, najbardziej poważonych agencji prasowych na świecie oraz Rainier Axel Springer, właściciel między innymi polskiego Onetu, ale także Newsweeka, Faktu, Business Insidera, Politico i wielu, wielu innych tytułów postanowiły dogadać się z OpenAI.

Tak, on poszedł na wojnę, pozwał OpenAI oraz Microsoft właśnie za wykorzystywanie należących do niego oraz chronionych prawem autorskim danych, czyli artykułów.

które były wykorzystywane do trenowania AI i pozew został złożony pod koniec 2023 roku i na pewno będzie się toczyć długo i sądzę, że można bezpiecznie założyć, że z zapartym tchem przyglądają mu się absolutnie wszystkie media na całym świecie.

OpenAI się broni, że to musiał być jakiś super szczegółowy prompt, po prostu niemożliwy do stworzenia przez zwykłego użytkownika bez odpowiedniego nastawienia i przygotowania.

Tym bardziej, że kolejne media zgłaszają, że kolejne modele AI robią dokładnie to samo, czyli po wpisaniu...

Ich właścicielem jest News Corp, który też pod koniec maja tego roku podpisał umowę z OpenAI.

No i warto dodać, czy też uzupełnić, że do News Corp należą takie tytuły jak The Times, The Daily Telegraph czy tabloid The Sun.

serial pod tytułem Niekończące się zmagania artystów ze sztuczną inteligencją i chyba można spokojnie powiedzieć, że im bardziej rozwijają się narzędzia AI, tym bardziej w artystach narasta panika, no bo faktycznie sztuczna inteligencja przez lata karmiona jest tworami kultury, tworami artystów, które są objęte prawami autorskimi.

Więc Kara została założona przez fotografkę Jing & Jang, by dać artystom, którzy sprzeciwiają się takiemu nieetycznemu zastosowaniu i wykorzystaniu AI, miejsce do dzielenia się swoimi utworami oraz do takiego nawiązywania kontaktów.

Kara sprzedziwia się trenowaniu AI na danych artystów, które są pozyskiwane bez ich zgody, dlatego filtruje wszystkie obrazy AI, czyli po prostu nie pozwala na umieszczanie twórczości, która nie została stworzona przez człowieka na swoich łamach.

I co więcej, oferuje również integrację beta z Glaze, czyli takim narzędziem opracowanym przez badaczy z Uniwersytetu w Chicago, który umożliwia artystom ochronę ich prac przed treningiem generatywnej AI bez ich zgody.

Na razie jednak Jinking Junk doskonale rozumie, jakie AI niesie problemy dla artystów, bo sama jako artystka też jest w tych procesach i procesach wykorzystywania jej utworów, ale też w procesach

Ale są też pewne sposoby na to, by przynajmniej spróbować wypisać swoje dane scenowania AI, albo przynajmniej mieć nad tym troszkę lepszą kontrolę.

A na zakończenie to naprawdę polecamy jak nigdy dotąd pilnować maili, powiadomień, pop-upów i innych komunikatów od platform, z których wszyscy korzystamy, bo nagłe zmiany warunków użytkowania i regulaminów, w których mogą się pojawić zapowiedzi bardzo żarłocznych zapędów, mogą za chwilę nas naprawdę, ale to naprawdę zasypać.

Jeżeli będą trudne do zrozumienia, to szukajcie po prostu podpowiedzi na specjalistycznych serwisach, bo tak jak w przypadku tych maili od mety, ludzie zaczynają się temu przyglądać, prawnicy zaczynają się temu przyglądać i próbują jednak rozszyfrować.

I to będzie takie spotkanie wprowadzające w tematykę sztucznej inteligencji, ale myślę, że zarysujemy sobie tam wszystkie obawy, marzenia i możliwości, które AI nam daje.

Znajdziecie nas na naszym własnym Instagramie techstorie-podkresnik-podcast no i pod mailem techstorie-małpa.fm Dziękujemy bardzo.