Za siedmioma lasami, za siedmioma górami, żył sędziwy mędrzec z długą brodą – był tak sędziwy, że przeczytał wszystkie książki, które kiedykolwiek wydano na świecie. Mędrzec dysponował tak doskonałą pamięcią, że potrafił zmieścić w swej głowie wszystko, co przeczytał.
Generowanie warunkowe (Conditional Generation)
Pewnego dnia Mędrzec postanowił przekazać swoją wiedzę młodszemu uczniowi.
– Pokażę Ci, do czego przydatna jest ma wiedza. Zaproponuj początek zdania na dowolny temat, a ja będę potrafił je sensownie dokończyć.
Uczeń postanowił wystawić Mędrca na niełatwą próbę, podając początek zdania w slangu młodzieżowym.
– Załóżmy, Mistrzu, że kolega zaprosił mnie na imprezę, a ja nie mam specjalnie ochoty. Zacznę tak: Mieszam się, czy iść na ten melanż, bo…
– Proszę bardzo: Mieszam się, czy iść na ten melanż, bo chyba nie ma sensu, serio, nie czuję tej ekipy. Więc raczej odpuszczam, wolę chillować w domu.
– Dziękuję, Mistrzu! A w jaki sposób udało Ci się wytworzyć tę odmowę?
– Tworzyłem ją wyraz po wyrazie. Najpierw wziąłem pod uwagę podany przez Ciebie początek zdania, następnie wybrałem najbardziej prawdopodobną jego kontynuację (wyraz „chyba”), a potem kontynuowałem wyraz po wyrazie w Twoim stylu, aż do momentu, gdy uznałem, że to wystarczy.
Trenowanie modelu (Training)
– To jest naprawdę cool, mistrzu! Ale skąd wiedziałeś, co jest najbardziej prawdopodobną kontynuacją mojej wypowiedzi?
– To dzięki książkom. Bez nich nie wiedziałbym, jak kontynuować wypowiedź – każdy potencjalny wyraz byłby tak samo prawdopodobny. Z każdą przeczytaną książką zyskiwałem coraz więcej wiedzy o tym, jak najlepiej kontynuować wypowiedzi. W książkach bohaterowie często znajdowali się w takiej sytuacji jak Ty i zwykle zaczynali swoje usprawiedliwienie od nieśmiałego wyrazu „chyba”. Dlatego taka kontynuacja Twojej wypowiedzi u mnie ostatecznie wygrała.
Dostrajanie modelu (Fine-tuning)
– A czy Ty, Wielki Mędrcu, potrafisz wykorzystać to, co przeczytałeś? Czy umiesz na przykład odpowiedzieć na pytanie, jeżeli odpowiedź na nie znajduje się gdzieś w Twoich księgach? Albo, czy jesteś w stanie streścić jakiś tekst, lub przetłumaczyć go na inny język?
– Jest to możliwe, ale aby to osiągnąć, potrzebuję pomocy świeżego, młodszego umysłu. Czy chciałbyś mi pomóc w tym zadaniu?
– Oczywiście, Mistrzu, jak mogę Ci pomóc?
– Potrzebuję od Ciebie wielu przykładów, najlepiej różnorodnych i licznych, które będą dla mnie wskazówką, jak działać. Jeśli wprowadzimy je do mojej wiedzy i przeliczymy na nowo prawdopodobieństwa możliwych kontynuacji, to będziemy potrafili spełniać każde życzenie niczym złota rybka.
– Nie jestem pewien, jak takie przykłady miałyby wyglądać…
– Jeśli chcesz, abyśmy umieli odpowiadać na pytania, przykłady mogą być takie: „Pytanie: Ile wynosi dwa razy dwa? Odpowiedź: cztery.” „Pytanie: Kto strzelił cztery gole Realowi Madryt? Odpowiedź: Robert Lewandowski.” Dzięki takim przykładom, będę potrafił odpowiedzieć nie tylko na dokładnie te same pytania, ale również wyszukiwać w moich księgach odpowiedzi na pytania podobne.
– Jeżeli zatem chcę, abyśmy umieli streszczać, parafrazować lub tłumaczyć teksty, wystarczy, że stworzę odpowiednie przykłady?
– Zgadza się. Ale pamiętaj, musi być ich odpowiednio dużo, abym był w stanie znaleźć właściwe analogie w przeczytanych książkach. Jak dziecko, które po nauczeniu się słowa „latawiec” i jego liczby mnogiej, z łatwością stworzy formę liczby mnogiej dla słowa „dmuchawiec” – „dmuchawce”.
Próbkowanie (Sampling)
Czas mijał. Uczeń i Mędrzec wspaniale się bawili, a ich umiejętności sięgały nowych wyżyn. Ich sława docierała wszędzie, a naśladowcy nie potrafili nadążyć za tempem, które sobie narzucili nasi bohaterowie. Lecz, jak to w życiu bywa, młody człowiek w pewnym momencie odczuł pewne znużenie.
– Mistrzu, czy nie jesteśmy zbyt przewidywalni? Na każde pytanie mamy gotową jedną odpowiedź! Czy tak powinno być? W końcu mądry człowiek ma przecież wątpliwości. Może wiedza powtarzana w wielu księgach nie jest jedyną prawdą?
– Czekałem właśnie na te wątpliwości, młodzieńcze. Mam pomysł, jak się do nich odnieść.
– Słucham z uwagą.
– Od dziś nie zawsze będę wybierał najbardziej prawdopodobną odpowiedź. Jeśli w moich książkach mówi się, że strzelec czterech goli to zapewne Lewandowski (90%), ale być może to Ronaldo (10%), to będę losował z dziesięciu kul: dziewięć białych to Lewandowski, a jedna czarna to Ronaldo. Jaką kulę wylosuję, tak odpowiem.
– To genialne! Mylić się jest przecież rzeczą ludzką. Mam nawet pomysł, jak ten pomysł udoskonalić! Gdyby bowiem z Twoich książek wynikało, że strzelcem czterech goli jest Wojciech Szczęsny – nawet z prawdopodobieństwem mniejszym niż 1% – i ta odpowiedź zostałaby wylosowana, to inni by się śmiali, że halucynujemy, bo Szczęsny to przecież bramkarz! Może więc ograniczmy wybór do kilku najbardziej prawdopodobnych możliwości.
– Faktycznie, takie ograniczenie do najbardziej prawdopodobnych kontynuacji eliminuje dziwne wypowiedzi, jednocześnie zapewniając pewną różnorodność.
Sterowanie temperaturą (Temperature Control)
Mędrzec nie poprzestał na tym pomyśle.
– Za moich czasów mówiono: Klient nasz Pan. Może pozwólmy na wybór, co lepsze: nudny pewniak, czy kreatywny wariat? Dajmy możliwość wyboru, czy odpowiedzi mają być pewne, czy też wybierane z większą dozą niepewności, by podkręcić „temperaturę” rozmowy. Na przykład w temperaturze zerowej nasz umysł będzie generował treści na chłodno – to, co jest najbardziej prawdopodobne. Wraz ze wzrostem temperatury będziemy stawać się coraz bardziej kreatywni, wybierając mniej popularne ścieżki.
Filtrowanie danych (Data Filtering)
Nowych książek wciąż przybywało. Uczeń nieustannie śledził każdą nową publikację, a Mędrzec, w swej nieskończonej mądrości, pochłaniał ich treści tak szybko, jak gdyby miały mu umknąć. Jednak w pewnym momencie Uczeń dostrzegł niepokojącą tendencję.
– Zauważyłem, że dzięki nam i naszym konkurentom, treści pojawiają się z taką prędkością, jakiej nigdy wcześniej nie widzieliśmy. Często to jedynie duplikowanie tego, co już było, a niektóre treści zawierają nieprawdziwe informacje lub stronnicze stanowiska. Musimy coś z tym zrobić, by nie wpłynęło to na naszą pracę.
– Masz rację. Zauważyłem to i ja. Czas podjąć kroki zapobiegawcze.
– Wydaje mi się, że powinniśmy selekcjonować dane, na których pracujemy. Przede wszystkim musimy zredukować powtórzenia, bo one zaburzają prawdopodobieństwa.
– A co z mową nienawiści, treściami stronniczymi i reklamowymi? Musimy je wyeliminować.
– Pamiętajmy także o aspektach prawnych. Powinniśmy unikać wykorzystywania danych prywatnych i sprawdzać, czy nowe publikacje udzielają zgody na przetwarzanie ich treści w naszej pracy.
– Masz rację, nigdy wcześniej nie pomyślałem, by zapytać autorów o zgodę przed wykorzystaniem ich treści…
Destylacja modelu (Model Distillation)
– Niektórzy twierdzą, że aby odpowiedzieć na proste pytanie, musimy zagłębiać się w „całą wiedzę świata”, tracąc przy tym czas i energię. Czy da się coś z tym zrobić? – zapytał Uczeń.
– Z pewnością! Ile już mojej wiedzy udało ci się przyswoić?
– Myślę, że może jedną setną.
– A więc, gdybyś to ty odpowiadał na pytania, tracilibyśmy 100 razy mniej energii na szukanie odpowiedzi?
– Zgadza się, ale jak sprawić, by moje odpowiedzi były równie trafne?
– Zróbmy tak: zadawaj mi różne pytania lub zadania. Po każdej mojej odpowiedzi zaktualizuj swoją wiedzę o tym, jak najlepiej kontynuować wypowiedzi. Dzięki temu zbliżysz się do mojej wiedzy nie tylko w tych pytaniach i zadaniach, które mi zadałeś, ale także w podobnych.
– Czyli jeśli na przykład zainteresuję się jakąś konkretną dziedziną, to w ten sposób mogę stać się w niej specjalistą, mimo że moja wiedza będzie znacznie mniejsza od twojej?
– Dokładnie tak.
Ewaluacja modeli (Model evaluation)
Mijały lata, a Mędrzec i Uczeń zmagali się z rosnącą konkurencją.
– Słyszałem, że za wielkim murem zaczęli podpatrywać nasze metody i teraz młodsze pokolenia uczą się przyswajania dostępnej wiedzy. Choć ich wiedza nie jest tak głęboka jak Twoja (nie mają oni tak pojemnego mózgu jak Twój), ich metody działania wydają się być bardziej efektywne niż nasze.
– Co oznacza „bardziej efektywne”? – zapytał Mędrzec. – Czy ktoś potrafi to obiektywnie ocenić?
– Nie jestem pewien – odpowiedział Uczeń. – Może musimy znaleźć jakiś sposób, by to sprawdzić.
Zaszumienie (Perplexity)
– Mam pomysł. Poprośmy najwybitniejszego autora książek, by stworzył idealną treść – taką, której żaden mędrzec jeszcze nie widział. Następnie zorganizujemy konkurs mędrców, w którym ten, kto najlepiej odgadnie treść tej niewidzianej książki, wygra.
– Co oznacza „odgadnie”? – zapytał Uczeń.
– To znaczy, że mnożąc swoje prawdopodobieństwa wyrazów kolejno pojawiających się w tej księdze, otrzyma najwyższy wynik.
– To może być bardzo, ale to bardzo mała liczba! – zauważył Uczeń.
– Możemy zatem spróbować inaczej: weźmy odwrotności tych prawdopodobieństw (np. zamiast 1/10, weźmy 10), pomnóżmy je, a potem wyciągnijmy odpowiedni pierwiastek, by liczby nie były zbyt duże. Teraz wygra ten, kto uzyska najmniejszy wynik.
– Mnie to może przekonuje, ale nie wiem, czy przekona to innych.
Ewaluacja ludzka (Human Evaluation)
– A może po prostu poprosimy ludzi o ocenę, kto najlepiej odpowiada na pytania? Na przykład, człowiek zada to samo pytanie dwóm mędrcom, a potem oceni, kto lepiej odpowiedział.
– Trochę to subiektywne – ostrzegał Mędrzec. – Mogę się zgodzić, pod warunkiem, że pytający nie będą wiedzieć, kto udzielił jakiej odpowiedzi, a pytających będzie bardzo, bardzo dużo.
Uczeń zabrał się do pracy, a po niedługim czasie zaprezentował wyniki ludzkiej oceny najlepszych mędrców: https://lmarena.ai/?leaderboard.
Ewaluacja automatyczna (Automatic Evaluation)
Ku zdumieniu Mędrca, na pierwszym miejscu w ludzkiej ocenie znalazł się jego kolega z klasy, który przez cały czas podążał jego śladem, a teraz niespodziewanie wyszedł z cienia!
– To mi się nie podoba – stwierdził Mędrzec. – Musi istnieć jakiś bardziej obiektywny sposób oceny.
– Słyszałem o czymś takim – odpowiedział Uczeń. – Możemy przygotować egzamin z określonego zestawu zadań – np. matematycznych, z wiedzy ogólnej lub językowych – z podanymi prawidłowymi odpowiedziami. Wygrywa ten, kto po prostu lepiej zda egzamin.
– A jak ocenić wszechstronność? – dopytywał Mistrz.
– Można na przykład wziąć średnią z różnych egzaminów.
Wkrótce pojawił się ranking: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
Kontaminacja danych (Data Contamination)
Mędrzec nie był zadowolony.
– Ach, ci oszuści zza muru – narzekał.
– Ależ to przecież obiektywny ranking! – bronił się Uczeń.
– Phi, wystarczy zdobyć odpowiedzi do egzaminu i potem je odklepać. Nawet mój wnuczek by to potrafił.
Z tymi słowy Mędrzec udał się na zasłużony odpoczynek. Młodsi mędrcy zza muru tylko na to czekali...
Autor:
prof. dr hab.
Krzysztof Jassem