Table of contents
W zeszłym tygodniu miało miejsce duże wydarzenie w świecie AI. Meta wydała kolejną iterację modelu Llama – Llama3. Jak wiadomo, więcej niż jedno zwierzę to lama, tak więc jak sama nazwa wskazuje – Llama nie jest jednym zwierzęciem, ale rodziną modeli, na którą składają się modele 8B i 70B – oba udostępnione w wersji pre-trenowanej i instruct. Słowem wstępu dla osób mniej technicznych, wersja pre-trenowana to wersja, która została nauczona języka i jego struktury, ale nie została wytrenowana do konkretnych i poszczególnych zadań. Za to odpowiada wersja instruct, dlatego dalej w tym poście będziemy się do tej wersji odnosić.
Co wiemy o Llama 3?
Z technicznego punktu widzania, posada ona słownik 128k tokenów, a jej okno kontekstowe to 8k (szczerze mówiąc jest to słaby wynik w porównaniu do konkurencji). Meta zapewnia jednak, że słaby punkt modelu w postaci małego okna w niedalekiej przyszłości ulegnie poprawie – planowane oraz trenowane są modele z większym oknem osiągające nawet 400B parametrów. Dodatkowo, mają być one wytrenowane na 15T tokenach z źródeł publicznych w ponad 30 językach.
Jak obecnie Llama 3 wypada na tle innych modeli?

Jak widzimy na załączonych grafikach – Meta wybija się na prowadzenie.. Jest jednak jedno “ale” – gdzie w tych porównaniach podziały się GPT4 i Claude 3 Opus? Wiedzieć nie wiemy, ale się domyślamy…
Zerknijmy w takim razie na LMSys Arena, poszukać potwierdzenia naszych domysłów:

Tutaj już wyraźnie widać, że Llama ustępuje modelom takim jak GPT4-Turbo i Claude 3 Opus. Warto jednak spojrzeć na to szerzej i wziąć pod uwagę kontekst tego, jak wielkie są te modele. Opus? Estymaty mówią nawet o 2T parametrów; GPT 4, Gemini Pro? I tutaj mamy pewność, że mowa jest o bardzo dużych numerach. Tak więc Llama 3 pomimo znacznie mniejszych rozmiarów osiąga bardzo dobre wyniki. Warto zauważyć, że z tej listy to jedyny open source model który możemy pobrać i sami sobie lokalnie odpalić! Jest zdecydowanie coś, co lubimy.
Test Llama 3 od Meta
Tyle o teoretyzowania o samej Llamie – zostaje jeszcze jedna rzecz, a mianowicie – wypróbować ją w praktyce. W tym celu wykorzystamy LMSys Arenę która pozwala na testowanie różnych modeli.
Nie bylibyśmy sobą gdybyśmy pytali o zwykłe, casualowe rzeczy, czy prowadzili testowy small talk z modelem. Wolimy pytania, które wymagają wykazania się rozumowaniem ze strony modelu. Dla referencji – konfrontowaliśmy Llame z Claude 3 Opus.
Na początek coś łatwego:

Jak widać zarówno Llama jak jej oponent z łatwością wywnioskowali, że ciągle mamy 10 gruszek. Mądre modele!
To może klasyczne pytanie z klasówki z geografii?

Tym razem Llama pogubiła się totalnie i sprzedała nam nieprawdziwą informację, myląc bieguny. Dostała jednak drugą szansę, podczas której postanowiła przyznać się do błędu zamiast iść w zaparte.
To może coś jeszcze trudniejszego? Albo podchwytliwego – coś, z czym człowiek może mieć problem, pytanie, w którym trzeba wyjść poza schemat? Proszę bardzo:


Oba modele nie są w stanie poprawnie odpowiedzieć na to pytanie. Chociaż według nas Llama prezentuje się tu lepiej, bo nie upiera się przy błędnej odpowiedzi, tylko przyznaje się do błędu w przeciwieństwie do Claude. Chociaż oba modele są w błędzie, istnieje właściwa odpowiedź na to pytanie. Ciekawe, jak wielu ludzi wie, jaka? 🙂
To może ostatni przykład – ale w tym razem zaobserwujemy, jak radzą sobie Llama 70B i Llama 8B:

Upss! Żadna z Llam nie potrafiła zrozumieć sedna zagadki, chociaż ta większa, która powinna być lepsza, zrobiła to gorzej, bo wymaginowała sobie nową żarówkę. No cóż, model to model – ma prawo popełniać błędy.
Co sądzimy o Llamie?
Llama, jak każdy inny model, popełnia błędy – jednak nasze zapytania nie należały do najłatwiejszych, trzeba przyznać, że model dawał sobie z nimi w miarę radę. Przynajmniej nie gorzej niż jego przeciwnicy, co odzwierciedla się w rankingu areny.
My Llamę oceniamy jest jak najbardziej na poztywnie. Można nawet powiedzieć, że to swojego rodzaju gamechanger – przy mniejszej architekturze i byciu open-source jesteśmy w stanie niemalże dorównać największym i najlepszym modelom.

Uncategorized
25/04/2024