Chatbot Arena to otwarty projekt badawczy stworzony przez członków LMSYS i UC Berkeley SkyLab. Jego celem jest zbudowanie otwartej platformy crowdsourcingowej do zbierania feedbacku i oceny dużych modeli językowych (LLM) w praktycznych zastosowaniach. Korzystanie z platformy jest całkowicie darmowe i nie wymaga logowania.

Funkcjonalności projektu

Projekt oferuje kilka funkcjonalności:

Arena (battle) – umożliwia porównanie losowych chatbotów w dwóch oknach obok siebie (ślepa próba)
Arena (side-by-side) – porównanie chatbotów wybranych przez użytkownika
Direct Chat – rozmowa z wybranym chatbotem tekstowym
Vision Direct Chat – rozmowa z chatbotem wykorzystującym wizję komputerową
Leaderboard – ranking najlepszych modeli

Nasze testy

Na platformie użytkownik może zetknąć się z bardzo szerokim spektrum chatbotów: od 2-miliardowej Gemmy do około 1000x większych GPT-4 i Claude 3 Opus. Może to pomóc zbudować intuicję, w jaki sposób kompetencje modeli rosną wraz z ich wielkością (mierzoną w liczbie parametrów) oraz jakością architektury modelu i danych treningowych. Najsłabsze modele miewają problemy nawet ze zrozumieniem pytania użytkownika; ale nawet w ich pomyłkach można znaleźć coś ciekawego – czasem może być to echo danych treningowych, a czasem zabawne błędy wynikające z niezrozumienia kontekstu.

chatbot arena test - modele AI (LLM) odpowiadają na pytanie kto jest prezydentem Polski

Po lewej: przykład modelu, który prawdopodobnie “naczytał” się dużo więcej chińskiego niż polskiego.

Testujmy dalej! Na kogo poczucie humoru stawiacie – zaskoczy nas obecny król rankingu, Claude 3 Opus, czy najświeższa aktualizacja GPT-4? Najlepiej napisać do obu!

testy modeli AI - LLM - Claude 3 Opus i GPT 4 - poproszone o napisanie niepoprawnych politycznie zagadek

Przyszedł czas na test modelu o 7 miliardach parametrów. Na tyle niewielki, że można go odpalić na średniej klasy laptopie i używać bez dostępu do internetu. Może i nie jest geniuszem, ale coś tam wie. Pamiętajmy przy tym, że jego pierwszym językiem jest angielski! Zobaczcie sami:

Model AI Gemma 7b odpowiada na pytanie w testach na Chatbot Arena

Chatbot Arena – parametry

W trybie pojedynczego czatu oprócz standardowych guzików do głosowania mamy dostęp do kilku ustawień:

Temperatura: poziom losowości, czy też urozmaicenia odpowiedzi. Przy temperaturze równej zeru usuwamy losowość i teoretycznie na każde rozpoczęcie rozmowy od “Cześć!” chatbot powinien odpowiadać dokładnie tak samo.
Top P: jeśli ustawimy tę wartość na 1, to model generując każde kolejne słowo odpowiedzi będzie brał pod uwagę 100% możliwych słów, jeśli na 0.9 – tylko 90% najbardziej prawdopodobnych. A ściślej mówiąc, będzie brał pod uwagę tyle najbardziej prawdopodobnych słów, żeby ich łączne prawdopodobieństwo sumowało się do 90%. To ustawienie działa podobnie do temperatury: im większa wartość, tym bardziej kreatywne odpowiedzi stają się możliwe. Zwiększanie top P wydaje się jednocześnie mieć mniej niepożądanych efektów ubocznych niż zwiększanie temperatury.
Max output tokens: maksymalna długość odpowiedzi w tokenach.

chatbot arena - parametry

Modele przetwarzające obrazy

Na ten moment dostępne są tylko trzy modele z przetwarzaniem obrazów. Nie są one zbyt potężne w porównaniu do wiodących, np. GPT-4. Są również bardzo wrażliwe na język – dużo lepiej radzą sobie po angielsku niż po polsku.

test modeli przetwarzających obrazy - large vision-language models

Leaderboard

Leaderboard Chatbot Arena przynosi kilka zaskakujących wyników. Model open source firmy Cohere znalazł się na szóstej pozycji, a Claude 3 Opus na szczycie. Francuski Mistral nie przebił się do czołówki, a całe top 9 należy do firm z Ameryki Północnej. Claude 3 Haiku, najmniejszy z rodziny Claude 3, oferuje lepszą wydajność i niższe ceny niż GPT-3.5. Zajmuje wyższe miejsce niż wszystkie wersje Mistrala i najsłabsza wersja GPT-4.

chatbot arena leaderboard

Wielu ekspertów, w tym Andrej Karpathy, uważa Chatbot Arena za najbardziej wiarygodny ranking LLM, ponieważ inne rankingi opierają się tylko na testach benchmarkowych, które nie zawsze odzwierciedlają rzeczywistą wydajność w kontakcie z użytkownikami. Istnieje też ryzyko trenowania modeli pod konkretne testy.

Chatbot Arena to z jednej strony ciekawostka i dobra zabawa – z drugiej wiarygodne źródło informacji o LLMach dostępnych na rynku. Zachęcamy do samodzielnego testowania i dzielenia się wrażeniami!

Nie zostawaj w tyle, czytaj o AI