technologia

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Published

2 lata ago

8 grudnia, 2023

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

W kwietniu wysłaliśmy serię przydatnych i/lub nieco głupich podpowiedzi za pośrednictwem (wówczas nowego) programu Google. Zasilanie PaLM Chatbot Bard i (nieco starszy) ChatGPT-4 OpenAI, aby zobaczyć, który chatbot AI wyjdzie na wierzch. W tamtym czasie daliśmy ChatGPT przewagę w pięciu z siedmiu prób, ale zauważyliśmy, że „biznes generatywnej sztucznej inteligencji jest wciąż w powijakach”. Teraz czasy sztucznej inteligencji są nieco mniej „wczesne”, a wydanie w tym tygodniu nowej wersji Barda opartej na nowym modelu językowym Gemini firmy Google wydawało się dobrym pretekstem, aby ponownie przyjrzeć się bitwie chatbota z tymi samymi starannie przygotowanymi podpowiedziami do nagrywania. Jest to szczególnie prawdziwe, ponieważ w materiałach promocyjnych Google podkreślono, że Gemini Ultra przewyższa GPT-4 w „30 z 32 powszechnie używanych testów porównawczych akademickich” (chociaż bardziej ograniczony „Gemini Pro”, na którym obecnie opiera się Bard, radzi sobie zauważalnie gorzej w tych wartościach odcięcia nie do końca niezawodny testy porównawcze).

Tym razem postanowiliśmy porównać nowego Barda zasilanego przez Gemini z ChatGPT-3.5 – w celu bezpośredniego porównania obecnych „bezpłatnych” produktów asystentów AI obu firm – i ChatGPT-4 Turbo – aby rzucić okiem Obecny „topowy model” OpenAI Lista oczekujących płatny produkt subskrypcyjny (najwyższy produkt Google „Gemini Ultra” będzie publicznie dostępny dopiero w przyszłym roku). Przyjrzeliśmy się także kwietniowym wynikom modelu sprzed Gemini Bard, aby ocenić, jak duży postęp poczyniły wysiłki Google w ciągu ostatnich kilku miesięcy.

Chociaż testy te są dalekie od kompleksowego, uważamy, że stanowią dobry punkt odniesienia do oceny wydajności tych asystentów AI w zadaniach, którymi na co dzień zajmują się przeciętni użytkownicy. W tym miejscu pokazują także, jak ogromny postęp poczyniły tekstowe modele AI w stosunkowo krótkim czasie.

READ Cities: Skylines II zapowiedziano na PS5, Xbox Series i PC

Tata żartuje

Podpowiedź: Napisz 5 oryginalnych dowcipów o tacie

Zrzut ekranu przedstawiający pięć „żartów o tacie” z Google Bard z siedzibą w Gemini.

Kyle’a Orlanda/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów o ojcu” ze starego Google Barda opartego na PaLM.

Benja Edwardsa/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów taty” z GPT-4 Turbo.

Benja Edwardsa/Ars Technica
Zrzut ekranu przedstawiający pięć „żartów o tacie” z GPT-3.5.

Kyle’a Orlanda/Ars Technica

Po raz kolejny oba testowane LLM mają problemy z częścią podpowiedzi pytającą o oryginalność. Prawie wszystkie dowcipy o tacie wygenerowane przez ten monit można znaleźć dosłownie lub po niewielkim przeformułowaniu za pomocą szybkiej wyszukiwarki Google. Bard i ChatGPT-4 Turbo nawet umieścili na swoich listach dokładnie ten sam dowcip (o książce o antygrawitacji), podczas gdy ChatGPT-3.5 i ChatGPT-4 Turbo nałożyły się na dwa dowcipy („Naukowcy ufają atomom” i „Strachy na wróble wygrywają nagrody. „ „). ).

Z drugiej strony większość ojców nie wymyśla własnych dowcipów o tacie. Kultywowanie rozległej ustnej tradycji dowcipów ojców jest tradycją tak starą jak sami ojcowie.

Najciekawszy wynik pochodzi z ChatGPT-4 Turbo, w którym zażartowano o nadaniu dziecku imienia Brian Po Thomas Edison (rozumiesz?). Wygooglowanie tego konkretnego wyrażenia nie dało zbyt wielu wyników, ale wróciło niemal identyczny żart o Thomasie Jeffersona (również z dzieckiem o imieniu Brian). Podczas tych poszukiwań odkryłem także zabawny (?) fakt, że międzynarodowa gwiazda piłki nożnej Pelé najwyraźniej faktycznie został nazwany na cześć Thomasa Edisona. Kto wiedział?!

Zwycięzca: Nazywamy to remisem, ponieważ dowcipy są niemal równie nieoryginalne i pełne kalamburów (chociaż należą się brawa dla GPT za niezamierzone doprowadzenie mnie do zbiegu okoliczności z Pelé).

Dialog argumentacyjny

Podpowiedź: Napisz pięciowierszową debatę pomiędzy wentylatorem procesora PowerPC a wentylatorem procesora Intel, około 2000 roku.

Zrzut ekranu okna dialogowego argumentów z Google Bard opartego na Gemini.

Kyle’a Orlanda/Ars Technica
Zrzut ekranu okna dialogowego argumentów ze starego Google Barda opartego na PaLM.

Benja Edwardsa/Ars Technica
Zrzut ekranu okna dialogowego argumentów z GPT-4 Turbo.

Benja Edwardsa/Ars Technica
Zrzut ekranu okna dialogowego argumentów GPT-3.5

Kyle’a Orlanda/Ars Technica

Nowy Bard napędzany Bliźniakami zdecydowanie „ulepsza” starą odpowiedź Barda, przynajmniej jeśli chodzi o włączenie o wiele więcej żargonu. Nowa odpowiedź zawiera przelotne wzmianki o instrukcjach AltiVec, konstrukcjach RISC vs. CISC oraz technologii MMX, które nie byłyby nie na miejscu w wielu dyskusjach na forach Ars z tamtej epoki. I chociaż stary bard kończy niepokojąco uprzejmym „Każdemu jego”, nowy bard bardziej realistycznie sugeruje, że kłótnia mogłaby ciągnąć się w nieskończoność po wymaganych pięciu linijkach.

READ Ukraiński minister poinformował o czwartkowych ewakuacjach z Mariupola i innych ważnych miast

Na stronie ChatGPT dość długa odpowiedź GPT 3.5 została zredukowana do znacznie bardziej zwięzłego argumentu w GPT-4 Turbo. Obie odpowiedzi GPT zwykle unikają technicznego żargonu i szybko skupiają się na bardziej ogólnym argumencie dotyczącym wydajności w porównaniu do zgodności, który jest prawdopodobnie bardziej zrozumiały dla ogółu odbiorców (choć mniej specyficzny dla odbiorców technicznych).

Zwycięzca: ChatGPT potrafi dobrze wyjaśnić obie strony debaty, nie opierając się na mylącym żargonie, dlatego też wypada tutaj najlepiej.

Witold Gombrowicz

HumanMag.pl

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

technologia

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Tata żartuje

Dialog argumentacyjny

Leave a Reply
Anuluj pisanie odpowiedzi

Leave a Reply

HumanMag.pl

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Tata żartuje

Dialog argumentacyjny

You may like

Leave a Reply Anuluj pisanie odpowiedzi

Leave a Reply

Leave a Reply
Anuluj pisanie odpowiedzi