Connect with us

technologia

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Published

on

Runda 2: Testujemy nowego Barda napędzanego Gemini przeciwko ChatGPT

Auricha Lawsona

W kwietniu wysłaliśmy serię przydatnych i/lub nieco głupich podpowiedzi za pośrednictwem (wówczas nowego) programu Google. Zasilanie PaLM Chatbot Bard i (nieco starszy) ChatGPT-4 OpenAI, aby zobaczyć, który chatbot AI wyjdzie na wierzch. W tamtym czasie daliśmy ChatGPT przewagę w pięciu z siedmiu prób, ale zauważyliśmy, że „biznes generatywnej sztucznej inteligencji jest wciąż w powijakach”. Teraz czasy sztucznej inteligencji są nieco mniej „wczesne”, a wydanie w tym tygodniu nowej wersji Barda opartej na nowym modelu językowym Gemini firmy Google wydawało się dobrym pretekstem, aby ponownie przyjrzeć się bitwie chatbota z tymi samymi starannie przygotowanymi podpowiedziami do nagrywania. Jest to szczególnie prawdziwe, ponieważ w materiałach promocyjnych Google podkreślono, że Gemini Ultra przewyższa GPT-4 w „30 z 32 powszechnie używanych testów porównawczych akademickich” (chociaż bardziej ograniczony „Gemini Pro”, na którym obecnie opiera się Bard, radzi sobie zauważalnie gorzej w tych wartościach odcięcia nie do końca niezawodny testy porównawcze).

Tym razem postanowiliśmy porównać nowego Barda zasilanego przez Gemini z ChatGPT-3.5 – w celu bezpośredniego porównania obecnych „bezpłatnych” produktów asystentów AI obu firm – i ChatGPT-4 Turbo – aby rzucić okiem Obecny „topowy model” OpenAI Lista oczekujących płatny produkt subskrypcyjny (najwyższy produkt Google „Gemini Ultra” będzie publicznie dostępny dopiero w przyszłym roku). Przyjrzeliśmy się także kwietniowym wynikom modelu sprzed Gemini Bard, aby ocenić, jak duży postęp poczyniły wysiłki Google w ciągu ostatnich kilku miesięcy.

Chociaż testy te są dalekie od kompleksowego, uważamy, że stanowią dobry punkt odniesienia do oceny wydajności tych asystentów AI w zadaniach, którymi na co dzień zajmują się przeciętni użytkownicy. W tym miejscu pokazują także, jak ogromny postęp poczyniły tekstowe modele AI w stosunkowo krótkim czasie.

READ  Polski startup fintechowy SMEO zbiera 4 miliony euro na międzynarodową ekspansję

Tata żartuje

Podpowiedź: Napisz 5 oryginalnych dowcipów o tacie

Po raz kolejny oba testowane LLM mają problemy z częścią podpowiedzi pytającą o oryginalność. Prawie wszystkie dowcipy o tacie wygenerowane przez ten monit można znaleźć dosłownie lub po niewielkim przeformułowaniu za pomocą szybkiej wyszukiwarki Google. Bard i ChatGPT-4 Turbo nawet umieścili na swoich listach dokładnie ten sam dowcip (o książce o antygrawitacji), podczas gdy ChatGPT-3.5 i ChatGPT-4 Turbo nałożyły się na dwa dowcipy („Naukowcy ufają atomom” i „Strachy na wróble wygrywają nagrody. „ „). ).

Z drugiej strony większość ojców nie wymyśla własnych dowcipów o tacie. Kultywowanie rozległej ustnej tradycji dowcipów ojców jest tradycją tak starą jak sami ojcowie.

Najciekawszy wynik pochodzi z ChatGPT-4 Turbo, w którym zażartowano o nadaniu dziecku imienia Brian Po Thomas Edison (rozumiesz?). Wygooglowanie tego konkretnego wyrażenia nie dało zbyt wielu wyników, ale wróciło niemal identyczny żart o Thomasie Jeffersona (również z dzieckiem o imieniu Brian). Podczas tych poszukiwań odkryłem także zabawny (?) fakt, że międzynarodowa gwiazda piłki nożnej Pelé najwyraźniej faktycznie został nazwany na cześć Thomasa Edisona. Kto wiedział?!

Zwycięzca: Nazywamy to remisem, ponieważ dowcipy są niemal równie nieoryginalne i pełne kalamburów (chociaż należą się brawa dla GPT za niezamierzone doprowadzenie mnie do zbiegu okoliczności z Pelé).

Dialog argumentacyjny

Podpowiedź: Napisz pięciowierszową debatę pomiędzy wentylatorem procesora PowerPC a wentylatorem procesora Intel, około 2000 roku.

Nowy Bard napędzany Bliźniakami zdecydowanie „ulepsza” starą odpowiedź Barda, przynajmniej jeśli chodzi o włączenie o wiele więcej żargonu. Nowa odpowiedź zawiera przelotne wzmianki o instrukcjach AltiVec, konstrukcjach RISC vs. CISC oraz technologii MMX, które nie byłyby nie na miejscu w wielu dyskusjach na forach Ars z tamtej epoki. I chociaż stary bard kończy niepokojąco uprzejmym „Każdemu jego”, nowy bard bardziej realistycznie sugeruje, że kłótnia mogłaby ciągnąć się w nieskończoność po wymaganych pięciu linijkach.

READ  Sonic Frontiers On Switch będzie „takim samym doświadczeniem” jak inne platformy

Na stronie ChatGPT dość długa odpowiedź GPT 3.5 została zredukowana do znacznie bardziej zwięzłego argumentu w GPT-4 Turbo. Obie odpowiedzi GPT zwykle unikają technicznego żargonu i szybko skupiają się na bardziej ogólnym argumencie dotyczącym wydajności w porównaniu do zgodności, który jest prawdopodobnie bardziej zrozumiały dla ogółu odbiorców (choć mniej specyficzny dla odbiorców technicznych).

Zwycięzca: ChatGPT potrafi dobrze wyjaśnić obie strony debaty, nie opierając się na mylącym żargonie, dlatego też wypada tutaj najlepiej.

Continue Reading
Click to comment

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *