Niedawne wprowadzenie ChatGPT i podobnych generatywnych narzędzi sztucznej inteligencji spowodowało wiele zgrzytania zębami. Komentatorzy narzekają, że można oszukać sztuczną inteligencję, aby powiedziała paskudne rzeczy, a wyniki często wprowadzają w błąd.
Co do pierwszego, mówię: no i co z tego. Możesz oszukać program Excel, aby źle obliczał, używając błędnych formuł. A jeśli chcesz, aby edytor tekstu wygenerował paskudny tekst, po prostu go wpisz. Miarą profesjonalnego narzędzia nie jest to, czy zrobi coś źle, gdy celowo go nadużyjesz. Pytanie brzmi, czy wyniki są dobre, gdy narzędzie jest używane zgodnie z przeznaczeniem.
Znacznie gorzej jest, gdy ChatGPT jest używany poprawnie i generuje tekst, który brzmi bardzo przekonująco, ale zawiera kompletne fabrykacje. Miejmy nadzieję, że przyszłe wersje będą dokładniejsze, ale znowu nie sądzę, że błędne dane wyjściowe koniecznie skazują narzędzie AI, jeśli jest używane poprawnie. Oczywiście, jeśli polegasz na ChatGPT bez sprawdzania jego danych wyjściowych, ugryzie cię fałsz. Ale jeśli człowiek sprawdzi tekst wygenerowany przez sztuczną inteligencję, a następnie zredaguje go i poprawi, czy wyniki będą warte ludzkiego wysiłku?
Na szczęście nowe badanie badawcze dostarcza wglądu w dokładnie to pytanie.
Praca badawcza
Shakked Noy i Whitney Zhang z MIT opublikowali niedawno wyniki empirycznego badania profesjonalistów, którzy używali ChatGPT do pisania różnych dokumentów biznesowych.
Uczestnikami badania było 444 doświadczonych profesjonalistów biznesowych z różnych dziedzin, w tym marketerzy, autorzy grantów, analitycy danych i specjaliści ds. Zasobów ludzkich. Każdy uczestnik został wyznaczony do napisania dwóch dokumentów biznesowych w swojej dziedzinie. Przykłady obejmują komunikaty prasowe, krótkie raporty i plany analiz — dokumenty, które zostały zgłoszone jako realistyczne w odniesieniu do rodzaju pisarstwa, jakim zajmowali się ci profesjonaliści w ramach swojej pracy.
Wszyscy uczestnicy najpierw napisali jeden dokument w normalny sposób, bez pomocy komputera. Połowa uczestników została losowo przydzielona do korzystania z ChatGPT podczas pisania drugiego dokumentu, podczas gdy druga połowa napisała drugi dokument w normalny sposób, bez pomocy sztucznej inteligencji.
Rozważając wyniki przedstawione poniżej, powinniśmy zauważyć, że większość uczestników warunku ChatGPT używała narzędzia AI po raz pierwszy. (30% wszystkich uczestników korzystało już wcześniej z ChatGPT.) Zwykle każde narzędzie ma swoją krzywą uczenia się : im więcej użytkowników korzysta z narzędzia, tym bardziej wydajnie z niego korzystają. Wspaniale jest, gdy narzędzie ma wystarczającą łatwość uczenia się , aby użytkownicy mogli z powodzeniem używać go przy pierwszej próbie. Jednak w przypadku zastosowań profesjonalnych często ważniejszy jest poziom produktywności osiągany przez użytkowników w miarę upływu czasu. W każdym razie niniejsze badanie wykazało, że ChatGPT ma dużą użyteczność dla początkujących użytkowników (którzy reprezentowali większość grupy AI); wyniki mogą być jeszcze lepsze dla użytkowników z większym doświadczeniem w korzystaniu z narzędzia.
Po napisaniu dokumentów biznesowych oceniano je pod względem jakości w skali od 1 do 7. Każdy dokument został oceniony przez trzech niezależnych ewaluatorów, którzy byli profesjonalistami biznesowymi w tej samej dziedzinie co autor. Oczywiście ewaluatorom nie powiedziano, które dokumenty zostały napisane przy pomocy AI.
Na marginesie chcę zaznaczyć, że rozczarowująco rzadko zdarza się, aby badania UX oceniały jakość pracy wykonanej za pomocą badanego narzędzia. W końcu dane wyjściowe są celem większości zastosowań komputera, a jakość tych danych wyjściowych jest istotnym elementem oceny interfejsu użytkownika. Jak pokazano w niniejszym badaniu, jednym z powszechnych sposobów mierzenia jakości jest ocenianie pracy przez niezależnych oceniających.
Wyniki: Szybsza praca, lepsze wyniki
Często występuje konflikt między szybszą pracą a uzyskiwaniem dobrych wyników (zjawisko znane w psychologii poznawczej jako kompromis między szybkością a dokładnością ). Jednak w tym badaniu profesjonaliści biznesowi, którzy korzystali z ChatGPT, byli szybsi w tworzeniu swoich wyników, a oceniana jakość tych wyników była również wyższa.
Pierwsza runda, w której dokumenty były tworzone bez pomocy AI, dała takie same wyniki w obu grupach, potwierdzając, że przydział uczestników do warunków studiowania był rzeczywiście losowy. Innymi słowy, nie było tak, że uczestnicy z jednej grupy byli w jakiś sposób bardziej utalentowani lub uzdolnieni niż uczestnicy z drugiej grupy. Tym samym możemy mieć pewność, że różnice zmierzone dla drugiej rundy pisania były rzeczywiście spowodowane użyciem ChatGPT.
W drugiej rundzie profesjonaliści biznesowi korzystający z ChatGPT stworzyli swój produkt średnio w 17 minut , podczas gdy profesjonaliści, którzy napisali swój dokument bez wsparcia AI, spędzili 27 minut . Tak więc bez wsparcia AI profesjonalista wytworzyłby 480/27 = 17,7 dokumentów w zwykły 8-godzinny (480-minutowy) dzień pracy, podczas gdy ze wsparciem AI liczba ta wzrosłaby do 480/17 = 28,3. Jest to poprawa produktywności o 59% = (28,3-17,7)/17,7. Innymi słowy, użytkownicy ChatGPT byliby w stanie napisać o 59% więcej dokumentów w ciągu dnia roboczego niż osoby, które nie korzystają z ChatGPT — przynajmniej gdyby całe ich pisanie dotyczyło tylko dokumentów podobnych do tych w tym badaniu. Ta różnica odpowiada wielkości efektu wynoszącej 0,83 odchylenia standardowego, co jest uważane za duże w przypadku wyników badań.
Generowanie większej ilości danych wyjściowych nie jest pomocne, jeśli dane wyjściowe są niskiej jakości . Jednak według niezależnych oceniających tak nie było. (Pamiętaj, że oceniający nie wiedzieli, którzy autorzy otrzymali pomoc od ChatGPT.) Średnia ocena jakości dokumentów, w skali od 1 do 7, była znacznie lepsza, gdy autorzy korzystali z pomocy ChatGPT: 4,5 (z AI) w porównaniu z 3,8 ( bez AI). Wielkość efektu dla jakości wyniosła 0,45 odchylenia standardowego, co jest na granicy efektu małego i średniego dla wyników badań. (Nie możemy obliczyć wzrostu procentowego, ponieważ skala ocen od 1 do 7 jest miarą interwałową, a nie miarą ilorazową. Ale wzrost o 0,7 jest z pewnością dobry w 7-stopniowej skali).
Tak więc największy wpływ miał wzrost produktywności, ale był też miły efekt w postaci wzrostu jakości. Obie różnice były wysoce istotne statystycznie ( p = 0,000 dla obu wskaźników). Pamiętaj, że te ulepszenia zostały zarejestrowane, mimo że większość uczestników nie miała wcześniejszego doświadczenia z ChatCPT. Długoterminowe ulepszenia będą prawdopodobnie znacznie większe, ponieważ użytkownicy odkryją lepsze sposoby korzystania z narzędzia i odpowiednio dostosują swój styl pracy. (Coś, co nazywa się cyklem zadania-artefakty, gdzie największe korzyści z nowego narzędzia wynikają z dostosowania sposobu pracy do nowych możliwości oferowanych przez narzędzie. Kontrastuje to z automatyzacją istniejących procesów biznesowych bez wprowadzania zmian, co często nie jest optymalne. )
Dlaczego lepsza wydajność dzięki ChatGPT
To tyle, jeśli chodzi o wyniki ilościowe. Jak to często bywa w UX, bardziej interesujące jest rozważenie „dlaczego” niż „co”. Dlaczego profesjonaliści biznesowi radzili sobie lepiej podczas pisania dokumentów za pomocą ChatGPT? Obecne badania nie są w pełni satysfakcjonujące w odpowiedzi na to pytanie, być może dlatego, że naukowcy nie byli profesjonalistami UX, ale raczej ekonomistami zainteresowanymi badaniami produktywności. Jednak z ich badań wyłoniło się kilka interesujących spostrzeżeń.
Po pierwsze, wydaje się, że użycie ChatGPT zmniejszyło nierówności w umiejętnościach. Podczas gdy w grupie kontrolnej, która nie korzystała z sztucznej inteligencji, wyniki uczestników w obu zadaniach były dość dobrze skorelowane i wynosiły 0,49 (co oznacza, że osoby, które dobrze poradziły sobie z pierwszym zadaniem, zwykle radziły sobie dobrze z drugim, a osoby, które wypadły słabo z pierwszy zrobił to również na drugim), w grupie wspomaganej przez sztuczną inteligencję korelacja między wynikami w dwóch zadaniach była znacznie niższa i wynosiła zaledwie 0,25. Ta niższa korelacja wynikała przede wszystkim z faktu, że użytkownikom, którzy uzyskali niższe wyniki w swoim pierwszym zadaniu, ChatGPT pomógł bardziej niż użytkownikom, którzy dobrze poradzili sobie z pierwszym zadaniem.
Po drugie, poproszono profesjonalistów, aby zgłosili, w jaki sposób przydzielili swój czas na trzy różne fazy procesu pisania: burza mózgów, napisanie wstępnej wersji roboczej i dopracowanie tej wersji roboczej. Ich odpowiedzi sugerowały, że używanie ChatGPT zmieniło sposób, w jaki użytkownicy spędzali czas .
W pierwszej rundzie (bez pomocy sztucznej inteligencji) profesjonaliści biznesowi spędzili około 25% swojego czasu na burzy mózgów, 50% na pisaniu wstępnej wersji roboczej, a 25% na redagowaniu tej wersji roboczej w celu uzyskania ostatecznego, dopracowanego produktu. Podczas korzystania z ChatGPT uczestnicy prawdopodobnie spędzali trochę mniej czasu na burzy mózgów (chociaż różnica mieści się w marginesie błędu, więc nie można na niej polegać). Czas poświęcony na generowanie wstępnych wersji roboczych skrócił się o ponad połowę, ponieważ większość tego obciążenia została przeniesiona na ChatGPT. I, co ciekawe, czas poświęcony na dopracowywanie szkicu podwoił się.
Jeden krok skrócony o połowę i jeden krok podwojony: można by pomyśleć, że jesteśmy kwita. Nie: ponieważ czas szkicu wstępnego był pierwotnie dwa razy dłuższy niż czas edycji, dwukrotna różnica daje większą liczbę bezwzględną dla szkicu wstępnego niż dla edycji. To wyjaśnia ogólną redukcję czasu wykonywania zadań podczas korzystania z ChatGPT: znacznie więcej czasu zaoszczędzono na redagowaniu, niż wydano na dodatkową edycję. I odwrotnie, możliwe jest, że dodatkowy czas spędzony na edytowaniu ostatecznego produktu przyczynił się do wyższej oceny jakości dokumentów wspomaganych przez sztuczną inteligencję.
W związku z tym poprawa produktywności i jakości jest prawdopodobnie spowodowana zmianą w alokacji czasu specjalistów biznesowych: mniej czasu spędzanego na opracowywaniu wstępnej wersji roboczej tekstu, a więcej na dopracowywanie końcowego wyniku. Jeśli ta analiza utrzyma się w bardziej szczegółowych badaniach jakościowych, wydaje się, że głównym wkładem ChatGPT jest zaoszczędzenie użytkownikom znacznej ilości czasu na tworzeniu wstępnego tekstu.