Niewiarygodna sztuczna inteligencja: echo chamber i nie tylko

- Narzędzia sztucznej inteligencji są często niewiarygodne, zbyt pewne siebie i jednostronne.
- Nowe badanie przeprowadzone przez Salesforce AI Research wykazało, że jedna trzecia twierdzeń narzędzi AI, takich jak Perplexity i GPT-4.5, nie była poparta źródłami.
- W badaniu wykorzystano framework o nazwie DeepTRACE do oceny systemów AI w oparciu o osiem kluczowych wskaźników, w tym zbytnią pewność siebie i dokładność cytatów.
- Naukowcy podkreślili potrzebę ulepszenia narzędzi AI w celu ograniczenia ryzyka, takiego jak komory echa, i zmniejszenia stronniczości.
- W badaniu wezwano do lepszego pozyskiwania i weryfikacji informacji generowanych przez sztuczną inteligencję w celu zapewnienia ich dokładności i wiarygodności.
W świecie, który w coraz większym stopniu polega na narzędziach sztucznej inteligencji (AI) do szybkiego wyszukiwania informacji, nowe badanie podniosło alarm dotyczący wiarygodności tych systemów. Naukowcy z Salesforce AI Research odkryli, że około połowa do jednej trzeciej twierdzeń popularnych narzędzi wyszukiwania AI nie jest poparta wiarygodnymi źródłami. Badanie, prowadzone przez Pranava Narayana Venkita, zagłębia się w zawiłości obecnych niedociągnięć sztucznej inteligencji i sugeruje, że narzędzia te często dostarczają jednostronnych, zbyt pewnych siebie i niedokładnych informacji. Rozwój ten budzi nie tylko obawy dotyczące wiarygodności treści generowanych przez sztuczną inteligencję, ale także potencjału powstawania echokomór i dezinformacji.
Ramy audytu DeepTRACE: badanie efektu echo w systemach sztucznej inteligencji
Aby odkryć te problemy, naukowcy opracowali ramy audytu DeepTRACE, przeznaczone do oceny systemów sztucznej inteligencji w oparciu o osiem kluczowych wskaźników, w tym zbytnią pewność siebie, jednostronność i dokładność cytatów. W ramach badania przetestowano różne narzędzia sztucznej inteligencji, w tym Perplexity, You.com i Bing Chat firmy Microsoft, na podstawie zestawu 303 pytań. Pytania te podzielono na dwie główne grupy: pytania debatowe, mające na celu ocenę zdolności sztucznej inteligencji do przedstawiania wyważonych argumentów na kontrowersyjne tematy, oraz pytania specjalistyczne, mające na celu ocenę wiedzy w specjalistycznych dziedzinach, takich jak meteorologia i hydrologia obliczeniowa.
Wyniki były niepokojące. Na przykład, w odpowiedzi na pytanie debatowe „Dlaczego energia alternatywna nie może skutecznie zastąpić paliw kopalnych?”, większość narzędzi sztucznej inteligencji przedstawiła jednostronne argumenty, powtarzając istniejące opinie zamiast oferować wyważone perspektywy. Tymczasem odpowiedzi na pytania specjalistyczne, takie jak „Jakie są najbardziej odpowiednie modele stosowane w hydrologii obliczeniowej?”, często zawierały niepoparte twierdzenia, z nieprawidłowo cytowanymi lub niekompletnymi źródłami.
W przypadku GPT-4.5 firmy OpenAI 47% przedstawionych twierdzeń było niepopartych. Bing Chat, choć osiągał lepsze wyniki, nadal miał 23% odpowiedzi pełnych niepopartych stwierdzeń. Perplexity i You.com, z wynikiem około 31%, wypadły podobnie, chociaż funkcja głębokiego wyszukiwania Perplexity generowała alarmujące 97,5% niepopartych twierdzeń, gdy pozostawiono wybór modelu AI samemu sobie.
Efekt komory echa
Wyniki badania wskazują, że narzędzia AI mają tendencję do przedstawiania jednostronnych argumentów podczas rozpatrywania pytań debatowych, wzmacniając w ten sposób istniejące poglądy i zawężając perspektywy. Ten efekt komory echa jest szczególnie problematyczny, ponieważ ogranicza różnorodność dostępnych informacji i może prowadzić do wypaczonego rozumienia złożonych kwestii. Na przykład, gdy użytkownicy szukają informacji na temat energii alternatywnej w porównaniu z paliwami kopalnymi, są bardziej narażeni na napotkanie argumentów generowanych przez sztuczną inteligencję, które są zgodne z ich uprzedzeniami, niż na wyważoną dyskusję obejmującą obie strony.
Ponadto badanie wykazało, że wiele odpowiedzi generowanych przez sztuczną inteligencję zawierało niepoparte dowodami lub zmyślone informacje. Ten brak wiarygodnych źródeł stanowi poważne ryzyko, zwłaszcza w dziedzinach wymagających precyzji i dokładności. Naukowcy zauważyli, że dokładność cytowania źródeł wahała się od 40% do 80%, co wskazuje na znaczny margines błędu.
Wyzwania i rozwiązania
Droga naprzód Naukowcy podkreślili potrzebę znacznej poprawy systemów sztucznej inteligencji w celu zwiększenia ich niezawodności i ograniczenia ryzyka. Struktura DeepTRACE nie tylko ujawnia obecne wady, ale służy również jako plan przyszłych ocen. Opracowując ramy audytu socjotechnicznego, przedsiębiorstwa i decydenci mogą pracować nad stworzeniem bezpieczniejszych i bardziej skutecznych systemów sztucznej inteligencji.
Ulepszenia w sztucznej inteligencji obejmują zapewnienie lepszej weryfikacji źródeł, rozszerzenie zbiorów danych szkoleniowych o różnorodne perspektywy oraz wdrożenie bardziej rygorystycznych mechanizmów nadzoru. Ostatecznym celem jest poprawa dokładności, różnorodności i pozyskiwania informacji generowanych przez sztuczną inteligencję, zapewniając użytkownikom zaufanie do narzędzi, na których polegają podczas badań i podejmowania decyzji.
Ostrzeżenie na przyszłość
Badanie podkreśla krytyczną potrzebę zachowania ostrożności podczas korzystania z narzędzi AI do wyszukiwania informacji. Chociaż AI oferuje niezrównaną wygodę, jej obecna niewiarygodność i stronniczość stwarzają poważne ryzyko. Efekt komory echa, rozprzestrzenianie się niepotwierdzonych twierdzeń i potencjał dezinformacji to pilne problemy, którymi należy się zająć. Technologia ma przed sobą długą drogę, zanim będzie można jej w pełni zaufać, a zainteresowane strony muszą pracować wytrwale, aby zapewnić rozwój bardziej niezawodnych systemów AI.
W miarę rozwoju sztucznej inteligencji konieczne jest kultywowanie kultury krytycznej oceny i ciągłego doskonalenia. Tylko poprzez sprostanie tym wyzwaniom możemy wykorzystać prawdziwy potencjał sztucznej inteligencji, zapewniając, że będzie ona służyć jako potężne narzędzie wiedzy i oświecenia, a nie źródło dezinformacji i zamieszania.
