OpenAI daje ChatGPT głos, który może odpowiadać na podpowiedzi i polecenia

Czytelnicy tacy jak Ty pomagają wspierać MUO. Kiedy dokonujesz zakupu za pomocą linków na naszej stronie, możemy otrzymać prowizję partnerską. Czytaj więcej.

ChatGPT ma stać się interaktywnym, generatywnym doświadczeniem AI. OpenAI ujawniło, że wiodący na świecie chatbot AI będzie mógł mówić i odpowiadać na zapytania użytkowników za pomocą syntetycznego głosu, prawdopodobnie wygenerowanego przez sztuczną inteligencję.

Oprócz nowego głosu ChatGPT będzie także w stanie odpowiadać i omawiać określone obrazy przesłane do niego lub zrobione podczas korzystania z aplikacji ChatGPT na Androida lub iOS. Funkcja rozpoznawania obrazu brzmi podobnie do Google Lens i innych aplikacji korzystających z sieci neuronowych do dokładnego wykrywania danych i informacji.

OpenAI daje ChatGPT głos

25 września 2023 r. programista ChatGPT Ujawniono OpenAI dałoby głos jego wiodącemu na świecie generatywnemu chatbotowi AI. Użytkownicy ChatGPT mogą rozmawiać bezpośrednio z chatbotem i prosić go o odpowiedź, co skutecznie pozwala ChatGPT po raz pierwszy na bezpośrednią rozmowę głosową.

bezpłatna aplikacja do dzwonienia na iPhone'a wifi

Przykładowy klip OpenAI przedstawia kobietę proszącą ChatGPT o stworzenie wyjątkowej historii na dobranoc, na którą ChatGPT należycie odpowiada syntetycznym żeńskim głosem.

Według Przewodowy nowy model zamiany tekstu na mowę został opracowany we własnym zakresie. Może generować „ludzki” dźwięk z tekstu i kilku sekund próbki mowy ( przy użyciu modelu OpenAI Whisper ) i mówić różnymi tonami i stylami. Na stronie można znaleźć wiele próbek głosu Blog OpenAI .

Niektóre firmy już wykorzystują nowy model głosu OpenAI. Na przykład Spotify wykorzystuje model zamiany tekstu na mowę OpenAI do tłumaczenia podcastów na różne języki, łącząc możliwości ChatGPT w zakresie tłumaczenia językowego z nową możliwością mówienia.

ile miejsca potrzeba na okna 10

Nowy model zamiany tekstu na mowę ChatGPT jest dostępny tylko dla abonentów Plus i Enterprise korzystających z oficjalnych aplikacji na Androida i iOS i oczekuje się, że zostanie wprowadzony w ciągu najbliższych dwóch tygodni (począwszy od 25 września 2023 r.). Co więcej, nowa funkcja głosowa jest początkowo ograniczona do języka angielskiego, chociaż spodziewamy się, że to się szybko zmieni.

ChatGPT może rozpoznać i i zdjęcia

Drugą częścią aktualizacji ChatGPT OpenAI jest możliwość analizowania i omawiania obrazów przesłanych do narzędzia. Opcja wizualnej analizy obrazu została przedstawiona w filmach poświęconych aktualizacji GPT-4, ale od tego czasu nie była zbyt szeroko omawiana ( Pomijając interpreter kodu ChatGPT ).

Teraz ChatGPT zyskuje funkcjonalność podobną do Google Lens. Możesz przesłać obraz do ChatGPT lub zrobić zdjęcie za pomocą aparatu w smartfonie w aplikacji ChatGPT, a to wyszczególni obraz, dodając w razie potrzeby więcej kontekstu.

Nazywanie go „podobnym do Google Lens” jest naprawdę niesprawiedliwe. Możliwość rozmów na temat obrazu w celu uzyskania większej ilości informacji i kontekstu sprawia, że jest on niezwykle przydatny w przypadku szerokiego zakresu ustawień. Należy jednak zwrócić uwagę na drobny druk, gdyż OpenAI jasno wyjaśnia, że ogranicza „zdolność ChatGPT do analizowania i składania bezpośrednich oświadczeń na temat ludzi” ze względu na prywatność i dokładność. Czy jednak narzędzie „Kto to jest” oparte na OpenAI może pojawić się w przyszłości? (Miejmy nadzieję, że nie!)

Podobnie jak nowy model zamiany tekstu na mowę, OpenAI wprowadzi funkcję rozpoznawania obrazów w ciągu najbliższych dwóch tygodni, choć będzie ona dostępna na wszystkich platformach, a nie tylko w aplikacji ChatGPT.

Prywatność, bezpieczeństwo i inne kwestie

Konsekwencje obsługi głosowej ChatGPT są surowe. Jasne, to ekscytujące. Jednakże możliwość stworzenia unikalnie zsyntetyzowanego głosu na podstawie zaledwie krótkiego fragmentu jako przykładu wiąże się ze znacznymi problemami związanymi z prywatnością i bezpieczeństwem. Potencjał złośliwych aktorów w zakresie wykorzystania tych narzędzi jest ogromny i jak w przypadku każdego narzędzia generatywnej sztucznej inteligencji, gdy dżin wyjdzie z butelki, absolutnie nie wróci do niego. Żadna ilość regulacji dotyczących sztucznej inteligencji wydawanych przez rządy lub liderów myśli nie jest w stanie tego cofnąć. pływ.

Nawet ostrzeżenie OpenAI na ten temat wydaje się omijać oczywistości, pomimo wzmianki o problemach:

Możliwości te wiążą się jednak również z nowymi zagrożeniami, takimi jak możliwość podszywania się przez złośliwe podmioty pod osoby publiczne lub popełniania oszustw. Właśnie dlatego używamy tej technologii do obsługi konkretnego przypadku użycia — czatu głosowego.

Biorąc pod uwagę, że to wierzchołek góry lodowej, należy spodziewać się ostrej reakcji na nowo odkryty głos ChatGPT, zwłaszcza gdy przewidywany jest wzrost liczby niesmacznych nagłówków twierdzących, że ChatGPT jest wykorzystywany do popełniania oszustw i tak dalej.

jak znaleźć automatycznie zapisane dokumenty w programie Word 2010

OpenAI sprawia, że ChatGPT staje się aplikacją AI typu Go-To

Im więcej OpenAI dodaje przyjazne dla użytkownika funkcje do ChatGPT, tym bardziej staje się to popularną aplikacją generującą sztuczną inteligencję. Jako pierwsza, która zyskała powszechną sławę podczas początkowego boomu generatywnej sztucznej inteligencji, ChatGPT nadal przoduje i jest jedyną aplikacją, z której niektórzy korzystają, pomimo konkurencji ze strony takich firm jak Google Bard (i potencjalnie Google Gemini) i Claude firmy Anthropic.

Tak długo, jak OpenAI będzie mogło nadal dodawać funkcje ułatwiające korzystanie z ChatGPT, będzie przyciągać ludzi i coraz bardziej przybliżać się do celu, jakim jest prawdziwie multimodalne narzędzie AI.