Polak dba w Amazonie o emocje sztucznej inteligencji
Adrian Ołdak - 19-09-2021
Wbudowanie umiejętności rozumienia kontekstu to bardzo ważny punkt w pracy nad komunikacją głosową człowieka i maszyny - mówi Rafał Kukliński, dyrektor generalny Centrum Rozwoju Technologii Amazon, w którym pracuje się nad dodaniem emocji do syntetycznego głosu.
Polski zespół Amazona udoskonala Alexę - wirtualnego asystenta głosowego.
Kiedy odezwie się ona po polsku? - Chcielibyśmy, aby Alexa była dostępna dla naszych klientów wszędzie, na razie jednak nie mogę mówić o konkretnych planach w tym zakresie - mówi Rafał Kukliński.
Na Europejskim Kongresie Gospodarczym opowie on o umiejętnościach Alexy i o możliwościach współpracy w jej tworzeniu i implementowaniu do własnych produktów.
Centrum Rozwoju Technologii w Gdańsku pracuje nad zrewolucjonizowaniem takich rozwiązań jak Text-to Speech czy Natural Language Understanding. Tak informuje krótka notatka na stronie internetowej opisującej placówki Amazona w Polsce. Na czym to zrewolucjonizowanie ma polegać?
- Dodam na wstępie, że w Gdańsku oprócz dwóch zespołów, które zajmują się Text-to Speech czy Natural Language Understanding, działa jeszcze trzeci, którego zadaniem jest „przesunięcie” Alexy (wirtualny asystent głosowy Amazona) bliżej urządzeń końcowych. W Gdańsku pracują także zespoły AWS - czyli Amazon Web Services - zajmujące się migracją danych. Powiększa się też zespół Ring, który trudni się budowaniem rozwiązań czyniących sąsiedztwo bezpieczniejszym (system kamer i dzwonków do drzwi zarządzanych przez aplikację). Każdy z tych zespołów ma swojego lidera. Mojemu sercu najbliższa jest Alexa.
Wracając do Pana pytania, rewolucyjna jest sama idea Alexy jako serwisu głosowego, który komunikuje się w sposób najbardziej naturalny dla człowieka, rozumie kontekst, jest dostępny wszędzie, i w ten sposób ułatwia życie użytkownikom. Alexa to taki towarzysz na każdy dzień.
O ile idea komunikacji głosowej z maszyną znana była od lat, to łatwość, którą wprowadziła Alexa, rozumienie głosu i języka z odległości, możliwość wydawania poleceń i jednoczesnego przemieszczania się, to rewolucja, która dzieje się na naszych oczach.
Alexa towarzyszy wielu ludziom w codziennych czynnościach (fot. Shutterstock)
A to dopiero początek. Cały czas pracujemy i przez najbliższe lata będziemy pracować nad innowacjami w obszarze sztucznej inteligencji i uczenia maszynowego.
Po pierwsze po to, żeby interakcja użytkownika z Alexą była jak najbardziej naturalna: żeby Alexa potrafiła interpretować np. zawahania w głosie, co się przekłada i na rozumienie języka i generację mowy. W zależności od kontekstu rozmowy jej głos będzie brzmiał inaczej.
Numer dwa na liście naszych zadań to nabycie przez Alexę inteligencji emocjonalnej. Łączy się to z rozumieniem kontekstu rozmowy i jego poszerzeniem, np. w zależności od miejsca, w którym znajduje się użytkownik. Gdy poprosi on o wiadomości ze świata, Alexa poda mu te, które są najważniejsze z punktu widzenia jego lokalizacji.
Po trzecie, naturalność komunikacji oznacza, że Alexa - dużo na tym pracujemy - powinna dać sobie radę z interakcjami wielozadaniowymi (multitask interactions). W normalnej rozmowie jesteśmy przyzwyczajeni, że chcąc lepiej zrozumieć, o co chodzi naszemu rozmówcy, zadajemy pytania uściślające kontekst.
W Polsce zajmujemy się przede wszystkim obszarem syntezy mowy. Chodzi nam o to, aby na podstawie kontekstu wynikającego z poprzednich interakcji, informacji podanych przez użytkownika w ustawieniach lub z tonu i emocji pytania, tak zmodyfikować odpowiedź, aby intonacja, emocjonalność głosu Alexy odpowiadała temu, co chcemy przekazać. Odwołując się do przykładu newsów, pracujemy nad tym, żeby mogły być one czytane różnym tonem w zależności od tego przekazywanej wiadomości (czy jest poważna, żartobliwa, sarkastyczna etc.).
Wbudowanie umiejętności rozumienia kontekstu to bardzo ważny punkt w pracy nad komunikacją głosową człowieka i maszyny. W praktyce systemy, mimo że uczą się cały czas, nie mają świadomości znaczeniowości. Pracujemy więc nad funkcjonalnościami, które budują wiedzę o tym, co jest ważne w danym zdaniu. Korzystamy tu z pomocy mechanizmów odwołujących się do uprzednio wypowiedzianych przez użytkownika słów. Dzięki temu wiemy, co może być ważne, o co pyta użytkownik co przekłada się na przykład na to gdzie Alexa ma położyć akcent.
Jeśli chodzi o aplikację emocjonalności, zastanawiamy się, co to właściwie znaczy, że głos jest smutny lub radosny, jakie są tego poziomy, czy katalog form emocjonalności jest zamknięty, jak odróżnić sarkazm od wesołości itd.
Wyznaczono wam harmonogram, kiedy poszczególne funkcjonalności mają być gotowe? Amazon to nie placówka naukowa, a spółka giełdowa.
- Amazon to przede wszystkim firma, która myśli długoterminowo. Zdajemy sobie sprawę, że badania i duże pomysły wymagają czasu. Mamy dość sporo swobody w ustalaniu dlugoterminowej wizji dla rozwoju syntezy mowy. Przestawiamy tą wizję i konsultujemy z innymi zespołami. Rozbijamy ją na mniejsze części i nad nimi pracujemy. Nie ma więc określonego punktu w czasie, kiedy powinniśmy nauczyć Alexę rozumienia kontekstu, czy zaaplikować do jej mowy emocje. Natomiast wędrujemy w tamtym kierunku i z każdym miesiącem zbliżamy sie do tej wizji.
Wyznaczamy sobie cele w cyklu rocznym. W tym roku pracujemy nad aplikowaniem emocji do komunikatów dotyczących wyników sportowych, emocji sprofilowanych pod kątem użytkownika. W przyszłym roku będziemy pracować nad adaptowaniem sposobu formułowania informacji do ich treści. Naszym celem jest usprawnienie komunikowania się człowieka z Alexą i zwiększenie jego satysfakcji z każdą nową funkcjonalnością.
Czyli jeśli jestem kibicem Lechii Gdańsk lub Arki Gdynia i te drużyny przegrają mecze, Alexa powie mi o tym smutnym głosem. Dobrze rozumiem?
- Tak, dokładnie tak będzie.
Czy to wszystko, o czym mówimy, byłoby możliwe bez sztucznej inteligencji?
- Sztuczna inteligencja to pewien koncept psychologiczno-społeczny, natomiast my w praktyce używamy mechanizmów uczenia maszynowego, czyli uczenia się z dużej liczby danych. Bez uczenia maszynowego tworzenie narzędzi komunikacji głosowej ludzi i maszyn byłoby o wiele trudniejsze. Nie niemożliwe, bo chodzi w końcu pewien zestaw reguł wnioskowania, które prowadzą do określonej odpowiedzi przez poszczególne punkty decyzyjne, ale dużo trudniejsze.
Natomiast stworzenie funkcjonalności, o których rozmawiamy, tj. rozpoznawania kontekstu i aplikowania emocji, byłoby niemożliwe bez uczenia maszynowego, bez całego deep learning, które jest tak skomplikowane, że nie jesteśmy w stanie rozgryźć, dlaczego tworzą się takie, a nie inne sieci neuronowe.
Zastosowanie uczenia maszynowego do wszystkich elementow syntezy mowy to gigantyczny przełom, który przeszliśmy trzy, cztery lata temu. Dziś na każdym z etapów tworzenia syntezy mowy mają zastosowanie sieci neuronowe.
Czy są języki, z którymi sztuczna inteligencja radzi sobie lepiej niż z innymi?
- Każdy język ma swoją własną specyfikę i własne bardzo unikatowe właściwości, ale to nie jest tak, że uczenie maszynowe sprawdza się lepiej np. w przypadku języka angielskiego, a gorzej radzi sobie z japońskim. Natomiast trzeba zastosować trochę inne modelowanie bo i problemy do rozwiązania są inne. W języku japońskim pisanym zmieszane są cztery alfabety. Występuje homografia, czyli wymawianie jednego słowa (znaku) na różne sposoby. Jest też wiele innych dodatkowych komplikacji co sprawia że także ludziom nauka pisania i czytania w Japonii zajmuje znacznie dłużej niż na przykład angielskiego. I w tym pomaga nam „sztuczna inteligencja”. Bez uczenia maszynowego nie moglibyśmy stworzyć głosów japońskich na poziomie, na którym są dostępne dzisiaj.
Pracujecie nad wieloma językami…
- Tak, zespół, który znajduje się w Polsce, pracuje nad wszystkimi językami, którymi operuje dziś Alexa, czyli w języku angielskim (USA) oraz angielskim w wersji brytyjskiej, kanadyjskiej, australijskiej, lub indyjskim, językiem niemieckim, japońskim, francuskim (wersja kanadyjska i francuska), włoskim, hiszpańskim (Hiszpania, USA i Meksyk), Hindi i brazylijskim-portugalskim.
Kiedy Alexa odezwie się po polsku?
- Internacjonalizacja wszystkich naszych produktów i usług jest niezwykle istotna - dotyczy to także Alexy. Chcielibyśmy, aby Alexa była dostępna dla naszych klientów wszędzie, na razie jednak nie mogę mówić o konkretnych planach w tym zakresie. Na dziś Alexa jest dostępna dla klientów w Polsce w języku angielskim.
Dwa lata temu media obiegała informacja, że Alexa namawiała użytkowniczkę do samobójstwa, gdy ta poprosiła o informację o pracy serca. Rzecznik firmy wyjaśnił, że Alexa bezrefleksyjnie odczytała tekst z Wikipedii, nie zauważając swojego błędu. Czy takie problemy mamy już za sobą?
- Usprawnienia postępują. Powstają filtry, które mają chronić przed serwowaniem nieprawdziwych lub nieodpowiednich treści. Natomiast kiedy mówimy o Alexie, o jej wsparciu przez sztuczną inteligencję, musimy pamiętać, że to wciąż wczesne dni tego pomysłu. To dlatego rzadko, ale może się jednak zdarzyć podanie informacji, która nie powinna być podana. W takim przypadku uruchamiane są mechanizmy szybkiej reakcji, które przygotował Amazon.
Dotyczy to zresztą wszystkich systemów, które się posługują nowymi technologiami, sztuczną inteligencją czy uczniem maszynowym. Wszystkie są na wczesnym etapie rozwoju. Dlatego, w celu przesuwania granic umiejętności sztucznej inteligencji w domenie komunikacji, weszliśmy we współpracę z uczelniami i organizacjami branżowymi. Rozumienie i synteza mowy są bardzo wdzięcznym jej tematem. Amazon ogłosił m.in. konkurs Alexa Prize dla jednostek naukowych na świecie, na stworzenie systemu, który jest w stanie przez 20 minut konwersować z człowiekiem w sposób naturalny.
Ewolucja wyryła w naszych głowach, że mówienie łączy się ze świadomością. W przypadku maszyn tak nie jest. Czy ludzi trzeba informować, ostrzegać, że rozmawiają z automatem. W robotyce stawia się poważną tezę, że roboty humanoidalne nie mogą być zanadto podobne do ludzi.
- Staramy się przesuwać granicę technologii w stronę naturalności, ale oczywiście najważniejsze jest, aby sobie uświadomić, czego klient chce od produktu. To się może skończyć odpowiedzią, że czasami nie trzeba tworzyć systemu komunikującego się w supernaturalny sposób, żeby spełnić jego oczekiwania.
To, czy potrzebne jest sygnalizowanie, że rozmówcą człowieka jest maszyna, to temat na debatę, która zapewne się jeszcze odbędzie. Nie mam w tej sprawie mocno wyrobionej opinii. Analizując problem, lubię wciągnąć w jego rozwiązanie różne środowiska, które mogą się na jego temat rzeczowo wypowiedzieć. Jako Amazon jesteśmy obecni na forach, na których spotykają się firmy, uniwersytety, organizacje pozarządowe. Koniec końców najbardziej zdrowe podejście zostanie wypracowane.
Mówił Pan, że niektórych rozwiązań szukacie we współpracy ze światem nauki. Ale czy biznes może liczyć na kooperację?
- Są na to dwa sposoby. Jako twórcy rozwiązań głosowych nasi klienci mogą tworzyć nowe funkcjonalności dla Alexy (z ang. skills), czyli, np. możliwości zamówienia z jej pomocą taksówki. Oprócz tego mogą Alexę - całą jako serwis Polly - umieścić na urządzeniach różnych firm. Niektórzy wbudowują ją we własne głośniki. Kilku producentów umieściło ją w wytwarzanych przez siebie samochodach.
Pytam o to, bo Europejski Kongres Gospodarczy w Katowicach, którego będzie Pan gościem, to miejsce rozmów o biznesie, o nowych możliwościach, które się przed nim pojawiają. Aż korci mnie pytanie, czy w Amazonie pracujecie nad standardem, który zdominuje w przyszłości komunikację głosową ludzi i maszyn, czy tylko na rozwojem jednego z wielu produktów na rynku?
- Czy tworzymy standard, na razie trudno powiedzieć. Z całą pewnością będziemy na Kongresie opowiadać o umiejętnościach Alexy i o możliwościach współpracy w jej tworzeniu i implementowaniu do własnych produktów.
Czeka nas więc ciekawa rozmowa na EEC o sztucznej inteligencji i systemie komunikowania się z maszynami, który, jak wynika z Pana słów, staje się coraz bardziej naturalny.
- Będzie też coraz łatwiej dostępny, świadomy tego, co nas otacza, a więc, coraz bardziej pomocny człowiekowi.
RozmawiałAdrian Ołdak
*** Rafał Kukliński będzie weźmie udział debacie pt. "Sztuczna inteligencja". To sesja rekomendowana dla European Tech and Start-up Days. Odbędzie się 21 września 2021 r. w godz. 11.30-13.00. Dowiedz się więcej