Interfejsy głosowe – czy i jak maszyny rozumieją, co mówimy?
Metody rozpoznawania i syntezy mowy były rozwijane od lat 60., ale dopiero niedawno umożliwiły prowadzenie naturalnej konwersacji z maszyną.
Dzisiaj możemy porozmawiać z inteligentnymi głośnikami (np. Amazon Alexa) lub asystentami głosowymi w naszych smartfonach (np. Apple Siri, Microsoft Cortana, Samsung Bixby). Systemy te rozumieją zarówno proste polecenia, jak i dość złożone zapytania. Można za ich pomocą zamówić pizzę, zrobić zakupy, posłuchać muzyki, a także sterować inteligentnym domem.
Na spotkaniu postaram się przybliżyć metody i algorytmy, które służą do rozpoznawania mowy oraz rozumienia języka naturalnego. Większość tego przetwarzania bazuje na metodach uczenia maszynowego, które popularnie nazywamy AI (Artifial Intelligence) – tj. sztuczną inteligencją. Obecnie to głębokie sieci neuronowe zastępują wiele algorytmów, które w przeszłości wymagały tworzenia zbiorów reguł na podstawie wiedzy ludzkiego eksperta.
Poruszymy także zagadnienia bezpieczeństwa i prywatności przetwarzania danych głosowych w chmurze internetowej. Opowiemy także o nietypowych zastosowaniach inteligentnych głośników (m.in. w opiece nad osobami starszymi).
Myślę, że pozwoli to nam dostrzec, jak skomplikowanym tworem jest mowa i język, a z drugiej strony jak zaawansowane są systemy, które go rozumieją.