




























































































Studiuj dzięki licznym zasobom udostępnionym na Docsity
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Przygotuj się do egzaminów
Studiuj dzięki licznym zasobom udostępnionym na Docsity
Otrzymaj punkty, aby pobrać
Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium
Społeczność
Odkryj najlepsze uniwersytety w twoim kraju, według użytkowników Docsity
Bezpłatne poradniki
Pobierz bezpłatnie nasze przewodniki na temat technik studiowania, metod panowania nad stresem, wskazówki do przygotowania do prac magisterskich opracowane przez wykładowców Docsity
możliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i języka ... frazy, wyrażają konkretne emocje i postawy (przykładem emblematu jest.
Typologia: Schematy
1 / 206
Ta strona nie jest widoczna w podglądzie
Nie przegap ważnych części!
Głównym sposobem interakcji człowieka z komputerem jest — i zapewne długo jeszcze pozostanie — interfejs graficzny, oparty na technice okien, manipulacji myszką i wprowadzania danych z pomocą klawiatury. Możliwości wprowadzania danych, rozszerzane są poprzez szereg urządzeń, bardziej specjalizowanych dla określonych zastosowań. W przypadku rozrywki (gry) klasycznym przykładem są różnego rodzaju manipulatory (joystick, trackball) bądź też gamepady do gier. W zastosowaniach bardziej profesjonalnych (np. aplikacje typu CAD) wykorzy- stywane są również ekrany dotykowe, tablety czy też manipulatory w postaci „rękawicy” pozwalającej na pracę z interfejsem trójwymiarowym (3D). Obecnie obserwuje się zmianę podejścia w konstruowaniu interfejsów kompu- terowych w kierunku wykorzystania wielu równoległych sposobów komunikacji między użytkownikiem a maszyną. Podejście to często określane jest w literatu- rze jako interfejsy multimodalne (ang. multimodal interfaces) [63]. Przykładem takiego sposobu interakcji jest system „Put That There” opracowany na uniwer- sytecie MIT [11]. Interfejs ten bazował na rozpoznawaniu gestów wskazywania (urządzenie elektroniczne zapewniające sygnał o pozycji i orientacji) oraz mowy, jak również zapewniał generację mowy i wizualizację na dużym ekranie ścien- nym. Dzięki połączeniu dwóch metod komunikacji skuteczność i wygoda inte- rakcji została zwiększona. Innym przykładem, ukierunkowanym na zapewnienie możliwości pracy z komputerem osobom niewidomym, jest aplikacja „Meditor: Multimode Text Editor” wykorzystująca zarówno standardową klawiaturę jak i specjalny terminal Braille’a [5]. Dodatkowo Meditor używa technologii synte- zy (TTS ang. text to speech) oraz rozpoznawania mowy (ASR ang. automated speech recognition). W katedrze Automatyki AGH prowadzono pionierskie prace, których celem
ROZDZIAŁ 1. WSTĘP
było zapewnienie komunikacji głosowej z pomocą sygnału mowy [81]. Prowadzone są również badania mające na celu wykorzystanie do sterowania czujników po- tencjałów bioelektrycznych, na przykład elektronystagmografii, elektromiografii lub elektroencefalografii [12]. W tym kontekście wymienić również należy pra- ce, których celem jest opracowanie systemu adaptacyjnego dla potrzeb zdalnego nadzoru kardiologicznego pacjentów [1]. Na świecie istnieją także projekty badawcze poświęcone wykorzystaniu infor- macji wizyjnej (obraz) do sterowania. Przeznaczony dla osób niepełnosprawnych ruchowo, interfejs oparty o metody wyszukiwania wzorców na obrazie, może być również wykorzystany przez osoby w pełni sprawne [6]. W katedrze Automatyki AGH prowadzone są badania mające na celu określenie reguł postrzegania na- turalnego przez człowieka w celu ich wykorzystania w inteligentnych systemach wizyjnych [2][61]. Obserwując komunikację człowieka z innymi ludźmi łatwo można stwierdzić, że bardzo ważna jest tu komunikacja niewerbalna, której istotnym elementem jest mimika twarzy. Ten kanał łączności między człowiekiem a komputerem i in- nymi systemami technicznymi (na przykład robotem medycznym albo wózkiem inwalidzkim) odgrywa szczególną rolę w przypadku niektórych osób dotkniętych szczególnie głęboką niepełnosprawnością. W przypadku gdy kalectwo albo choro- ba odbiorą człowiekowi zręczność rąk konieczną do operowania myszką czy kla- wiaturą, gdy te same przyczyny utrudnią artykułowanie wyrazistych, nadających się do automatycznej interpretacji wypowiedzi słownych — mimika pozostaje jed- nym z ostatnich kanałów łączności chorego ze światem, w tym także ze światem systemów technicznych. Przykładem niepełnosprawności, która praktycznie eli- minuje użycie tradycyjnych metod komunikacji człowieka z komputerem (myszka, klawiatura), są osoby z porażeniem czterokończynowym. W tym przypadku pod- stawowym problemem są ograniczenia sprawności ruchowej takich osób. Jedyną możliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i języka oraz minimalne ruchy głowy. Dodatkowym utrudnieniem jest niewyraźna mowa, wynikająca ze stosowanych w wielu przypadkach elektronicznych stymulatorów oddechu.
W sytuacjach ograniczenia sprawności ruchowej alternatywę w sposobie sterowa- nia komputerem, mogą stanowić metody i algorytmy rozpoznawania oraz analizy obrazów. Podstawową zaletą tego typu interfejsów sterujących jest możliwość dostosowania interfejsu do człowieka oraz sytuacji a nie odwrotnie. Trend ta- ki można zaobserwować w aktualnie prowadzonych badaniach — zmiana podej- ścia w konstruowaniu interfejsów komputerowych z architektur skoncentrowanych na maszynie (ang. machine-centered architecture) do architektur skupionych na
ROZDZIAŁ 1. WSTĘP
Elementy mimiki automatycznie wyodrębnione z cyfrowego obrazu twarzy są przydatne w komunikacji człowiek-maszyna i mogą być wykorzystane do sterowania.
Aby wykazać słuszność powyższej tezy sformułowano następujące główne cele rozprawy :
Realizacja celu sformułowanego w punkcie -4- wymagała określenia następu- jących celów składowych: a) Zaproponowanie struktury i elementów składowych systemu automatycznego rozpoznawania gestów mimicznych.
b) Opracowanie metod wyodrębniania z obrazu twarzy cech charakterystycznych, odpowiadających atrybutom rozpoznawanych elementów mimiki.
c) Opracowanie metod rozpoznawania gestów mimicznych wykorzystujących wy- odrębnione cechy. Badanie skuteczności algorytmów dla typowych sytuacji występujących podczas interakcji człowieka z maszyną.
d) Usystematyzowanie czynników wpływających na skuteczność rozpoznawania oraz opracowanie metody adaptacji systemu do człowieka oraz zmieniających sie warunków otoczenia.
Struktura rozprawy jest następująca:
W poszczególnych rozdziałach zagadnieniami wiodącymi są: