Docsity
Docsity

Przygotuj się do egzaminów
Przygotuj się do egzaminów

Studiuj dzięki licznym zasobom udostępnionym na Docsity


Otrzymaj punkty, aby pobrać
Otrzymaj punkty, aby pobrać

Zdobywaj punkty, pomagając innym studentom lub wykup je w ramach planu Premium


Informacje i wskazówki
Informacje i wskazówki

Automatyczne rozpoznawanie elementów mimiki w obrazie ..., Schematy z Systematyka

możliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i języka ... frazy, wyrażają konkretne emocje i postawy (przykładem emblematu jest.

Typologia: Schematy

2022/2023

Załadowany 24.02.2023

Henryka
Henryka 🇵🇱

4.5

(155)

405 dokumenty

1 / 206

Toggle sidebar

Ta strona nie jest widoczna w podglądzie

Nie przegap ważnych części!

bg1
Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie
Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Rozprawa doktorska
Automatyczne rozpoznawanie
elementów mimiki w obrazie
twarzy i analiza ich przydatności
do sterowania
Jaromir Przybyło
Promotor: dr hab. inż. Piotr Augustyniak
Kraków, 2008
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Podgląd częściowego tekstu

Pobierz Automatyczne rozpoznawanie elementów mimiki w obrazie ... i więcej Schematy w PDF z Systematyka tylko na Docsity!

Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie

Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Rozprawa doktorska

Automatyczne rozpoznawanie

elementów mimiki w obrazie

twarzy i analiza ich przydatności

do sterowania

Jaromir Przybyło

Promotor: dr hab. inż. Piotr Augustyniak

Kraków, 2008

Spis treści

  • I O rozprawie Spis treści i
  • 1 Wstęp
    • 1.1 Kontekst pracy, uzasadnienie podjęcia tematu
    • 1.2 Zakres, teza oraz cele rozprawy
    • 1.3 Streszczenie rozprawy
  • II Elementy mimiki
  • 2 Sposoby pomiaru oraz opisu ekspresji mimicznych twarzy
    • 2.1 Mimika twarzy
    • 2.2 Facial Action Coding System
    • 2.3 MPEG-4 FAP
  • 3 Określenie i wybór rozpoznawanych elementów mimiki
    • 3.1 Systematyka typowych zadań wykonywanych przez użytkowników
    • 3.2 Własności i systematyka urządzeń wejściowych
    • 3.3 Analiza możliwości jakie oferuje mimika
    • 3.4 Wybór elementów mimiki potencjalnie przydatnych do sterowania
  • 4 Atrybuty elementów mimiki
    • 4.1 Wstęp
    • 4.2 Atrybuty stałe — kształt
    • 4.3 Atrybuty zmienne — lokalne zmiany wyglądu
    • 4.4 Atrybuty dynamiczne — ruch i jego trajektoria
  • III Automatyczne rozpoznawanie elementów mimiki SPIS TREŚCI
  • 5 Elementy systemu automatycznego rozpoznawania mimiki
    • 5.1 Wstęp
    • 5.2 Selektywne przetwarzanie informacji, segmentacja
      • 5.2.1 Segmentacja na podstawie barwy skóry
      • 5.2.2 Dobór przestrzeni kolorów oraz metody segmentacji
    • 5.3 Detekcja i lokalizacja twarzy
      • 5.3.1 Algorytm detekcji i lokalizacji twarzy
      • 5.3.2 Rezultaty detekcji i lokalizacji twarzy
  • 6 Wyodrębnianie z obrazu twarzy elementów mimiki
    • 6.1 Wstęp
    • 6.2 Statystyczne modele kształtu
    • 6.3 Histogramy orientacji
    • 6.4 Detekcja ruchu
  • 7 Rozpoznawanie wybranych elementów mimiki
    • 7.1 Wstęp
    • 7.2 Opis wybranych metod klasyfikacji
    • 7.3 Rozpoznawanie elementów mimiki — rezultaty i wnioski
      • 7.3.1 Statystyczne modele kształtu
      • 7.3.2 Histogramy orientacji
  • 8 Adaptacja systemu rozpoznawania mimiki
    • 8.1 Wstęp
    • 8.2 Estymacja położenia głowy człowieka względem kamery
      • 8.2.1 Algorytm estymacji położenia głowy
      • 8.2.2 Rezultaty estymacji położenia głowy
    • 8.3 Wpływ parametrów kamery oraz zmian oświetlenia sceny
      • 8.3.1 Automatyzacja tworzenia modelu barwy skóry
    • 8.4 Metoda kalibracji systemu
      • 8.4.1 Detekcja mrugnięć
      • 8.4.2 Lokalizacja nozdrzy
  • 9 Podsumowanie
    • 9.1 Główne rezultaty i wnioski
    • 9.2 Kierunki dalszych badań
  • Bibliografia
  • A Opis metod i algorytmów
    • A.1 Przestrzenie barw
    • A.2 Metody segmentacji twarzy
    • A.3 Estymacja i usuwanie szumów z sekwencji video
    • A.4 Metoda PCA
    • A.5 Metoda przestrzeni skali (ang. scale-space)
    • A.6 Filtry Gabora
    • A.7 Wyznaczanie mapy prawdopodobieństwa oczu oraz ust
  • B Opis jednostek czynnościowych mimiki
  • C Rezultaty rozpoznawania elementów mimiki — wykresy i tabele
    • C.1 Informacje ogólne
    • C.2 Histogramy orientacji — konfiguracja nr
    • C.3 Histogramy orientacji — konfiguracja nr
    • C.4 Histogramy orientacji — konfiguracja nr
    • C.5 Histogramy orientacji — konfiguracja nr
    • C.6 Histogramy orientacji — badanie wpływu oświetlenia
    • C.7 Histogramy orientacji — badanie wpływu skali
    • C.8 Histogramy orientacji — badanie wpływu skali i rotacji
    • C.9 Statystyczne modele kształtu — test
    • C.10 Statystyczne modele kształtu — test
    • C.11 Statystyczne modele kształtu — test
    • C.12 Statystyczne modele kształtu — test
  • D Rezultaty segmentacji twarzy
  • E Rezultaty detekcji i lokalizacji twarzy
  • F Rezultaty estymacji położenia głowy — wykresy i tabele
    • F.1 Informacje ogólne
    • F.2 Sekwencja nr 1 — rezultaty
    • F.3 Sekwencja nr 2 — rezultaty
    • F.4 Sekwencja nr 3 — rezultaty
  • G Rezultaty detekcji mrugnięć
    • G.1 Informacje ogólne
    • G.2 Skuteczność detekcji
    • G.3 Średni błąd lokalizacji oczu
  • H Rezultaty innych algorytmów
    • H.1 Lokalizacja nozdrzy

Część I

O rozprawie

Rozdział 1

Wstęp

1.1 Kontekst pracy, uzasadnienie podjęcia tematu

Głównym sposobem interakcji człowieka z komputerem jest — i zapewne długo jeszcze pozostanie — interfejs graficzny, oparty na technice okien, manipulacji myszką i wprowadzania danych z pomocą klawiatury. Możliwości wprowadzania danych, rozszerzane są poprzez szereg urządzeń, bardziej specjalizowanych dla określonych zastosowań. W przypadku rozrywki (gry) klasycznym przykładem są różnego rodzaju manipulatory (joystick, trackball) bądź też gamepady do gier. W zastosowaniach bardziej profesjonalnych (np. aplikacje typu CAD) wykorzy- stywane są również ekrany dotykowe, tablety czy też manipulatory w postaci „rękawicy” pozwalającej na pracę z interfejsem trójwymiarowym (3D). Obecnie obserwuje się zmianę podejścia w konstruowaniu interfejsów kompu- terowych w kierunku wykorzystania wielu równoległych sposobów komunikacji między użytkownikiem a maszyną. Podejście to często określane jest w literatu- rze jako interfejsy multimodalne (ang. multimodal interfaces) [63]. Przykładem takiego sposobu interakcji jest system „Put That There” opracowany na uniwer- sytecie MIT [11]. Interfejs ten bazował na rozpoznawaniu gestów wskazywania (urządzenie elektroniczne zapewniające sygnał o pozycji i orientacji) oraz mowy, jak również zapewniał generację mowy i wizualizację na dużym ekranie ścien- nym. Dzięki połączeniu dwóch metod komunikacji skuteczność i wygoda inte- rakcji została zwiększona. Innym przykładem, ukierunkowanym na zapewnienie możliwości pracy z komputerem osobom niewidomym, jest aplikacja „Meditor: Multimode Text Editor” wykorzystująca zarówno standardową klawiaturę jak i specjalny terminal Braille’a [5]. Dodatkowo Meditor używa technologii synte- zy (TTS ang. text to speech) oraz rozpoznawania mowy (ASR ang. automated speech recognition). W katedrze Automatyki AGH prowadzono pionierskie prace, których celem

ROZDZIAŁ 1. WSTĘP

było zapewnienie komunikacji głosowej z pomocą sygnału mowy [81]. Prowadzone są również badania mające na celu wykorzystanie do sterowania czujników po- tencjałów bioelektrycznych, na przykład elektronystagmografii, elektromiografii lub elektroencefalografii [12]. W tym kontekście wymienić również należy pra- ce, których celem jest opracowanie systemu adaptacyjnego dla potrzeb zdalnego nadzoru kardiologicznego pacjentów [1]. Na świecie istnieją także projekty badawcze poświęcone wykorzystaniu infor- macji wizyjnej (obraz) do sterowania. Przeznaczony dla osób niepełnosprawnych ruchowo, interfejs oparty o metody wyszukiwania wzorców na obrazie, może być również wykorzystany przez osoby w pełni sprawne [6]. W katedrze Automatyki AGH prowadzone są badania mające na celu określenie reguł postrzegania na- turalnego przez człowieka w celu ich wykorzystania w inteligentnych systemach wizyjnych [2][61]. Obserwując komunikację człowieka z innymi ludźmi łatwo można stwierdzić, że bardzo ważna jest tu komunikacja niewerbalna, której istotnym elementem jest mimika twarzy. Ten kanał łączności między człowiekiem a komputerem i in- nymi systemami technicznymi (na przykład robotem medycznym albo wózkiem inwalidzkim) odgrywa szczególną rolę w przypadku niektórych osób dotkniętych szczególnie głęboką niepełnosprawnością. W przypadku gdy kalectwo albo choro- ba odbiorą człowiekowi zręczność rąk konieczną do operowania myszką czy kla- wiaturą, gdy te same przyczyny utrudnią artykułowanie wyrazistych, nadających się do automatycznej interpretacji wypowiedzi słownych — mimika pozostaje jed- nym z ostatnich kanałów łączności chorego ze światem, w tym także ze światem systemów technicznych. Przykładem niepełnosprawności, która praktycznie eli- minuje użycie tradycyjnych metod komunikacji człowieka z komputerem (myszka, klawiatura), są osoby z porażeniem czterokończynowym. W tym przypadku pod- stawowym problemem są ograniczenia sprawności ruchowej takich osób. Jedyną możliwością ruchu jest mimika twarzy, prawidłowa ruchomość żuchwy i języka oraz minimalne ruchy głowy. Dodatkowym utrudnieniem jest niewyraźna mowa, wynikająca ze stosowanych w wielu przypadkach elektronicznych stymulatorów oddechu.

1.2 Zakres, teza oraz cele rozprawy

W sytuacjach ograniczenia sprawności ruchowej alternatywę w sposobie sterowa- nia komputerem, mogą stanowić metody i algorytmy rozpoznawania oraz analizy obrazów. Podstawową zaletą tego typu interfejsów sterujących jest możliwość dostosowania interfejsu do człowieka oraz sytuacji a nie odwrotnie. Trend ta- ki można zaobserwować w aktualnie prowadzonych badaniach — zmiana podej- ścia w konstruowaniu interfejsów komputerowych z architektur skoncentrowanych na maszynie (ang. machine-centered architecture) do architektur skupionych na

ROZDZIAŁ 1. WSTĘP

Elementy mimiki automatycznie wyodrębnione z cyfrowego obrazu twarzy są przydatne w komunikacji człowiek-maszyna i mogą być wykorzystane do sterowania.

Aby wykazać słuszność powyższej tezy sformułowano następujące główne cele rozprawy :

  1. Określenie sposobu pomiaru oraz precyzyjnego opisu elementów mimiki.
  2. Określenie możliwości jakie oferuje mimika w kontekście typowych scenariu- szy interakcji człowieka z maszyną i własności istniejących urządzeń. Wybór elementów mimiki przydatnych w komunikacji człowiek-maszyna.
  3. Zdefiniowanie atrybutów elementów mimiki oraz odpowiadających im cech charakterystycznych na obrazie, pozwalających na rozpoznanie gestów mi- micznych.
  4. Opracowanie metody automatycznego rozpoznawania wybranych elemen- tów mimiki.

Realizacja celu sformułowanego w punkcie -4- wymagała określenia następu- jących celów składowych: a) Zaproponowanie struktury i elementów składowych systemu automatycznego rozpoznawania gestów mimicznych.

b) Opracowanie metod wyodrębniania z obrazu twarzy cech charakterystycznych, odpowiadających atrybutom rozpoznawanych elementów mimiki.

c) Opracowanie metod rozpoznawania gestów mimicznych wykorzystujących wy- odrębnione cechy. Badanie skuteczności algorytmów dla typowych sytuacji występujących podczas interakcji człowieka z maszyną.

d) Usystematyzowanie czynników wpływających na skuteczność rozpoznawania oraz opracowanie metody adaptacji systemu do człowieka oraz zmieniających sie warunków otoczenia.

1.3 Streszczenie rozprawy

Struktura rozprawy jest następująca:

  • W części pierwszej (rozdziały 2 - 4) przedstawiono sposoby pomiaru oraz opisu ekspresji mimicznych twarzy, dokonano wyboru elementów mimiki oraz określono ich atrybuty i cechy.

1.3 Streszczenie rozprawy

  • Część druga (rozdziały 5 - 8) poświęcona została zagadnieniom automatycz- nego wyodrębniania z obrazu i rozpoznawania elementów mimiki. Przedsta- wiono również kwestie adaptacji systemu.
  • Zestawienie wyników pracy i najistotniejszych wniosków oraz krytyczną analizę zaproponowanych rozwiązań przedstawiono w podsumowaniu (roz- dział 9).
  • Rezultaty przeprowadzonych badań oraz opisy algorytmów zamieszczone zostały w dodatkach.

W poszczególnych rozdziałach zagadnieniami wiodącymi są:

  • Rozdział 2 — Sposoby pomiaru oraz opisu ekspresji mimicznych twarzy. Wykorzystanie elementów mimiki do sterowania, wymaga uwzględ- nienia szeregu zagadnień, wśród których szczególnie istotne są: psychofizjo- logiczne uwarunkowania człowieka oraz sposób reprezentacji i opisu mimi- ki. W rozdziale 2 przedstawione zostały zagadnienia związane z komunika- cją niewerbalną (istotne w kontekście wykorzystania mimiki do sterowania) oraz istniejące sposoby opisu ekspresji mimicznych twarzy. Spośród metod reprezentacji mimiki szczegółowo opisane zostały dwie z nich, wykorzystane w dalszej części pracy.
  • Rozdział 3 — Określenie i wybór rozpoznawanych elementów mi- miki. Skonstruowanie urządzenia wejściowego umożliwiającego sterowanie przy pomocy gestów mimicznych, wymaga uwzględnienia wymagań wynika- jących z typowych zadań jakie wykonuje użytkownik podczas pracy z kom- puterem. W rozdziale 3 przedstawiono usystematyzowanie typowych zadań wykonywanych przez człowieka podczas interakcji z interfejsem graficznym komputera. Poprzez analizę akcji użytkownika oraz porównanie własności typowych urządzeń wejściowych z możliwościami jakie oferuje mimika, do- konano wyboru elementów mimiki, które są potencjalnie przydatne w ko- munikacji człowiek-maszyna.
  • Rozdział 4 — Atrybuty elementów mimiki. Rozpoznawanie różnych elementów mimiki w oparciu o informacje wyodrębnione z obrazu, wymaga określenia atrybutów oraz cech charakterystycznych opisujących poszcze- gólne gesty mimiczne (np. kształt, zależności geometryczne, wygląd...). Te- mu zagadnieniu poświęcony jest rozdział 4. Dokonana analiza elementów mimiki pozwoliła na zdefiniowanie podstawowych atrybutów oraz odpowia- dających im cech, które mogą zostać następnie wyodrębnione z obrazu.
  • Rozdział 5 — Elementy systemu automatycznego rozpoznawania mimiki. Rozpoznawanie obiektów przez ludzi wydaje się łatwe i bezproble- mowe. Na podstawie ogólnej wiedzy o danym obiekcie, np. sylwetka ludzka

Część II

Elementy mimiki