Roboty humanoidalne i postępy w ich rozwoju

25 wrz 2024
Umiejętności zdobyte przez robota w symulowanym otoczeniu są przenoszone do świata rzeczywistego za pomocą Sim2Real (Zdjęcie: Unitree)

BADANIA LOGISTYCZNE
Dr Jay Huang, dr Dien Wang i dr Weibin Liang

Zdjęcie: Unitree

Roboty humanoidalne, czyli najdoskonalsza postać automatycznych urządzeń, wyglądem i zachowaniem przypominająca bowiem człowieka, przestały być wytworami ludzkiej wyobraźni obecnymi jedynie w filmach science fiction i stają się rzeczywistością. Prezentacja Optimusa cieszyła się dużym zainteresowaniem opinii publicznej i gigantów technologicznych, choć dziedzina ta wciąż znajduje się na etapie prototypowania.

Inspirowane ludzką anatomią, główne elementy humanoidów to „mózg”, „móżdżek” i „ciało”, w tym „oczy”, „uszy”, „skóra”, „mięśnie” oraz „kości”. „Mózg” służy do planowania zadań i ruchów, „móżdżek” pomaga utrzymać równowagę i płynnie się poruszać, „ciało” natomiast umożliwia postrzeganie otoczenia i wykonywanie czynności. Do głównych wyzwań stojących przed twórcami robotów humanoidalnych należy wyeliminowanie upadków i poprawa inteligencji, tak aby mogły one radzić sobie z coraz bardziej wymagającymi działaniami.

Nowe technologie, takie jak uczenie przez wzmacnianie, uczenie przez naśladowanie oraz duże modele językowe (LLM), stwarzają obiecujące perspektywy w doskonaleniu humanoidów. Dzięki „móżdżkowi” roboty te są w stanie utrzymywać równowagę, unikać przeszkód oraz wykonywać złożone ruchy w świecie wirtualnym, a następnie przenosić te zdolności do świata rzeczywistego. „Móżdżek” wzbogacony o sztuczną inteligencję wykazuje znaczące postępy w obszarach takich jak stabilność i adaptacyjność, które w przeszłości stanowiły ogromną trudność. Jeszcze ważniejszą rolę odgrywa „mózg”. Uczenie przez wzmacnianie i uczenie przez naśladowanie mogą świetnie się sprawdzić krótkoterminowo. Wykorzystanie dużych modeli językowych może przynieść atrakcyjne rezultaty, ale w praktyce ich wdrożenie pozostaje wyzwaniem. Zdalne sterowanie robota przez człowieka przydaje się w gromadzeniu danych szkoleniowych i może służyć w sytuacjach awaryjnych, jeżeli „mózg” robota nie zostanie dobrze przygotowany.

Zanim zastosowano sztuczną inteligencję w zakresie zapewnienia stabilności, dwunożne roboty łatwo się przewracały

Dużymi osiągnięciami w zakresie prac nad „ciałem” i „móżdżkiem” wyróżnia się Unitree. Chociaż początkowo firma ta koncentrowała się na robotach czworonożnych, opracowała humanoida o wyjątkowych zdolnościach poruszania się. Natomiast Google DeepMind poczynił znaczący progres w dziedzinie „mózgu”. Bada zastosowanie generatywnej sztucznej inteligencji oraz innych technik wykraczających poza tradycyjne duże modele, a prowadzone przezeń badania skupiają się na uproszczonych humanoidach.

Kluczowe aspekty „mózgu”, „móżdżku” i „ciała” wymagające ulepszeń są względnie od siebie niezależne i mogą być udoskonalane równolegle.

Humanoidy wciąż wymagają udoskonaleń w zakresie stabilnego poruszania się (Zdjęcie: Unitree)
Zdjęcie: Unitree

„Móżdżek”

Podobnie jak u człowieka „móżdżek” humanoida odgrywa istotną rolę w koordynowaniu pracy stawów w celu uzyskania równowagi oraz płynności ruchów.

Zapewnienie stabilności robotów podczas ich poruszania się to nie lada wyzwanie. Zanim zastosowano w tym obszarze sztuczną inteligencję, dwunożne roboty łatwo się przewracały, dlatego aby chronić najbardziej delikatne urządzenia, wykorzystywano liny zabezpieczające. Niektóre firmy wdrożyły stosunkowo zaawansowane metody sterowania, takie jak whole-body control (sterowanie całościowe) i model predictive control (sterowanie predykcyjne), których rezultaty są imponujące, jednak humanoidy nadal nie są w stanie skutecznie obronić się przed upadkiem w nieprzewidywalnych scenariuszach. Pozostaje jeszcze spore pole do optymalizacji „móżdżku” w zakresie poruszania się i wykonywania określonych zadań.

Na szczęście sztuczna inteligencja – a konkretnie uczenie przez wzmacnianie – i dostępne dziś zaawansowane techniki symulacji mogą dużo zmienić. Uczenie przez wzmacnianie to proces prób i błędów, w którym roboty uczą się zachowań poprzez wielokrotne interakcje z otoczeniem. Inżynierowie programują humanoidy za pomocą poleceń mówiących, co zrobić, ale nie wskazujących, jak to zrobić, aby same znalazły rozwiązanie.

Technologie w rodzaju rozpoznawania obrazów lub widzenia trójwymiarowego za pomocą skanerów LiDAR czy kamer z rozpoznawaniem głębi, zwinnych dłoni oraz czujników dotyku i nacisku mają kluczowe znaczenie dla opracowania zaawansowanych robotów humanoidalnych

Doskonalenie ruchów wymaga zastosowania symulacji, czyli wirtualnego środowiska, w którym roboty mogą doskonalić poruszanie się i wykonywanie zadań. Następnie umiejętności i wiedza zdobyte w symulowanym otoczeniu są przenoszone do świata rzeczywistego za pomocą infrastruktury o nazwie Sim2Real. Niepowodzenia są nieuniknione na wczesnych etapach, lecz ostatecznie roboty znajdują sposoby na pokonanie trudności.

Chociaż przyszłość jawi się obiecująco, środowiska symulowane i Sim2Real napotykają również pewne ograniczenia. Są to złożone platformy, które replikują zjawiska fizyczne, co oznacza, że muszą uwzględniać takie aspekty, jak dynamika bryły sztywnej, kolizje, tarcie oraz odkształcenia w celu stworzenia wirtualnego świata o jak najwyższym poziomie realizmu.

Firma Boston Dynamics zminimalizowała częstotliwość upadków swoich robotów czworonożnych do jednego na 50 km. W przypadku robotów dwunożnych liczba ta jest wyższa, a zatem pomimo dużych postępów humanoidy wciąż potrzebują większej stabilności, zanim będą mogły być szeroko stosowane w przemyśle.

Robot humanoidalny Tesla Optimus Gen-2 firmy Tesla (opublikowane na licencji CC BY 3.0 Unported)
Robot humanoidalny Tesla Optimus Gen-2 firmy Tesla
Opublikowane na licencji CC BY 3.0 Unported

„Mózg”

Naukowcy wciąż badają, jak sprawić, by inteligencja, jaką dysponują roboty, pozwalała im wykonywać różne typy zadań. Obecnie problem ten rozwiązują uczenie przez wzmacnianie i uczenie przez naśladowanie, a w dalszej perspektywie czasowej oczekuje się wdrożenia dużych modeli językowych i modeli typu end-to-end.

Uczenie przez wzmacnianie nie tylko sprawdza się w zakresie doskonalenia ruchu robotów, ale również jest przydatne w szkoleniu ich do wykonywania konkretnych zadań. Jednak aby nadać humanoidom autonomię pozwalającą na bardziej ogólny zakres czynności, metoda ta okazuje się zbyt czasochłonna. Z tego powodu bardziej praktycznym podejściem jest uczenie przez naśladowanie, które polega na tym, że człowiek pokazuje robotowi za pomocą systemów zdalnego sterowania, jak ma wykonać czynność.

Google DeepMind zaproponował zastosowanie wielu dużych modeli językowych do obsługi funkcji postrzegania, planowania i wykonywania. W tym celu wprowadził zintegrowany model widzenie – język – działanie (ang. vision-language-action, VLA) o nazwie Robotic Transformer 2 (RT-2), który obsługuje te trzy główne funkcje. RT-2 może realizować zadania wymagające rozumowania, rozumienia semantycznego oraz rozpoznawania właściwych człowiekowi. Przykładowo polecenie „włóż truskawkę do odpowiedniej miski” wymaga od robota poza wiedzą, czym są truskawka i miska, także umiejętności rozumowania w kontekście danej sytuacji, by wiedział, iż truskawkę należy umieścić w misce z podobnymi owocami.

„Ciało”

Poza podstawowymi komponentami, takimi jak silniki i reduktory, technologie w rodzaju rozpoznawania obrazów lub widzenia trójwymiarowego za pomocą skanerów LiDAR czy kamer z rozpoznawaniem głębi, zwinnych dłoni oraz czujników dotyku i nacisku mają kluczowe znaczenie dla opracowania zaawansowanych robotów humanoidalnych o szerokim zastosowaniu i wysokiej wydajności.

Nowe trendy i wyzwania związane z robotami humanoidalnymi

Główne elementy humanoidów Trendy technologiczne Wyzwania
„Mózg”
Planowanie zadań i ruchów
  • Teraźniejszość: uczenie przez wzmacnianie + uczenie przez naśladowanie
  • Przyszłość: duże modele językowe
  • Dalsza przyszłość: duże modele end-to-end
  • Brak danych szkoleniowych
  • Niezdolność do podjęcia określonych zadań
  • Niepotwierdzona niezawodność
„Móżdżek”
Koordynowanie pracy „stawów”
  • Model Predictive Control
  • Teraźniejszość: uczenie przez wzmacnianie + Sim2Real*
  • Jakość przeniesienia symulacji do świata rzeczywistego
  • Możliwość adaptacji do różnych środowisk
„Ciało”
Postrzeganie otoczenia i wykonywanie ruchów
  • Silniki o dużej gęstości mocy
  • Elastyczne ręce
  • Czujniki dotyku i nacisku
  • Obniżenie kosztów
  • Poprawa wydajności urządzenia (wysoka gęstość mocy, dynamika, niższa waga itp.)

 

Źródło: Chińska Akademia Nauk, Ośrodek Innowacji Robotów Humanoidalnych w Pekinie, Uniwersytet Tsinghua oraz Bernstein.
*Sim2Real, skrót od „z symulacji do rzeczywistości”, odnosi się do przenoszenia ruchów, umiejętności i wiedzy ze środowiska symulowanego do rzeczywistego.

Implikacje dla przemysłu

W dobie „renesansu robotów” sztuczna inteligencja już umożliwia wykonywanie zadań z zakresu lokalizacji, identyfikacji i kontroli, jednakże robotom przemysłowym wciąż brakuje inteligencji do bardziej zaawansowanych działań. Rozwijające się technologie, takie jak uczenie przez wzmacnianie i uczenie przez naśladowanie oraz duże modele językowe, mogą zrewolucjonizować ten obszar.

Naukowcy dowiedli, że możliwe jest wykorzystanie sztucznej inteligencji w robotyce w zakresie optymalizacji trajektorii ruchu, czasu wykonywania zadań oraz strategii radzenia sobie w złożonych scenariuszach, jak również w celu uproszczenia procesu programowania. Ekosystem robotów przemysłowych już istnieje, możemy się zatem spodziewać, że w niedalekiej przyszłości sztuczna inteligencja zwiększy dynamikę rozwoju i upowszechniania się tych urządzeń.

 


 

AUTORZY BADANIA:

Dr Jay Huang, dr Dien Wang i dr Weibin Liang, analitycy ze Sanford C. Bernstein (Hong Kong) Limited, należącej do Société Générale Groupe.

 


 

Publikacja w wersji oryginalnej:

Jay Huang, Dien Wang i Weibin Liang. “Global Automation: The Humanoid Primer”. Bernstein Société Générale Group, 2024.

Artykuł został opracowany wyłącznie z myślą o instytucjonalnych i profesjonalnych inwestorach. Publikacja nie została przeznaczona dla inwestorów detalicznych czy indywidualnych. Odwiedź stronę www.bernsteinresearch.com, aby być na bieżąco z ważnymi wydarzeniami ze świata technologii.