생성형 AI와 더불어 언론을 통해 자주 소개되는 것이 휴머노이드humanoid입니다. 휴머노이드는 사람을 뜻하는 ‘human’과 닮았다는 접두사 ‘oid’의 합성어입니다. 즉 휴머노이드는 인간과 유사한 모습을 갖춘 것이면 꼭 로봇이 아니어도 된다는 것을 의미합니다. 그래서 휴머노이드를 로봇의 의미로 사용할 때는 휴머노이드 로봇humanoid robot이라고 해야 적확한 표현입니다. 더 적확한 단어로 안드로이드android가 있으며 이것은 인간의 모습으로 인간처럼 행동하는 AI 로봇을 의미합니다. 이런 휴머노이드 로봇과 달리 특정 작업 현장에 최적화하여 사람을 도와 정해진 업무만 수행하는 로봇을 협동 로봇collaborative robot, cobot이라고 부릅니다. 이미 제조 생산 라인이나 물류 센터 등 작업 현장에서 많이 쓰이고 있습니다. 참고로 영화 <로보캅>(1987)의 주인공처럼 인간의 신체 일부가 로봇으로 대체된 것을 사이보그cyborg라고 부릅니다.
로봇의 기원
로봇은 청동 거인 탈로스, 대장장이의 신 헤파이스토스가 황금으로 만든 시녀 등 그리스 신화까지 거슬러 올라가지 않는다면, 1818년 메리 셸리가 지은 《프랑켄슈타인》이 그 효시라 할 수 있습니다. 또한 ‘로봇Robot’이란 용어는 체코슬로바키아의 극작가 카렐 차페크가 1920년에 쓴 희곡 《R. U. R.》Rossum’s Universal Robots의 약자에서 비롯했습니다.
한편, 로봇의 보편적 정의는 있을 수 없다는 주장도 있습니다. 미국 스탠퍼드 대학교 AI 연구소의 버나드 로스는 로봇의 능력이 진화하면 사회적인 맥락과 기술 수준에 따라 로봇의 개념도 계속 변한다고 주장합니다. 우리는 종종 SF 영화를 통해 인간보다 더 인간다운 휴머노이드 로봇을 마주하기도 하니, 먼 미래에는 휴머노이드 로봇 개념이 지금과는 사뭇 달라질 것입니다.
휴머노이드 로봇 개발 스타트업인 Figure AI는 2024년 3월 오픈AI의 LLM을 탑재한 Figure 01의 시연 영상을 공개했습니다. 사람과 자연스러운 대화를 나누며 다양한 사물을 구분할 수 있을 뿐 아니라 먹을 것을 달라고 하면 사과를 집어 건네고, 왜 사과를 줬는지 묻자 테이블에 있는 유일한 음식이기 때문이라고 답을 합니다. 이러한 능력은 인지력, 판단력, 언어 구사력을 두루 갖춘 휴머노이드 로봇에 한 발 더 다가갔음을 시사합니다.
그런데 Figure 01에 가려져 덜 알려진 로봇이 있습니다. 스탠퍼드 대학교의 연구진이 구글 딥마인드의 지원을 받아 2024년 1월 공개한 알로하ALOHA입니다. 이 로봇은 설거지, 요리, 화분 물주기, 청소, 커피머신 조작, 면도, 옷 개기, 지퍼 조작 등 다양한 작업을 할 수 있습니다. 이 로봇의 작동 원리는 인간의 행동을 따라 하는 모방 학습imitation learning입니다. 즉 인간이 로봇과 합체하여 원하는 작업을 약 50회 정도 반복하면 이후 분리된 로봇이 혼자 동일 작업을 수행할 수 있습니다. 이와 같은 방식으로 다른 작업을 학습하면 인간의 다양한 일을 대신할 수 있습니다. 알려진 바에 따르면 알로하 한 대의 제작 비용이 4천만 원 정도로 기존에 수억 원에 달하던 그 어떤 로봇보다 월등히 저렴합니다.
알로하 로봇의 작업 능력
연구진은 해당 기술을 오픈소스로 공개했습니다. 설계도와 모든 부품 사양을 무료로 배포했으니 누구나 동일하게 또는 더 발전한 수준으로 개발할 수도 있습니다. 이는 영화 <매트릭스>(1999), <업그레이드>(2018) 에서 인간이 컴퓨터가 학습한 지적, 육체 능력을 자신의 뇌에 다운로드해 금방 새로운 능력을 얻는 것과 달리, 거꾸로 로봇이 인간의 능력을 학습하여 따라 하는 것입니다.
생성형 AI에 가속기가 있다면 휴머노이드 로봇엔 감속기가 있다
휴머노이드 로봇의 생산 원가 중 가장 높은 비중을 차지하는 부품이 감속기입니다. 감속기는 로봇의 관절 부위 힘을 조절하는 부품으로써 로봇 손이 달걀을 깨뜨리지 않고 집을 수 있는 것도 이 때문입니다. 감속기는 로봇이 관절의 힘을 유지하면서 속도를 미세하게 줄일 수 있으므로 모터로 속도를 감소시키는 것보다 전력 소모량이 적고 모터의 내구성을 유지하는 데도 유리합니다. 아울러 전기차에 2차 전지가 중요하듯이 휴머노이드 로봇에도 배터리 기술이 부각될 것이며 스마트폰의 OS처럼 휴머노이드 로봇의 OS 선점도 중요해질 것입니다.
*AI가속기: 엔비디아의 GPU, 그리고 타 반도체 설계사들의 NPU를 통칭하는 보통 명사로이며, 미디어 매체에서 흔히 사용하는 GPU는 특정 기업의 상품명을 오용한 표현입니다.
눈에 보이지 않는 가상 공간에 머물던 생성형 AI가 로봇이라는 물리적 실체를 갖는 것은 어떤 의미일까요? 지금까지 생성형 AI는 2D 화면 속에 갇혀 인간이 지시한 결과물을 내놓는 활동이 대부분이었습니다. 그런데 앞으로 로봇이라는 몸을 얻어 실제 세상에서 현실의 문제를 마주하고 해결할 수 있게 될 것입니다.
생성형 AI가 현실 세계의 물리 작용을 이해하고 이를 바탕으로 로봇이나 자동차에 탑재되어 과제를 수행하는 것을 Embodied AI라고도 합니다. 특히 인간의 신체 구조와 닮은 휴머노이드 로봇은 이미 인간이 만들어놓은 환경에 잘 적응할 수 있습니다. 생성형 AI가 인간의 언어를 사용함으로써 인간의 지능을 따라오듯이 휴머노이드 로봇은 인간의 신체와 유사한 구조를 갖게 되면서 인간의 육체 능력을 따라오고 있는 것입니다.
앞으로 휴머노이드 로봇은 카메라 렌즈로 직접 바라본 일상과 유튜브 영상에 있는 다양한 활동을 학습하고 전이하여 거대 행동 모델large behavior model, large action model 을 구축하는데 도움을 줄 것입니다.
이것은 AI분야의 석학이자 메타의 수석 연구원인 얀 르쿤이 <Self-Supervised Learning from Images with a subJoint-Embedding Predictive Architecture>를 통해 발표한 것과도 궤를 같이 합니다. 그는 LLM은 실제 세계의 복잡성을 반영하는 데 한계가 있기 때문에 AGI로 발전하기 어렵다는 견해를 밝혔습니다. 예를 들어 이미지 기반의 생성형 AI가 사람을 묘사할 때 종종 손가락의 개수에 오류가 있거나 손 모양을 부자연스럽게 표현하는 것이 LLM의 한계를 잘 보여준다는 것입니다. 그래서 그는 인간의 세계를 직접 관찰하는 JEPAJoint Embedding Predictive Architecture 방식이 세계 모형world model을 잘 반영할 수 있으므로 AGI로 나아가는 데 유리하다고 주장합니다. 그래서 일까요? 메타는 여러 대학 및 연구 기관들과 함께 Ego 4D와 Ego-Exo4D라는 데이터 셋을 생성하는 프로젝트를 진행 중입니다. 이 프로젝트는 여러 나라에서 살고 있는 약 800 여명의 참여자들이 1인칭 시점과 3인칭 시점에서 일상 생활을 촬영하여 영상 데이터를 만들고 이를 AI모델에 적용하는 활동입니다.
과거 로봇 개발의 패러다임은 인간이 할 수 없는 일을 하는 데 초점을 맞추었습니다. 그래서 주로 위험한 환경에 투입하기 위해 사족 보행이나 바퀴 달린 형태를 갖추었습니다. 그렇다 보니 오히려 인간의 일상적인 일을 대신할 수 없었고 인간처럼 다양하고 보편적인 활동을 하지 못했습니다. 하지만 휴머노이드 로봇의 활동은 보편성을 갖습니다. 어떤 특정한 목적에 맞추어 설계된 것이 아니기 때문에 인간의 일상적인 행동을 따라 할 수 있습니다. 이는 경제성 측면에서 매우 유리합니다. 왜냐하면 휴머노이드 로봇의 경우 인간이 이미 만들어놓은 온갖 환경에서 그대로 작동할 수 있는 반면, 나머지 로봇은 목적별 다양한 형태를 띠고 있기 때문에 범용성이 낮아 생산 원가가 높기 때문입니다.
현재 아마존은 그들의 물류 센터에 투입할 목적으로 Agility Robotics와 협력하여 1만 대의 휴머노이드 로봇Digit을 대량 생산할 계획을 하고 있습니다. 왜 이렇게 많은 로봇이 필요할까요? 과거 아마존이 프로모션 기간 소비자의 온라인 주문 폭주에 대응하기 위해 서버를 대량으로 구매한 후 클라우드 사업 모델로 확장했던 성공 사례로 비추어볼 때, 향후 휴머노이드 로봇도 새로운 사업 모델로 확장할 가능성이 충분히 있습니다. 예를 들어 타사의 물류 센터에 해당 로봇을 대여하는 것이 가능합니다. 게다가 특정 영역에서 얻은 지식과 행동 데이터를 다른 영역으로 확산하는 전이 학습transfer learning 원리를 적용한다면 훨씬 다양한 용도의 작업에 투입하는 것이 가능합니다.
지금은 생성형 AI에게 지시한 결과물의 최종 행위는 결국 인간의 몫이었기 때문에 인간이 생성형 AI의 중간 명령을 따르고 있습니다. 그런데 앞으로는 인간이 생성형 AI를 탑재한 휴머노이드 로봇에게 지시함으로써 최종 행위나 결과물을 인간이 하지 않아도 됩니다. 예를 들어, 우리가 새로 산 가구를 조립해야 한다고 가정해 볼게요. 지금은 인간이 생성형 AI에게 그 가구를 조립하는 방법을 물은 후 생성형 AI의 답변대로 인간이 직접 조립을 해야 하지만 앞으로는 휴머노이드 로봇이 조립까지 대행해 줄 것입니다. 인간이 완전한 명령을 내릴 수 있게 된 것이죠. 생성형 AI 입장에서도 휴머노이드 로봇이라는 물리적 실체와 만난다는 것은 인간의 두뇌에 육체가 합쳐진 것과 마찬가지일 것입니다.
미래에 AI는 휴머노이드 로봇이라는 육체를 통해 다양한 용도로 산업 현장과 실생활에 도입될 것입니다. 가정에 자동차가 한 대씩 있듯이 언젠가는 집집마다 로봇 집사가 인간과 함께 살날도 올 것 같습니다. 생성형 AI가 주로 화이트 컬러의 일자리에 영향을 미친다면 생성형 AI를 탑재한 휴머노이드 로봇의 대중화는 블루 컬러의 일자리를 대체할 것입니다. 이러한 문제를 해결하기 위해서는 인간의 일자리 상실과 로봇세 등 복잡한 사회 현상에 대한 깊은 고민과 사회적 합의가 선행되어야 합니다. 또한 인간이 반려동물을 통해 감정을 교류하고 삶을 함께 하듯이, 반려 로봇이 하나의 사회 현상으로 자리매김할 수도 있습니다. 더 나아가 먼 미래에는 인간과 휴머노이드 로봇의 경계가 허물어질 수도 있습니다. 저명한 인지과학자인 마빈 민스크는 인간과 AI를 구분하는 것 자체가 인종차별주의자라고 했으니 말입니다.
* 상기 기고 글은 필자의 저서 <전혀 다른 생성형 AI>(2024)의 내용 중 일부를 인용하여 작성하였습니다.
저서로 <전혀 다른 생성형 AI>(2024), <나는 예술로 경영을 배운다>(2020), <마케팅한다더니 인문학이 왜 나와?>(2018)가 있으며 <기업은 왜 다양성이 필요한가?>(고려대 다양성위원회, 2022) 외 다수의 기고 글이 있다. 평소 통념을 뒤집는 사고를 즐긴다.