정보나 지식의 전달보다 어려운 것이 감정과 감성의 전달이다. 그렇다 보니 인공지능이 제아무리 발전해도 인간의 감정을 이해하고 감성을 가지면서 그 마음을 표현하는 것은 한계가 있다는 것이 중론이다. 하지만, 인류의 기술 발전을 향한 노력과 열정은 제약이 없다. 그 어떤 동물보다 섬세한 오감을 가진 인간의 시각, 청각, 후각, 미각, 촉각의 감각을 인식할 수 있는 센서의 발전과 AI를 통한 복합적인 해석 기술의 발전으로 인간의 감성까지도 이해하는 인공지능의 출현이 불가능하지 않을 것 같다.
AI가 인간의 감성을 이해하려면 먼저 인간이 느끼는 오감을 인식하는 것이 중요하다. 사실 인간의 감각을 인식하는 기술은 수십 년 동안 개발되어 왔다. 가장 쉽고 효용성이 높은 것이 시각이었기에 카메라 센서 기술 기반으로 인간이 보는 것처럼 볼 수 있는 컴퓨터 비전 기술이 연구되었다. 그다음 청각이 시각 다음으로 많은 정보를 전달하는 감각이기에 마이크를 통해서 다양한 소리를 인식하는 기술도 이어서 발전되었다. 물론 아무리 좋은 센서가 있더라도 센서를 통해 입력된 데이터를 분석해 그 데이터를 해석하는 인공지능이 없으면 앙꼬 없는 찐빵이나 다름없다. 한마디로 눈과 귀로 보고 들어도 이를 해석할 수 있는 뇌가 없으면 말짱 도루묵인 것이다. 지난 수십 년간 하드웨어 센서 기술의 발전으로 더욱 선명하고 또렷하게 세상을 보고 들을 수 있는 발판이 마련되었고, 이와 별개로 인공지능 역시 쌓여가는 데이터 기반으로 더욱 강화될 수 있게 되었다.
컴퓨터 비전의 발전은 고양이와 개를 구분하는 수준을 넘어 사람의 눈과 귀를 구분하고 표정까지도 인식할 수 있을 만큼 정교해졌다. 특히 생성형 AI를 가능하게 한 LLM과 시각과 청각으로까지 데이터 입출력의 범위가 확대된 LMM 기술은 컴퓨터 비전 AI의 성능과 기능을 더욱 고도화하고 있다. Meta의 SAM(Segment Anything Model)은 입력한 프롬프트를 기반으로 이미지 내의 특정 영역을 식별하고 인식해 준다. 상세하게 이미지를 분할 인식하는 것을 넘어 AI와 대화를 나누면서 이미지에 대한 상세한 해독과 분석까지도 가능하다.
또한, 알리바바의 EMO(Emote Portrait Alive)는 Stable Diffusion 기반으로 개발된 비디오 생성기로 이미지 한 장과 음성 데이터를 조합해서 모나리자가 노래를 부를 수 있고, 이순신 장군이 3.1운동 독립선언서를 발표하게 할 수 있다. 자연스러운 표정과 입 모양, 눈짓 그리고 제스처를 취할 수 있도록 할 수 있다는 것은 반대로 사람의 표정과 눈짓 등을 통해서 감정의 상태를 인식할 수 있다는 것을 뜻한다. 게다가 고속도로를 달리는 수백 대의 자동차 대수를 세고, 버스와 트럭, 차량의 모델을 구분하는 것도 가능하다. 중국의 센스타임이라는 AI는 전 세계에서 사람의 얼굴을 가장 잘 인식하는 인공지능으로 연령이나 남녀 구분을 넘어 정확하게 누구인지까지 인식이 가능하다. 그렇게 AI는 카메라와 결합하여 신의 눈이 된 지 오래다.
비단, 각뿐 아니라 청각도 마찬가지다. 음성 인식과 오디오 처리 기술은 수십 년간 발전을 거듭해 수초 분량의 음악을 들려주고 무슨 음악인지 검색하는 것은 물론 음성만으로 누구인지 감별하는 것까지도 가능하다. 소음이 많은 파티장에서 특정인의 목소리를 구분해서 정확하게 인식하는 것도 가능하며, 다양한 소리에서 음악, 특정 소음, 사람의 목소리 등을 구분해서 별도 추출하는 것까지도 가능하다. 이런 기술의 진보 덕분에 이제는 콜센터에서 고객의 감정 상태를 음성으로 파악해 더 적절한 응대를 하고, 의료 분야에서 환자의 정서 상태를 모니터링하는 것이 가능해졌다. 마이크에 인입된 응급 상황을 모니터링하는 것까지도 가능해진 것이 음성 AI의 현주소이다.
하지만, 촉각과 후각, 미각 등의 3가지는 시청각에 비해서 아직 AI가 인간을 따라잡지 못했다. 정보 수용량 측면에서 압도적 양의 데이터가 축적되고 있는 시각이나 광범위한 주변 환경에서 발생하는 다양한 소리를 감지하며 다양한 질적 데이터를 수집되는 청각은 상대적으로 AI가 학습할 수 있는 데이터가 양적, 질적으로 많았다. 그래서 품질이 좋아질 수 있었다. 하지만, 후각과 미각, 촉각은 그에 비해서 데이터의 측정과 수집이 열세였기에 기술 발전이 더뎠다. 하지만 센서 기술의 발전으로 인해 이 3가지의 기술도 점진적으로 발전되고 있다.
후각은 1980년대부터 전자 코 센서가 개발되어 연구되어 왔다. 하지만, 후각은 다른 감각과 달리 사람마다 냄새의 차이나 깊이를 다르게 느끼기 때문에 정량화하는 것이 어렵다. 후각 세포는 무려 400여 개나 돼서 다양한 향을 구분해서 인식할 만큼 복잡하고 어느 세포가 어떤 향에 반응하는지가 과학적으로 밝혀지지 않았다. 그만큼, 냄새를 과학적으로 묘사하기 어려워 기술 발전이 더뎠다. 하지만, 생화학 센서와 광학 기술의 결합과 AI를 통한 데이터 분석 덕분에 냄새 분자를 감지하고 각 분자들의 조합으로 어떤 냄새가 나는지, 인간이 냄새를 맡을 때 어떻게 언어로 표현하는지 등의 데이터를 기반으로 객관적인 냄새 표준화하는 작업이 본격화되고 있다. 실제로 프랑스의 아리발레(Aryballe)라는 스타트업은 냄새를 분석하는 AI 기술 기업으로 정량적인 데이터 기반으로 냄새를 정확하게 구분하는 솔루션을 개발하고 있다.
미각 역시 전자 혀에 대한 연구와 함께 꾸준하게 이어지면서 단맛, 쓴맛, 짠맛, 신맛, 감칠맛 그리고 매운맛 등을 구분하는 것은 기본이고 사람마다 각자 같은 맛을 느껴도 다르게 반응하는 그 정도를 구분하는 것까지 발전되었다. 하지만 후각과 마찬가지로 같은 음식을 맛봐도 사람마다 다르게 느끼고 표현하기에 정량적으로 표준화하는 것이 어렵다. 일례로 와인만 해도 사람마다 같은 와인을 마시고도 맛의 느낌이나 표현이 다르다. 인간이 맛을 느끼는 것은 꽃봉오리 모양의 기관을 통해 혀 점막의 유두 속에 분포된 약 1만 개의 미각세포와 지지세포 덕분이다. 그렇게 섬세한 맛을 느끼기 위해서는 전자혀 센서가 그만큼의 상세한 인식이 가능해야 한다. 하지만, 대학교 연구기관과 스타트업 그리고 맥주 제조업체나 푸드테크 기업들은 AI를 활용해 맛을 분석하는 연구 개발을 꾸준하게 추진해 오고 있다. 덕분에 떫은 맛, 고소한 맛, 시큼한 맛 등의 수천, 수만 가지 맛에 대한 다양한 느낌을 정량화하는 작업이 진전되어 사람의 미각을 보다 정교하게 묘사하고 닮을 수 있게 되었다.
마지막으로 촉각은 인간이 느끼는 오감 중 자극을 받았을 때 가장 빠르게 반응하는 감각이다. 촉각 감각기는 우리 피부에 분포되어 있어 다양한 물체를 만질 때 그 감각을 뇌로 전달한다. 덕분에 우리는 뜨거운 물건을 만지거나 날카로운 물체에 찔리면 즉각 빠르게 반응해 대비할 수 있다. 인공피부 기술 덕분에 물질의 촉감을 구별하고 인식하는 기술이 연구되면서 누르고, 쓰다듬고, 두드리는 등의 다양한 햅틱 자극을 인지하고, 물체를 만졌을 때의 자극을 보다 정교하게 인지할 수 있게 되었다. 달걀과 빵, 푸딩, 가시나무 등의 표면을 정확하게 인식해서 잡을 수 있게 된 것은 촉각 AI 덕분이다. 스마트폰 화면을 터치할 때 햅틱 센서가 진동으로 손끝에 느낌을 전달할 수 있도록 한 것도 이 기술 덕분이다.
이렇게 인간의 오감을 닮은 센서와 AI 기술의 진화는 우리가 세상을 인식하고 사람과 어우러지며 상대의 감정을 헤아리고 외부에 반응해 내 감성을 표현하는 것처럼 기계도 AI도 우리의 감정을 인지하고 그에 반응해 상호작용할 수 있도록 해줄 것이다.
AI가 외부 환경을 인식하고 사람의 감성을 이해하는 것은 특정 센서를 통해 입력된 데이터를 해독하는 것만으로는 부족하다. 다양한 센서로 입력된 데이터를 통합적으로 인식해서 AI를 통해 종합적으로 분석해야 보다 정확한 분석이 가능하다. 우리가 상대와 대화를 하면서 상대의 감정을 이해하는 것은 음성의 어조와 고저 그리고 내용 더 나아가 표정과 눈짓, 시선 그리고 제스처 등 다양한 정보를 기반으로 한다. 상대의 마음을 헤아리기 위해 시각과 청각이 모두 집중되는 것이다. 때로는 촉각으로 상대와의 악수나 포옹을 통해서도 감정을 느끼고, 함께 그 공간에서 느끼는 분위기와 함께 먹고 마시는 음식 그리고 주변 환경의 냄새 등 다양한 정보들이 복합적으로 해석되어 서로의 감정을 느끼는 것이다.
AI 역시 마찬가지다. 앞서 살펴본 수많은 인간의 오감을 닮은 센서를 통해 수집된 데이터가 AI에 종합적으로 전달되어 이 데이터를 기반으로 사람의 감정과 마음을 읽을 수 있는 것이다. 기술의 발전은 오히려 우리 사람이 상대의 마음을 헤아리는 것보다 AI가 더 정교하게 감정을 읽을 수 있도록 해주고 있다. 사람은 미쳐 파악할 수 없는 뇌파 신호나 피부의 온도와 땀 분비, 심전도 등의 데이터를 AI는 수집할 수 있기 때문에 더 정확하게 감정을 읽을 수 있다.
게다가 우리는 동시에 다양한 정보를 미세하게 파악할 수 없지만 고도화된 센서 기술은 사람보다 더 정확하고 다양한 정보들을 신호로 인식할 수 있다. 게다가 그 데이터를 오래도록 기록할 수 있어 시간의 추이 속에서 다양한 감정 선의 변화를 읽어낼 수 있다. 덕분에 식스센스 즉 육감을 가질 수도 있다. 으슥한 밤에 골목길에서 강도를 만났을 때 스산하면서 섬뜩한 기분이 드는 것처럼 보다 정확한 데이터들을 기반으로 AI가 육감을 발휘할 수 있는 것이다. 미래의 범죄를 예측해 선제적으로 대응하는 시나리오로 화제를 모았던 영화 마이너리티 리포트 속 초능력자의 뇌와 같은 역할을 인공지능이 맡을 수 있게 되는 세상도 멀지 않았다.
이렇게 오감을 넘어 육감으로 우리의 감정을 느끼는 인공지능이 완성되면 어떤 변화가 만들어질까? 인간의 감성을 인식하는 솔루션은 다양한 산업 영역에서 활용되어 새로운 사용자 경험과 고객 가치를 만들어낼 것이다. 우선 의료업에 적용됨으로써 환자의 정신 건강을 진단하고 원격 의료 시 환자의 감정 상태를 실시간 파악해 의료진이 적절한 조치를 취할 수 있도록 해줄 것이다. 또한, 학생의 감정 상태를 파악해 학습 몰입도를 높이고 학습 효과를 평가하며 맞춤 학습 콘텐츠를 제공하는 데 이용할 수 있다. 더 나아가 운전자 상태를 모니터링해 졸음, 피로, 스트레스를 감지해 안전 운전을 도울 수 있으며, 직원들의 감성을 분석해 긍정적인 조직 문화를 조성하고 업무 성과를 향상하는 데 이용할 수도 있다. 소비자 감정 상태에 따라 관심을 가질만한 상품이나 서비스를 추천해 마케팅 효과를 극대화하고 초개인화 광고를 하는데 이용될 수도 있다. 더 나아가 사용자 감정에 반응하는 게임 캐릭터를 개발해 몰입도 높은 게임 경험을 제공할 수 있고, 음악이나 영화 등의 엔터테인먼트 콘텐츠를 추천하고 인터랙티브한 콘텐츠 서비스를 제공하는 데 이용하는 것도 가능하다.
하지만, 가장 압도적인 새로운 기회는 휴머노이드 로봇이나 AI Agent에 이 기술이 탑재됨으로써 발생하는 새로운 차원의 경험이다. 최근 연구가 활발하게 전개 중인 휴머노이드 로봇에 ChatGPT와 같은 인공지능이 탑재됨으로써 사람과 대화를 하며 상호작용하며 작동될 수 있는 모멘텀이 마련되고 있다. 그런 로봇이 대화를 나누면서 우리의 감정까지도 인식할 수 있다면 더 나아가 로봇이 감성을 표현할 수 있다면 인류는 로봇과 더욱 긴밀한 교류가 가능해질 것이다. 메타버스에서 AI Agent가 내 감정을 읽고 최적의 인터넷 서비스와 내가 필요로 하는 정보 등을 제공할 수 있는 것도 감성을 읽는 AI 덕분에 가능해질 새로운 세상이다.
지난 30년의 PC와 스마트폰은 인류의 문명을 발전시키는 것을 도와준 최첨단의 정보 기기였던 것이 사실이다. 하지만, 계산기나 세탁기, 냉장고 그리고 자동차처럼 기계 도구라는 한계에서 벗어나질 못했다. 하지만, 인간의 감정까지 읽을 수 있는 그리고 또 표현하고 반응할 수 있는 AI는 이들 기계 도구를 새로운 차원으로 전환할 수 있도록 해줄 것이다. 굳이 직접 명령을 내리지 않아도 우리의 감정을 그리고 마음을 읽는 AI가 대신 기기를 작동시켜 주기 때문에 초자동화, 초개인화의 서비스 시대가 열리게 될 것이다. 기계와 대화를 하며 정보를 얻고 지식을 나누는 것을 넘어 마음을 나누고 감정을 교류하는 것이 가능해질 것이다. AI에 위로받고 정신을 치유하는 것이 가능해질 것이다.
▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
김지현 | 테크라이터
기술이 우리 일상과 사회에 어떤 변화를 만들고, 기업의 BM 혁신에 어떻게 활용할 수 있을지에 대한 관심과 연구를 하고 있습니다.