
MIT의 컴퓨터 과학 및 인공 지능 연구소(CSAIL) 사무실에서 부드러운 로봇 손이 손가락을 조심스럽게 구부려 작은 물체를 잡습니다. 흥미로운 부분은 기계적 설계나 내장 센서가 아닙니다. 사실 핸드헬드에는 아무것도 없습니다. 대신 전체 시스템은 로봇의 움직임을 모니터링하고 해당 시각적 데이터를 사용하여 로봇을 제어하는 단일 카메라에 의존합니다.
이 기능은 로봇 제어에 대한 다른 관점을 제공하는 CSAIL 과학자들이 개발한 새로운 시스템에서 비롯됩니다. 손으로 디자인한 모델이나 복잡한 센서 배열을 사용하는 대신 로봇은 시각만을 통해 신체가 제어 명령에 반응하는 방식을 학습할 수 있습니다. NJF(Neural Jacobian Fields)라고 불리는 이 접근 방식은 로봇에게 일종의 물리적 자기 인식을 제공합니다. 해당 작업에 대한 오픈 액세스 논문이 출판되었습니다. 자연 6월 25일.
“이 작업은 프로그래밍 로봇에서 교육용 로봇으로의 전환을 의미합니다”라고 CSAIL 소속 MIT 전기 공학 및 컴퓨터 과학 박사 과정 학생이자 이 작업의 수석 연구원인 Size Lester Lee는 말합니다. “오늘날 많은 로봇공학 작업에는 광범위한 엔지니어링과 코딩이 필요합니다. 미래에는 로봇이 무엇을 해야 하는지 보여주고 자율적으로 목표를 달성하는 방법을 배울 수 있게 하는 것이 목표입니다.”
동기 부여는 간단하지만 강력한 재구성에서 비롯됩니다. 저렴하고 유연한 로봇 공학의 주요 장벽은 하드웨어가 아니라 다양한 방법으로 달성할 수 있는 기능 제어입니다. 기존 로봇은 견고하게 제작되었으며 센서가 장착되어 있어 제어에 사용되는 정확한 수학적 복제본인 디지털 트윈을 쉽게 구축할 수 있습니다. 그러나 로봇이 부드럽거나 변형되거나 불규칙한 모양을 갖게 되면 이러한 가정은 무너집니다. NJF는 로봇이 우리 모델과 일치하도록 강요하는 대신 스크립트를 뒤집어 로봇이 관찰을 통해 자체 내부 모델을 학습할 수 있는 능력을 제공합니다.
보고 배우다
이러한 모델링과 하드웨어 설계의 분리는 로봇 공학의 설계 공간을 크게 확장할 수 있습니다. 소프트 로봇과 생체 영감을 받은 로봇에서 설계자는 종종 센서를 내장하거나 구조의 일부를 강화하여 모델링을 가능하게 합니다. NJF는 그 장애물을 제거했습니다. 시스템에는 제어를 가능하게 하기 위해 온보드 센서나 설계 변경이 필요하지 않습니다. 디자이너는 나중에 모델링하거나 제어할 수 있을지 걱정하지 않고 틀에 얽매이지 않고 제한되지 않은 형태를 자유롭게 탐색할 수 있습니다.
“손가락을 제어하는 법을 어떻게 배우는지 생각해 보세요. 움직이고, 관찰하고, 적응합니다.”라고 Lee는 말합니다. “그것이 우리 시스템이 하는 일입니다. 무작위 동작을 실험하고 어떤 컨트롤이 로봇의 어떤 부분을 움직이는지 파악합니다.”
이 시스템은 다양한 로봇에서 강력한 것으로 입증되었습니다. 팀은 집고 잡을 수 있는 공압식 소프트 로봇 팔, 견고한 Allegro 팔, 3D 프린팅 로봇 팔, 심지어 내장된 센서가 없는 회전 플랫폼에서도 NJF를 테스트했습니다. 각각의 경우에 시스템은 비전과 무작위 동작만을 사용하여 로봇의 모양과 제어 신호에 반응하는 방법을 학습했습니다.
연구자들은 실험실 너머의 잠재력을 봅니다. NJF가 장착된 로봇은 언젠가는 센티미터 수준의 위치 파악 정확도로 농업 작업을 수행하거나, 정교한 센서 배열 없이 건설 현장에서 작업하거나, 기존 방법이 실패하는 동적 환경을 탐색할 수 있습니다.
NJF의 핵심에는 로봇 구현의 두 가지 상호 연결된 측면, 즉 3차원 기하학과 제어 입력에 대한 민감성을 포착하는 신경망이 있습니다. 이 시스템은 공간 좌표를 색상 및 밀도 값에 매핑하여 이미지에서 3D 장면을 재구성하는 기술인 신경 방사 필드(NERF)를 기반으로 합니다. NJF는 로봇의 모양뿐만 아니라 로봇 신체의 모든 지점이 모터 명령에 응답하여 어떻게 움직일지 예측하는 기능인 야코비안 필드(Jacobian field)도 학습하여 이러한 접근 방식을 확장합니다.
모델을 훈련하기 위해 로봇은 여러 대의 카메라가 결과를 기록하는 동안 무작위로 움직입니다. 인간의 감독이나 로봇 구조에 대한 사전 지식이 필요하지 않습니다. 시스템은 단순히 관찰만으로 제어 신호와 모션 사이의 관계를 추론합니다.
훈련이 완료되면 로봇에는 약 12Hz에서 실행되는 실시간 폐쇄 루프 제어를 위한 단안 카메라만 필요합니다. 이를 통해 그는 지속적으로 자신을 관찰하고 책임감 있게 계획하고 행동할 수 있습니다. 이러한 속도 덕분에 NJF는 실시간 사용에 너무 계산 집약적인 소프트 로봇을 위한 많은 물리 기반 시뮬레이터보다 더 실용적입니다.
초기 시뮬레이션에서는 간단한 2D 손가락과 슬라이더라도 몇 가지 예만 사용하여 이 매핑을 학습할 수 있었습니다. NJF는 특정 지점이 동작에 따라 어떻게 변형되거나 이동하는지 모델링하여 조밀한 제어 가능성 맵을 만듭니다. 내부 모델을 사용하면 데이터에 잡음이 많거나 불완전한 경우에도 로봇 몸 전체의 동작을 일반화할 수 있습니다.
“정말 흥미로운 점은 어떤 모터가 로봇의 어떤 부분을 제어하는지 시스템 자체가 파악한다는 것입니다.”라고 Lee는 말합니다. “그것은 프로그래밍된 것이 아닙니다. 마치 사람이 새 장치에서 버튼을 발견하는 것처럼 학습을 통해 자연스럽게 나타납니다.”
미래는 부드러워
수십 년 동안 로봇 공학은 공장에서 발견되는 산업용 무기와 같이 견고하고 쉽게 조작할 수 있는 기계를 우선시했습니다. 그 이유는 기계의 특성이 제어를 단순화하기 때문입니다. 그러나 이 분야는 현실 세계에 보다 쉽게 적응할 수 있는 부드러운 생체모방 로봇을 향해 나아가고 있습니다. 교환? 이러한 로봇은 모델링하기가 어렵습니다.
“오늘날 로봇 공학은 값비싼 센서와 복잡한 프로그래밍으로 인해 종종 손이 닿지 않는 느낌을 받습니다. Neural Jacobian Fields에 대한 우리의 목표는 장벽을 낮추어 로봇을 더 많은 사람들이 저렴하고 적응 가능하며 접근할 수 있도록 만드는 것입니다. 비전은 유연하고 신뢰할 수 있는 센서입니다.”라고 시각적 표현 그룹을 이끌고 있는 수석 저자이자 MIT 조교수인 Vincent Sitzman은 말합니다. “이것은 값비싼 인프라 없이 농장에서 건설 현장에 이르기까지 더럽고 구조화되지 않은 환경에서 일할 수 있는 로봇의 문을 열어줍니다.”
“비전만으로도 위치 파악 및 제어에 필요한 신호를 제공할 수 있어 GPS, 외부 추적 시스템 또는 복잡한 내장 센서가 필요하지 않습니다. 이를 통해 지도 없이 실내 또는 지하를 탐색하는 드론부터 어수선한 집이나 창고에서 작동하는 모바일 조작기, 심지어 고르지 않은 지형 위를 걷는 다리 로봇에 이르기까지 구조화되지 않은 환경에서 강력하고 적응력 있는 동작을 수행할 수 있는 문이 열립니다.”라고 공동 저자인 전기 공학 및 컴퓨터 과학 분야의 Daniela Russ는 말했습니다. MIT 교수이자 이사는 말합니다. C.S.A.L. “시각적 피드백을 통해 학습함으로써 이러한 시스템은 모션 및 역학의 내부 모델을 개발하여 기존 위치 파악 방법이 실패했던 유연하고 자체 감독된 작동을 가능하게 합니다.”
NJF 훈련에는 현재 여러 대의 카메라가 필요하고 각 로봇에 대해 다시 프로그래밍해야 하지만 연구원들은 이미 더 접근하기 쉬운 버전을 구상하고 있습니다. 미래에는 애호가들이 운전하기 전에 렌트카의 비디오를 찍는 것처럼 로봇의 무작위 움직임을 휴대폰으로 녹화하고 해당 영상을 사용하여 사전 지식이나 특수 장비 없이도 제어 모델을 만들 수 있습니다.
이 시스템은 아직 다양한 로봇에 일반화되지 않았으며 힘이나 촉각 감지가 부족하여 접촉이 많은 작업에 대한 효율성이 제한됩니다. 그러나 팀은 일반화 개선, 병목 현상 처리, 더 긴 공간적 및 시간적 지평에 대한 모델의 추론 능력 확장 등 이러한 한계를 해결하기 위한 새로운 방법을 모색하고 있습니다.
“인간이 자신의 몸이 어떻게 움직이고 명령에 반응하는지에 대한 직관적인 감각을 개발하는 것처럼 NJF는 로봇에게 시각만을 통해 일종의 자기 인식을 제공합니다.”라고 Lee는 말합니다. “이러한 이해는 실제 환경에서 유연한 조작 및 제어를 위한 기초입니다. 우리의 작업은 본질적으로 로봇 공학의 더 넓은 추세를 반영합니다. 수동으로 프로그래밍하는 세부 모델에서 벗어나 관찰과 상호 작용을 통해 로봇을 가르치는 것으로 이동합니다.”
이 논문에서는 Sitzman Lab의 컴퓨터 비전 및 자기 지도 학습 작업에 대한 전문 지식과 Russ Lab의 소프트 로봇을 결합했습니다. Li, Sitzman 및 Russ는 전기 공학 및 컴퓨터 과학(EECS) 박사 과정 학생인 CSAIL 계열사인 Annan Zhang SM ’22와 함께 논문을 공동 집필했습니다. Boyan Chen, EECS 박사과정 학생; Hannah Matusik, 기계공학 대학원 연구원; 그리고 MIT Senseable Cities Lab의 박사후 연구원인 Chao Liu.
이번 연구는 MIT 연구지원위원회, MIT 프레지던트 펠로우십, 국립과학재단, 광주과학기술원을 통해 솔로몬 벅스바움 연구기금의 지원을 받았다.