생성 AI와 로봇 공학은 우리가 물건을 요청하고 몇 분 만에 물건을 만들 수 있는 날을 더욱 가까이 데려가고 있습니다. 실제로 MIT 연구원들은 로봇 팔에 입력을 제공하고 “물체를 존재하게 만들어” 단 5분 만에 가구와 같은 물건을 만들 수 있는 AI 기반 워크플로우인 음성-현실 시스템을 개발했습니다.
음성-현실 시스템을 사용하면 테이블에 장착된 로봇 팔이 인간으로부터 “간단한 의자를 원해요”와 같은 음성 입력을 받은 다음 모듈식 구성 요소로 개체를 만들 수 있습니다. 현재까지 연구자들은 이 시스템을 사용하여 의자, 선반, 의자, 작은 테이블, 심지어 개 조각상과 같은 장식물을 만들었습니다.
MIT 대학원생이자 Morningside Academy for Design(MAD) 펠로우인 Alexander Htet Kyaw는 “우리는 자연어 처리, 3D 생성 AI 및 로봇 조립을 결합하고 있습니다.”라고 말합니다. “이것들은 단순한 음성 신호만으로 실제 물체를 실제로 생성할 수 있는 방식으로 이전에 통합되지 않았던 빠르게 움직이는 연구 분야입니다.”
비디오 재생
음성을 현실로: 3D 생성 AI 및 개별 로봇 조립을 사용한 주문형 생산
이 아이디어는 건축, 전기 공학, 컴퓨터 공학과의 대학원생인 Kyaw가 Neil Gershenfeld 교수의 “거의 모든 것을 만드는 방법” 과정을 수강하면서 시작되었습니다. 그 수업에서 그는 음성-현실 시스템을 만들었습니다. 그는 Gershenfeld가 감독하는 MIT CBA(Centre for Bits and Atoms) 기계공학과 대학원생인 전환, CBA의 Mianna Smith와 함께 계속해서 프로젝트를 진행했다.
음성-현실 시스템은 대규모 언어 모델을 사용하여 사용자의 요청을 처리하는 음성 인식으로 시작하여 객체의 디지털 메시 표현을 생성하는 3D 생성 AI, 3D 메시를 어셈블리 구성 요소로 나누는 복셀화 알고리즘으로 이어집니다.
그 후 기하학적 처리는 구성요소 수, 돌출부, 기하학적 연결성과 같은 실제 제조 및 물리적 제약 조건을 고려하여 AI 생성 어셈블리를 수정합니다. 그런 다음 로봇 팔이 사용자 프롬프트에 따라 실제 물체를 조립할 수 있도록 실현 가능한 조립 순서와 자동화된 경로 계획이 구성됩니다.
이 시스템은 자연어를 활용하여 3D 모델링이나 로봇 프로그래밍에 대한 전문 지식이 없는 사람들도 설계 및 제조에 보다 쉽게 접근할 수 있도록 해줍니다. 그리고 몇 시간 또는 며칠이 걸릴 수 있는 3D 프린팅과 달리 이 시스템은 몇 분 안에 구축됩니다.
“이 프로젝트는 인간, AI, 로봇 간의 인터페이스로 우리 주변의 세계를 공동 창조합니다.”라고 Kyaw는 말합니다. “당신이 ‘의자를 원해요’라고 말하면 5분 안에 실제 의자가 당신 앞에 서 있는 시나리오를 상상해 보세요.”
팀은 큐브를 자석에 연결하는 방법을 더 강한 연결 방식으로 변경하여 가구의 무게 지지력을 향상시킬 즉각적인 계획을 가지고 있습니다.
Smith는 “우리는 또한 복셀 구조를 소형 분산 모바일 로봇을 위한 실행 가능한 조립 시퀀스로 변환하는 파이프라인을 개발했습니다. 이는 이 작업을 모든 크기 규모의 구조로 변환하는 데 도움이 될 수 있습니다.”라고 말했습니다.
모듈식 구성 요소를 사용하는 목적은 물리적인 물체를 분해한 다음 다른 것으로 결합하여 물리적인 물체를 만드는 데 드는 낭비를 제거하는 것입니다. 예를 들어 소파가 더 이상 필요하지 않을 때 소파를 침대로 바꾸는 것입니다.
Kyaw는 제조 공정에서 로봇과 상호 작용하기 위해 제스처 인식 및 증강 현실을 사용한 경험도 있기 때문에 현재 음성 및 제스처 제어를 모두 음성-현실 시스템에 통합하는 작업을 진행하고 있습니다.
Kyaw는 “스타 트렉” 프랜차이즈의 리플리케이터와 애니메이션 영화 “빅 히어로 6″의 로봇에 대한 추억을 떠올리며 자신의 접근 방식을 설명합니다.
“나는 사람들이 빠르고 접근 가능하며 지속 가능한 방식으로 물리적인 물체를 만들 수 있는 접근성을 높이고 싶습니다.”라고 그는 말합니다. “나는 물질의 본질이 진정으로 당신의 통제하에 있는 미래를 위해 노력하고 있습니다. 요구에 따라 현실이 생성될 수 있는 곳입니다.”
연구팀은 지난 11월 21일 MIT에서 열린 ACM(Association for Computing Machinery) 컴퓨터 제작 심포지엄(SCF ’25)에서 ‘Speech to Reality: On-Demand Production Using Natural Language, 3D Generative AI, and Discrete Robotic Assembly’라는 논문을 발표했습니다.