Action Chunking Transformer 역할


Compounding Error

로봇이 학습시에 전문가의 행동을 보고 배웠는데 실제 추론시에 본인이 전문가가 했던 행동과 약간만 벗어나도 이에 대한 학습데이터가 없기 때문에 그 다음 행동에서도 오차가 발생해서 점점 더 전문가의 행동과 벌어지는 행동을 하게되는 에러를 말한다.

ACT(Action Chunking Transformer)

기존의 방식은 로봇 팔이 물건을 집으러 갈 때 매 순간(예: 0.01초 단위)마다 다음 동작을 고민한다. 이 경우, 단 한 번의 추론 실수만으로도 다음 스텝에 오류가 전이되어 결국 전체 동작이 실패하는 Compounding Error에 매우 취약하다. 또한, 매 순간 결정이 바뀌다 보니 동작이 끊기거나 덜덜 떨리는 현상이 발생한다. 즉 바로 앞의 나무를 보느냐 숲을 보느냐의 차이로 보면 된다.

반면, ACT는 한 번의 추론으로 N스텝 분량의 '액션 청크'를 동시에 출력한다. 이는 로봇이 단순히 다음 지점을 찾는 것이 아니라, 앞으로 움직일 전체적인 '궤적(Trajectory)'을 한꺼번에 설계하는 것과 같다. 따라서 N개의 스텝 안에서는 일관성 있는 동작이 보장되어 훨씬 안정적이고 부드러운 움직임이 가능해진다.

Temporal Ensembling

ACT의 특징은 시간적 앙상블 효과가 있다.

예를 들어, 첫 번째 스텝(Step 1)에서 50개짜리 액션 청크를 내뱉고 실행한다고 가정해 보자. 로봇은 이 50개를 다 마칠 때까지 기다리지 않고, 일정 시간(예: Step 20)이 지나면 현재 상황을 다시 파악하여 새로운 50개짜리 액션 청크를 추론한다.

이때 기존에 수행 중이던 동작의 남은 부분과 새롭게 추론된 동작의 앞부분이 서로 겹치는 구간이 생기게 된다. ACT는 이 겹치는 구간의 액션 값들을 가중 평균(Weighted Average) 내어 최종 동작을 결정한다.

under-shoot¹: 목표보다 덜 가는 것, 즉 모자라게 움직이는 것