AI · Reinforcement Learning · VLA
Everything is a
trade-off relationship.
Today, you are so nice.
Writing
Recent
Z-transform
연속 시스템은 미분방정식으로 표현되었다. 그런데 이산신호 연속이 아님으로 (y[n], n=0,1,2 ... ) 미분방정식으로 표현되지 않는다. 대신 이산 시스템에서는 변화를 표현하는 건 한 스텝의 전 값임으로 차분방정식의 꼴로 표현된다. 연속에서와 마찬가지로 차분방정식 y[n], y[n-1], y[n-
Pole이 시간영역에서 미치는 영향
목차 왜 이 장에서는 시스템의 해가 지수함수의 꼴이며 이때 Pole값이 시간응답에 미치는 영향에 대해 알아본다. 시스템의 해 e^{st} 이유 시스템은 일반적으로 미분방정식으로 기술된다. a_2 \ddot{y} + a_1 \dot{y} + a_0 y = 0 이 미분방정식은 \ddot{y},\ \dot{y
Variation Inference(VI, ELBO)
Variation Inference(VI, ELBO) 복잡한 데이터를 이해하고싶어 어떤 요인들이 관측값(데이터)들에 영향을 주는지 알고 싶다. 즉 우리가 보는 데이터가 왜 그렇게 나왔는지 숨은 원인을 알고 싶은 것. (데이터 x가 주어졌을때 숨은 요인 z가 어떻게 나오는지를 알고싶음 p(z|x)) 그런데
Action Chunking Transformer 역할
Compounding Error 로봇이 학습시에 전문가의 행동을 보고 배웠는데 실제 추론시에 본인이 전문가가 했던 행동과 약간만 벗어나도 이에 대한 학습데이터가 없기 때문에 그 다음 행동에서도 오차가 발생해서 점점 더 전문가의 행동과 벌어지는 행동을 하게되는 에러를 말한다. ACT(Action Chunk
Knowledge Distillation
서론 지식 증류관련 논문을 읽다보면 Teacher-Student를 같이 학습하는 경우가 있고, Teacher를 먼저 학습하고 Student를 학습하는 경우가 있다. 어떤 경우에는 같이 학습하는지 그리고 어떤 경우에는 선행 학습 후 전이가 이뤄지는지 고민하여 찾아본 결과에 대해 작성한다. 목차 방법 A:
DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image 논문리뷰
RGB 좌표계에 맞추는 캘리 방법함. Zone 내부의 위치가 이미지상에서 어느 픽셀에 해당하는지 정확히 알 수 없으나 그 위치의 깊이가 L5가 반환한 해당 Zone의 분포의 평균값 mk와 같은 지점인 xk, yk 인 점이 반드시 존재한다는 것을 관찰함 기존에는 이미지의 특징이나 댑스, 포인트 클라우드와
MonoLift: Learning 3D Manipulation Policies from Monocular RGB via Distillation
서론 이 논문은 단일 RGB 이미지(Monocular RGB)만으로 3D 로봇 조작 정책을 학습하는 MonoLift framework를 제안한다. 기존 RGB-D, multi-view, point cloud 기반 방법은 3D 정보를 잘 활용할 수 있지만, 추가 센서와 전처리 비용이 크다. 반대로 RGB-
Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation 논문리뷰
서론 이 논문은 기존 2D LiDAR 기반 이동 로봇 내비게이션의 한계를 해결하기 위해, Monocular Depth Estimation(MDE) 기반 Teacher-Student framework를 제안한다. Teacher policy는 시뮬레이션에서 2D LiDAR와 로봇 자기 상태 정보를 입력으로
TRPO - Trust Region Policy Optimizer
서론 기존 DDPG는 성능의 단조개선(Monotonic Improvement)가 이론적으로 보장되지 않았다.(목적함수 J(\theta))가 매 iteration마다 증가한다는 보장이 없다.) 왜냐하면 Actor( \mu )가 Ciritic(Q 함수)의 gradient를 따라가도록 학습하는데 critic
PPO
목표: PPO(Proximal Policy Optimization)를 논문(academic paper) 흐름(문제정의 → 방법 → 분석/실험 → 결론)으로 정리한다. 서론 이전에 배운 TPRO는 정책의 단조 향상(Monotonic Improvement)을 이론적으로 보장한다는 강한 장점을 얻는 대가로 T
[RL] DQN의 Action Space 한계
로봇이 잘 걸어가도록 하기 위해 DQN모델을 사용한다 해보자. 총 4개의 관절이 있고 각 관절은 (-90, 0, 90) 3개의 값 중 하나를 가질 수 있다. 이 경우 각 관절 당 3가지의 값을 가질 수 있으니 관절이 4개 임으로 3x3x3x3 = 81개의 조합이 만들어진다. 넘어지기 직전상태인 St에 대
[01] C++ 기초
목차 1. Namespace 2. 기초문법 3. Reference 4. New, Delete 5. Class 1. Namespace C++에서 이름 공간(namespace)은 변수, 함수, 클래스와 같은 이름들이 어느 소속에 속해 있는지 구분하기 위한 개념으로 같은 이름이라도 서로 다른 namespace
검색 결과가 없습니다. 다른 키워드로 다시 시도해보세요.
Explore