AI · Reinforcement Learning · VLA
Everything is a
trade-off relationship.
Today, you are so nice.
Writing
Recent
Action Chunking Transformer 역할
Compounding Error 로봇이 학습시에 전문가의 행동을 보고 배웠는데 실제 추론시에 본인이 전문가가 했던 행동과 약간만 벗어나도 이에 대한 학습데이터가 없기 때문에 그 다음 행동에서도 오차가 발생해서 점점 더 전문가의 행동과 벌어지는 행동을 하게되는 에러를 말한다. ACT(Action Chunk
Knowledge Distillation
서론 지식 증류관련 논문을 읽다보면 Teacher-Student를 같이 학습하는 경우가 있고, Teacher를 먼저 학습하고 Student를 학습하는 경우가 있다. 어떤 경우에는 같이 학습하는지 그리고 어떤 경우에는 선행 학습 후 전이가 이뤄지는지 고민하여 찾아본 결과에 대해 작성한다. 목차 방법 A:
DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image 논문리뷰
RGB 좌표계에 맞추는 캘리 방법함. Zone 내부의 위치가 이미지상에서 어느 픽셀에 해당하는지 정확히 알 수 없으나 그 위치의 깊이가 L5가 반환한 해당 Zone의 분포의 평균값 mk와 같은 지점인 xk, yk 인 점이 반드시 존재한다는 것을 관찰함 기존에는 이미지의 특징이나 댑스, 포인트 클라우드와
MonoLift: Learning 3D Manipulation Policies from Monocular RGB via Distillation
서론 이 논문은 단일 RGB 이미지(Monocular RGB)만으로 3D 로봇 조작 정책을 학습하는 MonoLift framework를 제안한다. 기존 RGB-D, multi-view, point cloud 기반 방법은 3D 정보를 잘 활용할 수 있지만, 추가 센서와 전처리 비용이 크다. 반대로 RGB-
Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation 논문리뷰
서론 이 논문은 기존 2D LiDAR 기반 이동 로봇 내비게이션의 한계를 해결하기 위해, Monocular Depth Estimation(MDE) 기반 Teacher-Student framework를 제안한다. Teacher policy는 시뮬레이션에서 2D LiDAR와 로봇 자기 상태 정보를 입력으로
TRPO - Trust Region Policy Optimizer
서론 기존 DDPG는 성능의 단조개선(Monotonic Improvement)가 이론적으로 보장되지 않았다.(목적함수 J(\theta))가 매 iteration마다 증가한다는 보장이 없다.) 왜냐하면 Actor( \mu )가 Ciritic(Q 함수)의 gradient를 따라가도록 학습하는데 critic
PPO
목표: PPO(Proximal Policy Optimization)를 논문(academic paper) 흐름(문제정의 → 방법 → 분석/실험 → 결론)으로 정리한다. 서론 이전에 배운 TPRO는 정책의 단조 향상(Monotonic Improvement)을 이론적으로 보장한다는 강한 장점을 얻는 대가로 T
[RL] DQN의 Action Space 한계
로봇이 잘 걸어가도록 하기 위해 DQN모델을 사용한다 해보자. 총 4개의 관절이 있고 각 관절은 (-90, 0, 90) 3개의 값 중 하나를 가질 수 있다. 이 경우 각 관절 당 3가지의 값을 가질 수 있으니 관절이 4개 임으로 3x3x3x3 = 81개의 조합이 만들어진다. 넘어지기 직전상태인 St에 대
[01] C++ 기초
목차 1. Namespace 2. 기초문법 3. Reference 4. New, Delete 5. Class 1. Namespace C++에서 이름 공간(namespace)은 변수, 함수, 클래스와 같은 이름들이 어느 소속에 속해 있는지 구분하기 위한 개념으로 같은 이름이라도 서로 다른 namespace
How to do Internal Camera Calibration
서론 ROS2를 사용해서 카메라 내부 캘리브레이션 하는 방법에 대해 설명한다. Dependencies 카메라 렌즈와 센서의 특성 때문에 발생하는 영상 왜곡을 수학적으로 계산하여 보정값을 찾아내는 프로그램으로 실시간으로 ROS 토픽(image_raw)을 구독(Subscribe)하여 화면을 보면서, 그 위에
Raspi Segmentation
Dependencies Device: Raspi 5 OS: Bookworm SD card: 128GB
Reinforcement Learning 1차시
Random Variable 표본 공간을 어떤 목적에 따른 실수에 대응 시켜주는 함수를 확률 변수라고 한다. 그리고 이 실수들을 맞는 확률값에 대응시켜준 것을 확률 분포라고 한다. Conditional Probability Partion theorem Probability Density Function
검색 결과가 없습니다. 다른 키워드로 다시 시도해보세요.
Explore