AI · Reinforcement Learning · VLA

Everything is a
trade-off relationship.

Recent notes About me

Today, you are so nice.

Writing

Recent

IsaacSim/Lab architecture

서론 이 페이지는 실제 RSL_RL을 이용해 강화학습을 하고자 할 때 환경, 에이전트, 정책 등에 대해 어떻게 구성해야하는지 에대한 아키텍처?를 이해기위해 설명한다 Isaac Sim 역할 로봇과 주변 물체가 존재하는 물리적 시뮬레이션 세계를 만들고, 그 세계에서 발생하는 물리현상을 계산하는 시뮬레이터이다

Reinforcement Learning

EM 알고리즘 (작성중)

우리는 각 데이터가 어떤 군집에 속하는지 알 수가 없는 상황에서 비슷한 데이터끼리 여러 그룹으로 나누고 싶다. 이렇게 데이터의 라벨을 모르는 상태에서 어떻게 각 비슷한 데이터끼리 그룹으로 구분할 수 있을까? 여기서 우리가 관측한 데이터는 X, 각 데이터가 어느 군집에 속해있는지 나타내는 잠재변수를 Z라고

Reinforcement Learning

[2차시] Average Reward

서론 지금까지는 정책이 만들어내는 마르코프 체인을 장기적인 관점에서 분석하기 위한 이론적 기반을 살펴보았다. 정상분포와 에르고딕 성질을 통해, 정책을 충분히 오래 수행하면 각 상태를 얼마나 자주 방문하는지를 하나의 확률분포로 표현할 수 있음을 확인하였다. 그러나 상태를 얼마나 자주 방문하는지만으로는 정책

Reinforcement Learning

[3차시] Markov Decision Process

서론 평균보상에는 한계가 있었다. 에르고딕성이라는 강한 조건이 필요하고, 종료 상태가 존재하는 문제에서는 종료 이전의에 받은 보상이 무한한 시간 속에서 영향력이 점차 사라진다. 결국 보상을 '얼마나' 받았는지뿐 아니라 '언제' 받았는지까지 반영하는 새로운 평가 방식이 필요하다. 이번 시간에는 이 요구를

Reinforcement Learning

[1차시] Markov process

서론 강화학습의 목표는 “현재 상황에서 어떤 행동을 해야 미래에 더 좋은 결과를 얻을 수 있는가?” 이라고 볼 수 있다. 이 질문을 다루려면 먼저 시간에 따라 상태가 어떻게 변할지를 표현해야 한다. 하지만 미래의 상태는 정확히 정해져 있지 않고 확률적으로 변한다.(예를 들어 로봇이 앞으로 가려고 해도 바

Robotics

Z-transform

연속 시스템은 변화율에 대한 관계식을 나타내는 미분방정식으로 표현되었다. 이산에서 "변화율"에 해당되는 가장 작은 간격이 1스텝이므로, 변화를 표현하는 최소 단위는 현재 값과 한 스텝 전 값의 차이, 즉 차분 y[n] - y[n-1] 이다. 미분이 차분으로 대체되므로, 시스템은 현재와 과거 값들 사이의

Robotics 제어공학

Pole이 시간영역에서 미치는 영향

목차 왜 이 장에서는 시스템의 해가 지수함수의 꼴이며 이때 Pole값이 시간응답에 미치는 영향에 대해 알아본다. 시스템의 해 e^{st} 이유 시스템은 일반적으로 미분방정식으로 기술된다. a_2 \ddot{y} + a_1 \dot{y} + a_0 y = 0 이 미분방정식은 \ddot{y},\ \dot{y

Reinforcement Learning

Variation Inference(VI, ELBO)

Variation Inference(VI, ELBO) 복잡한 데이터를 이해하고싶어서 어떤 요인들이 관측값(데이터)들에 영향을 주는지 알고 싶다. 즉 우리가 보는 데이터가 왜 그렇게 나왔는지 숨은 원인을 알고 싶은 것. (데이터 x가 주어졌을때 숨은 요인 z가 어떻게 나오는지를 알고싶음 p(z|x)) 그런

AI/ Deep Learning

Action Chunking Transformer 역할

Compounding Error 로봇이 학습시에 전문가의 행동을 보고 배웠는데 실제 추론시에 본인이 전문가가 했던 행동과 약간만 벗어나도 이에 대한 학습데이터가 없기 때문에 그 다음 행동에서도 오차가 발생해서 점점 더 전문가의 행동과 벌어지는 행동을 하게되는 에러를 말한다. ACT(Action Chunk

AI/ Deep Learning

Knowledge Distillation

서론 지식 증류관련 논문을 읽다보면 Teacher-Student를 같이 학습하는 경우가 있고, Teacher를 먼저 학습하고 Student를 학습하는 경우가 있다. 어떤 경우에는 같이 학습하는지 그리고 어떤 경우에는 선행 학습 후 전이가 이뤄지는지 고민하여 찾아본 결과에 대해 작성한다. 목차 방법 A:

AI/ Deep Learning

DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image 논문리뷰

RGB 좌표계에 맞추는 캘리 방법함. Zone 내부의 위치가 이미지상에서 어느 픽셀에 해당하는지 정확히 알 수 없으나 그 위치의 깊이가 L5가 반환한 해당 Zone의 분포의 평균값 mk와 같은 지점인 xk, yk 인 점이 반드시 존재한다는 것을 관찰함 기존에는 이미지의 특징이나 댑스, 포인트 클라우드와

AI/ Deep Learning

MonoLift: Learning 3D Manipulation Policies from Monocular RGB via Distillation

서론 이 논문은 단일 RGB 이미지(Monocular RGB)만으로 3D 로봇 조작 정책을 학습하는 MonoLift framework를 제안한다. 기존 RGB-D, multi-view, point cloud 기반 방법은 3D 정보를 잘 활용할 수 있지만, 추가 센서와 전처리 비용이 크다. 반대로 RGB-

Explore

Browse by topic

AI/ Deep Learning46 notes Kubernetes39 notes Coding Test20 notes Application16 notes Python12 notes Reinforcement Learning9 notes C/ C++9 notes Tools8 notes ONNX-MLIR6 notes Robotics2 notes

167notes

10topics

2026년 7월 27일updated

Everything is atrade-off relationship.

Recent

IsaacSim/Lab architecture

EM 알고리즘 (작성중)

[2차시] Average Reward

[3차시] Markov Decision Process

[1차시] Markov process

Z-transform

Pole이 시간영역에서 미치는 영향

Variation Inference(VI, ELBO)

Action Chunking Transformer 역할

Knowledge Distillation

DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image 논문리뷰

MonoLift: Learning 3D Manipulation Policies from Monocular RGB via Distillation

Browse by topic

Everything is a
trade-off relationship.