DELTAR: Depth Estimation from a Light-weight ToF Sensor and RGB Image 논문리뷰
RGB 좌표계에 맞추는 캘리 방법함. Zone 내부의 위치가 이미지상에서 어느 픽셀에 해당하는지 정확히 알 수 없으나 그 위치의 깊이가 L5가 반환한 해당 Zone의 분포의 평균값 mk와 같은 지점인 xk, yk 인 점이 반드시 존재한다는 것을 관찰함 기존에는 이미지의 특징이나 댑스, 포인트 클라우드와
MonoLift: Learning 3D Manipulation Policies from Monocular RGB via Distillation
서론 이 논문은 단일 RGB 이미지(Monocular RGB)만으로 3D 로봇 조작 정책을 학습하는 MonoLift framework를 제안한다. 기존 RGB-D, multi-view, point cloud 기반 방법은 3D 정보를 잘 활용할 수 있지만, 추가 센서와 전처리 비용이 크다. 반대로 RGB-
Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation 논문리뷰
서론 이 논문은 기존 2D LiDAR 기반 이동 로봇 내비게이션의 한계를 해결하기 위해, Monocular Depth Estimation(MDE) 기반 Teacher-Student framework를 제안한다. Teacher policy는 시뮬레이션에서 2D LiDAR와 로봇 자기 상태 정보를 입력으로
(VLA) NaVILA 논문리뷰
Cite Anthony Brohan, Noah Brown, Justice Carbajal, Chelsea Finn, Sergey Levine, et al.; arXiv preprint arXiv:2307.15818 [cs.RO] https://navila-bot.github.io/static/navila
RT-2(Robotics Transformer-2) 논문리뷰
Cite An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Zaitian Gongye, Xueyan Zou, Jan Kautz, Erdem Bıyık, Hongxu Yin, Sifei Liu, Xiaolong Wang; arXiv preprint arXiv:2412.04453
RT-1(Robotics Transformer-1) 논문리뷰
Cite Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, et al.; arXiv preprint arXiv:2212.06817 [cs.RO] https://arxiv.org/pdf/2212.06817 출간일: 2022. 12. 13 저널:
ConvNextv2 논문리뷰
Cite ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoEncoders Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xi
SimCLR 논문 리뷰
Cite A Simple Framework for Contrastive Learning of Visual Representations 저자: Ting Chen 1 Simon Kornblith 1 Mohammad Norouzi 1 Geoffrey Hinton 출간일: 2020년 2월 13일 인용횟수: 20
Towards Total Recall in Industrial Anomaly Detection 논문리뷰
Cite Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler; arXiv preprint arXiv:2106.08265, 2022. https://arxiv.org/abs/2106.08265 출간
DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection 논문리뷰
Cite Hui Zhang1,2 Zheng Wang3 Zuxuan Wu1,2 Yu-Gang Jiang1,2; arXiv preprint arXiv:2303.08730 https://arxiv.org/pdf/2407.09359 출간일: 2024. 07. 12 Abstract Unsupervised Abno
GLASS 논문리뷰
Cite Hui Zhang, Zheng Wang, Zuxuan Wu, Yu-Gang Jiang; arXiv preprint arXiv:2303.08730, 2023. https://arxiv.org/abs/2303.08730 출간일: 2023. 03. 15 목차 Abstract Introduction P
DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection 코드 리뷰
서론 DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection 모델 코드에 대해 리뷰한다. 목차 코드 리뷰 Dependency 아래는 코드는 필요한 모듈을 import한다. learn_rate값을 가져오
DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection 논문 리뷰
서론 Vitjan Zavrtanik, Matej Kristan, Danijel Skočaj; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 1-10. DRÆM – A Discrim
DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection 논문 전체 번역
서론 Vitjan Zavrtanik, Matej Kristan, Danijel Skočaj; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 1-10. DRÆM – A Discrim
InceptionNet 논문 리뷰 및 코드 분석
서론 Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich; Proceedings of the IEEE
DenseNet 논문리뷰
서론 Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 47
ShuffleNetV1 코드리뷰
서론 이 장은 ShuffleNetV1에 대해서 코드를 리뷰한다. 목차 Parameter first_conv features ShuffleV1Block branch_main_1 branch_main_2 forward torch.cat Channel Shuffle shape (h, w, c) (h, w, c
ShuffleNetV1 논문리뷰
서론 Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, Jian Sun; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 6848-6856, 2017 Shuf
ResNet 논문리뷰
서론 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun; "Deep Residual Learning for Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Re
MobileNetV2 논문리뷰
서론 Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 20
Stride & Pooling 장/단점
서론 Convolutional Neural Network(CNN)에서 해상도(resolution)을 줄이는 방법에는 주로 두 가지가 있다. 하나는 stride가 2인 convolution을 사용하는 것이고, 다른 하나는 max/average pooling을 사용하는 것이다. 이 장은 이 장은 Stride
ResNet50 코드리뷰
서론 이 장은 ResNet50 모델의 코드를 리뷰한다. 사전지식으로는 pytorch에서 torch.Size([1, 64, 56, 56])와 같은 형태를 사용하는데 이 의미는 batch=1, channels=64, output_featuremap_height=56, output_featuremap_widt
MobileNetV2 코드리뷰
서론 이 장은 MobileNetV2 모델의 코드를 리뷰한다. 목차 _make_divisible() MobileNetV2 Conclusion _make_divisible() 위 함수는 주어진 숫자를 특정 수로 나눌 수 있는 가장 가까운 수로 바꾸는 역할을 합니다. 이 함수는 모델의 계층에서 채널 수가 특정
What is Auto Encoder?
서론 이 장은 Auto Encoder와 Variational Auto Encoder에 대해서 설명한다. 목차 Auto Encoder Auto-Encoder는 기본적으로 데이터를 압축하고 복원하는 모델로 입력 데이터를 저차원 공간으로 압축(Encoding)하고, 압축된 저차원 데이터를 다시 원본 데이터로
Convolution에 대한 이해 + VGG
서론 이 장은 Convolution의 연산방식과 Depthwise Convolution, Grouped Convolution의 특징에 대해 알아본다. 또한 Convolution을 바탕으로 다양한 모델들이 등장하게 되는데, VGG, AlexNet, MobileNetV1, 2, ResNet들의 특징을 간략하
Swin Transformer 코드리뷰
서론 이 장은 Microsoft사의 Swin Transformer의 코드에 대해 설명한다. 목차 전반적인 구조 Patch Embed Dropout BasicLayer(nn.ModuleList) Swin Transformer Block window_partion torch.roll torch.roll sa
CNN Translation Equivariance & Invariance
서론 이 장은 CNN의 특성인 Translation Equivariance와 Translation Invariance에 대해 설명한다. 목차 Translation Equivariance/ Invariance Translation Equivariance Translation Invariance Exampl
ConvNeXtV1 논문리뷰
서론 이 장은 ConvNet의 장점을 유지하면서 backbone의 ResNet을 개선한 모델인 ConvNeXt에 대해서 소개한다. 목차 Training Techniques Modernizing a ConvNet: a Roadmap Macro Design (1) Changing stage compute r
Swin Transformer : Hierarchical Vision Transformer using Shifted Windows 논문 리뷰
서론 이 장은 ViT를 다양한 Task(Obejct Detection, Segmenation)에 적용한 모델인 Microsoft의 Swin Transformer에 대해 설명한다. 목차 Dataset ViT 한계 Herarchical Feature Map Local window Model Architect
ViT 논문리뷰
서론 이 장은 NLP에서 사용되던 Transformer에서 self-attention기반의 아키텍처가 Vision Task에 적용한 Vision Transformer에 대해 설명한다. 본 논문에서 ViT는 CNN보다 데이터셋의 갯수가 적을경우 Inductive Bias학습이 어려워 일반화가 어렵다는 단점
CLIP 논문리뷰
서론 이 장은 Open Ai에서 발표한 CLIP논문 에 대해 설명한다. 목차 CLIP (contrastiv Language-Image Pre-Training) Data Data Advantage of using Image-Text pair on Web Based Contrastive Pre-Trainin
Word Embedding(Word2Vec, FastText)
서론 이 장은 문장을 구성하는 단어들이 어떻게 DeepLearning에 표현되어 적용되는지에 대한 방법(Sparse Representation, Dense Representation)과 학습하는 알고리즘(Word2Vec, FastText)을 다룬다. 목차 Feature Representation Exam