Jetson Nano XT1에서 TensorRT로 MobileNetV2 Inference 해보기

서론

Jetson Nano에서 MobileNetV2의 GPU가속을 사용한 성능을 비교 측정하기 위해 TensorRT를 사용한다. 그리고 Inference time을 측정하기 위한 환경셋팅과 방법을 소개한다. 중요한 것은

사용한 보드는 JetsonNano XT1이다.

$ sudo apt-get update

# install prerequisites
$ sudo apt-get install libhdf5-serial-dev hdf5-tools libhdf5-dev zlib1g-dev zip libjpeg8-dev liblapack-dev libblas-dev gfortran

# install and upgrade pip3
$ sudo apt-get install python3-pip
$ sudo pip3 install -U pip testresources setuptools==49.6.0

# install the following python packages
$ sudo pip3 install -U numpy==1.19.4 future==0.18.2 mock==3.0.5 h5py==2.10.0 keras_preprocessing==1.1.1 keras_applications==1.0.8 gast==0.2.2 futures protobuf pybind11

# or install the latest version of TensorFlow (2.x) for JetPack 4.6:
$ sudo pip3 install --pre --extra-index-url https://developer.download.nvidia.com/compute/redist/jp/v46 tensorflow

https://elinux.org/Jetson_Zoo

Install VScode

다음에는 VSCODE를 설치하자.

아래 링크에 들어가서 .deb로 된 파일을 다운받자

https://code.visualstudio.com/Download

아래 명렁어로 vscode를 설치한다.

jet@jet-desktop:~$ cd Donwloads
jet@jet-desktop:~$ sudo dpkg -i fileName.deb

Install PyCuda

그리고 파이썬에서 CUDA를 사용하기 위해 PyCuda를 설치해야 한다.

주의! 환경변수 등록을 미리 하지않으면 pycuda설치시 아래 사진처럼 오류가 발생한다.

Error

cuda폴더와 cuda-설치버전의 위치를 확인한다.

나의 경우는 cuda-10.2다. 아래 명령어를 입력하자

jet@jet-desktop:~$ vim ~/.bashrc

맨 밑으로 가서 a를 눌러주고 아래 두 줄을 입력한다.

export PATH="/usr/local/cuda-10.2/bin:$PATH"
export LD_LIBRARY_PATH="/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH"

esc :wq! 로 저장하고 나오자. 환경변수 설정이 잘 되었는지 확인하기 위해 아래 명령어를 입력하자

jet@jet-desktop:~$ source ~/.bashrc
jet@jet-desktop:~$ nvcc --version

위와 같이 잘 나온다면 pycuda를 설치한다.

jet@jet-desktop:~$ python3 -m pip install pycuda

그래도 에러가 난다면 아래 파일을 다운받고 아래 명령어로 직접 설치하면 설치가 될 것이다.

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/258a7d08-b167-4330-a985-de3442719b61/pycuda-2019.1.2.tar.gz?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466ZR255CVW%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164456Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJHMEUCIHpRFGCKAwGhj0tIRbDpCr9Qa2EvZrFqf4D1FyNwao5jAiEAsoTlhAB44D4eO7pQ2nXRBCIRznuVxuutbyJuMM2RcZIq%2FwMIRxAAGgw2Mzc0MjMxODM4MDUiDEO0UciYkPOVAUvDlyrcA5FZSRJL2RdFhb0LZdAsmYrllUO9%2ByUB9lPkITAEsmIPBJcQythGRu1VaaXRf0nAS1vw6ru8zt%2FZgMDyZOtkYkA%2Bns3CjKpJbo6AzUtCfYS0DiX1WG3NMTJgJG%2BWwBMpSyLXtDXAYXUMJAJUoKKvyzXmnjgmcSXq5iXFOT2MbW7MKqo%2FfYnP3JY7U7hGpKzdPe5LQS0CRD1%2BB5zOmrHFmfoPC%2BRgGu75mI3XVJFZ%2B11wHRtLmEoVi3k85MlAatWJ4HFtD1t%2FykiM7wmiSwKtCCC%2B06ErQyaNTfGh4%2BhC6VqRRIIeFHO633tRsBdg0ssUUmwq748fe1cN2Z9bvz4EYMOyupctTsWYNFnm9kZvSL3ami4QnjKoCorRhiK4xHK7Rz7ukwUSGTLtfNMBMM44OIRs2M7faNBBX5zEa1VX4speG55qeFyXrAWLTO%2BHvZA5ekYDpiokHVqpZ8iL%2FU2itcp%2BxuSh2QyqC%2BvvwkAqMAWudc6B%2BjnWKH6xUMlmeGzkTpsL9qn5ErbbtubNFDpFtywdjaBWEowv7LseLDf1Rhgn4%2BcTFrbX0%2FYqt8kowyBWcaTMbX2%2FdAGQMmfWboXGTvG1g96ewh6joflmF6g3C7fnzQ09qv2ppDQvrU4uMNXA49IGOqUBicJMAEhLx1%2BG%2Fr1yt9xhhJ9vAOBSs4J5d7wd7JB%2FAWEEv9ur%2F%2Fhcs5hJ9tEYU2upQ%2FeJ4%2FeHzkfCYvRNhuZY0XF50l%2FKsFDY9g2iiuHw1s0ZK4CjyxiDVJczAfNV13Ggz0sDTE1qj5nDcFaqC7IRtWEqUFaVyUey%2BZdvjF%2B7i6Su1t4ry7LvvWA7c92v7znTFcTpgCS4YpGbjrxDvEH1slT6j0wQ&X-Amz-Signature=85705658c96f3c883fd82dafe39e57fe0886a03c827d4b24a6967f424fb970dc&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

jet@jet-desktop:~$ cd Downloads
jet@jet-desktop:~$ tar -xvf pycuda-2019.1.2.tar.gz
jet@jet-desktop:~$ cd pycuda-2019.1.2
jet@jet-desktop:~$ python3 configure.py --cuda-root=/usr/local/cuda-10.2
jet@jet-desktop:~$ python3 setup.py install

4. TF Lite Inference

Jetson에서 TFlite 포멧의 모델을 돌려볼 수 있다. 하지만 CPU만 사용해 추론한다고 한다.

TFlite는 모바일용에 최적화된 포멧으로 Nvidia의 GPU(cuda)를 사용하지 않는다.

따라서 TFlite로 GPU를 할당해 추론하는 것은 불가능하다.

TF에서는 공식적으로 지원해주지 않지만 GPU delegates를 통해 가능하다고 한다. (성능이 CPU보다 약간 떨어진다고 한다.)

TensorFlow Lite would never meet a CUDA GPU. Hence, it does not support CUDA or cuDNN. The final performance is a bit less than using the quad-core CPU alone. It probably has to do with the fact that TensorFlow Lite actually transfers all calculations to the GPU. There is no balanced mix between GPU and CPU, as found in ncnn, MNN or Paddle Lite. There are even certain operations the GPU delegate can't execute. For instance, an operation like Concatenation or Logistic found in MobileNetV1.

https://qengineering.eu/install-tensorflow-2-lite-on-jetson-nano.html

TF Lite Inference 코드

Code

#code

5. About TensorRT

TensorRT는 Nvidia GPU를 사용해 딥러닝 모델을 추론하는 과정에서 대기시간을 최소화하고 처리량을 극대화 할 수 있도록 도와주는 framework.

TRT(TensorRT)와 TF-TRT(Tensorflow+ TensorRT)를 구분하자.

TRT는 모델을 TRT로 변환하는 과정에서 모든 레이어를 최적화 해야만 Output을 내며 TF-TRT는 최적화 할 수 있는 부분만 부분적으로 최적화한다.

6. Convert to TensorRT

ONNX, UFF, Caffe Model을 trtexec를 사용해 TRT로 변환이 가능하며 나는 ONNX를 사용했다.

사용한 모델 : MoibleNetV2-12.ONNX

Quantization : int8

Calibration을 적용했다. 첨부 파일은 Calibration Data다.

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/38c61fd2-bec2-4148-bfd7-6368ce17653d/imagenet-sample-images-master.7z?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4665P6FRXZY%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164501Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJHMEUCIBpozhi2%2BHE148BgFK6T9NKx17WIeaY952M4ylRcDyb7AiEAz2WgaWLBpDn5LT2bSXm94KS6F0LHp5cVavPqKBlMtD4q%2FwMIRxAAGgw2Mzc0MjMxODM4MDUiDIEkqwD4WqDjPOOCvircAz09vW0espd8ejhBfW%2BIm6uYRbMvT%2BGM%2BW%2BZZGl%2BA5Kgqoahpay5eBnQ3EGmj6ng7%2FMRGHyqJ9GqWr41mL6m%2BuPWtSEfwhXFitGU4ygoxQbOdbJOcrlVJ%2FhXxvDhpEGMidLjO%2FJ2fGs9jkVq74A4JajlvBtZvgu6zihMglbizrPG2Is36PmPwMh9GUs2uOCcvhWB4FrEBzp8PrJR%2FyfupRxn%2B77c8Dvjy5Qm2vNQllH7TyZgFptdwGzQxi2xw8TELHHTPUw774s8PxCjLuMzpOZbKfVWlbuybinp6sDc3aWEi620oGgivsBoTYraEJDRi%2BufG42iuAnWMUGRUwENbZRIZegx2cFgqqQaFJAi%2Bq5VhqgtLnfcGkjpU8FP5PmHg%2F%2BOrWQR0%2FM6RQIxeNThhiBkia6k5KWDqvLL%2FS4vug1FqEAhlVe1hl56X7CcW8wKzTfC%2BC3oJO8qp9rC9I1LhSBiIxpZkW3c4ACBmMlsXOPBvqHZpdA7FIa4Ry3SJZfiV%2BmGQTPI%2BVQaIWc0XVX2eJuDF10KM4eV3NexpJUtatnEK6XpCbKZlHDwNGyhHZVCTvm%2F5PUEiWnf33RYJCnJ91DnHv0WQ4acDJyhe1Oz2gdxyW3cpw4n%2BD8I7mHMMPPA49IGOqUBX1KokRtwxHxW1tfWXk60G%2BXx7w%2FyxLXe2j7txRZ28MEBtgtS9Ik33LSLvzbd%2FjtQHXxJz%2F6hVXPLqyfZ624Jjj%2FTCAud7s1sVra6su%2BFQVUa3cc%2Bnow8sR3qnreJD%2FwSWEaagaGxRAD8aiFmqSbiZrOkZ%2FahF8WreffPNqgBhl9bUjSJIpDAH5l1Jp3kiFCsQrOX970a86nBwEeVhz%2F6KyMjIy1R&X-Amz-Signature=ee20bdce821c0031c8442253679947cf97260f1876d45b1218b436ba4b15710b&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

PASSED가 뜨면 모든 정상적으로 잘 변환이 됐다는 뜻이다.

변환할 때 옵션을 참고하자

$ /usr/src/tensorrt/bin/trtexec --saveEngine=/home/(user_name)/Desktop/(folder_name)/mobilenetv2-12_uint8.engine --onnx=/home/(user_name)/Desktop/(folder_name)/model.onnx --int8 --calib=/home/(user_name)/Desktop/(folder_name)/cali/*
또는
$./trtexec --saveEngine=/home/(user_name)/Desktop/(folder_name)/mobilenetv2-12_uint8.engine --onnx=/home/(user_name)/Desktop/(folder_name)/model.onnx --int8 --calib=/home/(user_name)/Desktop/(folder_name)/cali/*

OPTION

RESULT

Download TensorRT Engine

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/afa330e4-521a-44a9-b5df-b49468855e08/mobilenetv2-12_uint8.engine?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4665WG76R52%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164503Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJIMEYCIQC8xIeR%2BUk9Vud07xSiRND3jxJ%2BI88%2B3O%2Ft7PKoffEJnAIhAMogTHoMI7Oc98myKK%2F0KBqI1vT%2FjxUuqYOf3s1EQkO0Kv8DCEcQABoMNjM3NDIzMTgzODA1Igwae21pP%2F16IluPYJwq3AN%2BR2UUyrCmIsXJDhdlmgBGttZPWGQ3w82PGxer7cK6Oqpm0UvluTKCxyiV%2FmosP034BDTvExhd2pFo06uu35FCF9ufpGteomJ7BelsPCGEPeoxyju5dglPCDq%2F9rPXxluEecAYEDeKlQsGeGMwd7dvHTejD4%2BpHnnQKxSsPFq6aCBQ4M8tuqBTRFf%2Bg37ygFCSg9Wk0yIYxrcGHcwo2cSWJB%2FbJHpVolimjEVYryzBrGIrJklmMDhxjpSNvdb3FmXTccH4c6zlXoaBzUVz0vZdfbUUEI0O92qfTpvGSQwiboGM2fII%2FXuisdIAXBAeCblmMWb7NTbumHZMWRVrIzd53T9Gn9k5Cib1us1GKFBu8SuzeS4fKzegz6qYSg9trUId3ktb1ApQTKuROnthfMiZ4TnnFhNxEoHxv476%2B3nHqMRRtfs7Gx0zGPDE32YnhXCXzHTSNAJgNA9wXUJdmwRsG71b2uYBCs3jy5BtahiJ6%2B%2FTtRRtZSMlLwDMAkSC6ruliDll7XkZ7m%2BY0rtjad2j%2Br1Z8MtgLGdJz37JbSswI7HVZ%2Bd43aN2DF%2BvQZWpI2ZmwnLhbGpb%2BeBwKl3ZXqIuSssrwqFpcltb37PSThG73xEIWcLvygvPN16LzzDxw%2BPSBjqkAb3uxtbSc3IYVyIrsbayl2Wps7UVyX0uqBOaxWjx1btqB2xRqC%2BV%2BeCKfDke%2BImlxta%2BPJYbJ%2BXoHkJJ3fUR8jJcSatkg1w%2B%2B1FEcztl1jTwtz6AaDbSgXcm1CBrg1nzfFc6Lv09Lhf7ZWgR7FbJgvrC2FOp1QjsAXqYYMvbgSQVbNAcRPl1ptpEzNxtRuoYELQD%2BTmY3IyILr06oTn%2FXwiuOYVu&X-Amz-Signature=af7fd721ebce2ec4c39ec25241999b47308d152b17cab2fe374c789581f9a447&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

7. TensorRT Inference

아래 두 코드는 MobileNetV2-12.ONNX → TRT포멧으로 변경하고 Inference하는 코드다.

MoibleNetV2의 이미지 전처리는 아래 Pytorch 홈페이지에서 확인해 OpenCV로 구현했다.

https://pytorch.org/hub/pytorch_vision_mobilenet_v2/

Image, label, ImageNet Data set 113 class을 다운받자

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/6e17bf6e-6678-4184-a9e7-50e165c0aecf/parrot.jpg?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466VD77DOWJ%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164503Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJHMEUCIQC9bvlAkcoGgjYHFH9IwxCASWW9IJPOk%2FjDVGVRGkTiAwIgB%2FxBLkh%2F5o%2FZA2%2FvvDuNZa4CKCJzdYf70B8h4fFxBH0q%2FwMIRxAAGgw2Mzc0MjMxODM4MDUiDMdErrMHM%2FwV%2FrsUVircA8WJ5sFsaw92fFuMb8QREheqokLrkMQkG9%2BEF3qyrrFGqUmuRPBs5O1HPaBin%2F1AP1aFZlVB7PvbC423Iq0UzhK8NS%2BKcgIvS%2Bkf%2Bm7twGcyfRg%2FXUmtsmrWCU%2FTjg%2FBc9vID%2BSJI9UJu0Sb%2BhWXGDH7AxFHmXpgZJ5xKwLupuyCL%2FvTJRn6Jqa7%2BTe%2F8BIBWk4mmSfPo4oQ7gsYQ7%2FpEtMQkyLjTg8SF36O7MGzJ6mzdyLcUSf9BvvZllrFFuqwtadtb6y%2BVpaKRKRrglxmPXU372z9fRFm9aah6oZqgBd3lxi8YnMrw6rGPd7EjmCGf24854PnNBMuytFmMwOOwSHZnzirbN35yuJOSjQCzkW5CdZQSdM6WRoED2aubKL7AK6rgdDJZQt8IZze5U2MEur599uGxIwjBNY02o7YH%2B2dF7L9qBtvPNzRNJeO9vZEFnuusx%2BmRHeBA%2FVRTTTq%2FocGPKH6IueavrYG8gCuCXqks%2BaaoRE6bJh5agpcgFcfiO4gtDYqlCm9sM5XjdPbZpXMmf73jo%2Fa1nu2evV64vCUw3nbf63F35ERrThwHxJyte%2BzfzmF6JWaqUo8D3iSHv8DXGpwkg3NPCncj2kNnO0UxVZ8X5o7v8lA%2B3bmMJHD49IGOqUBmbNnvRHzGyG6DgTigITybD1pGpPFhmiTMBQQnt%2BYjoGRH2CQDbDQYi9rmRhOQC7Soye%2BafCpVcBwPZOCMBpdHlMStcneGSd2Y5Qxg8Fx9mCGJxijM73h8WWKnKqo6UaO%2FEIm9idBa0wj4caf490DkPOFLcDvM9NinJnbHJ75cfDr4YynogFKpU7S64sNMN0ydpN5HDxJ04xVd%2BNTs0EFoXRJ1GEJ&X-Amz-Signature=1ef4eb8b3bffcab2d01f52dd5a955eddcb503de95a2ff0c1fa2ad8a8f45d5f12&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/167ce325-9e53-434c-a8bb-6f65b765becd/imagenet_classes.txt?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UBZLWMRM%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164503Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJIMEYCIQCu4SAIvKV2NOF17pQO%2Ff%2BbCYg4SxsHZi6w%2F2Rgau%2FYCQIhAIiMZCAETXFuGsIhasqWCekCy3tvKmKZ3%2BeqCo6uoWIrKv8DCEcQABoMNjM3NDIzMTgzODA1Igyrc4tRh5Q%2BFvYgc7Qq3APDBRA6kOawI6Dchm8KrAt%2FRmvsx4abfofn2acG8Ki6kNX2PYCQvBZrUhgxqxVkSQoMSBNHEuC4wD8TMukLE1Swry59akJXmLLGHOtBlYxhbjMir2UjsspObzewfyVliHLIR6oT3pWeenbmclGmUJJzfEs4Ber3ESOZ3U7CQFPfnJHgUWnuq95cI0vGQexzQ7ZZgaYTBiF9%2FU4COChBG0jY89JcWIj1pLFISl186oHRwiR63XwWZoj1R5GL6e11Gr1mieU7DRNsrJ6rouVnZyROG1XIVeqB0MOuF1wPp9ZPZUn2yc5IA73Iki7el8RW4epnOZNLClamA0XLeYQsdcBWHSzYVaSmnaDz9%2FEq50DoLaIphySgfb6PHLp2vb7vCpast3IbBtGWRTNHwKwLHU7MEJQyviO%2B6%2F%2BLjLlMrkEjXYkEECThMi2AswclnCcGdja8HUmQZQJqPQwHvu6vXLB9EuwFvxpczSzhwWt0mS%2BtnpO93vKRwRaiXWxx93FFQFNrYt804uKC2DkWtVJ2avGwdb9CDclblowx%2Ft49IuEJgJB2F6nZwKhxaHfKiaiCHUQAr0CIivPF8h%2Fo9pFf8MMDO0smbsQWP1sgatDgOPpgz8THyLNCY12JHG6lqTD2wOPSBjqkAQhg7cd6RL1pZDedHqxvMtHStWhMHssjAimtfnmGhGh9Ws0LshPCTL%2FTf8I33GrW7n%2BkIA%2BrfrQvvheHWAaIvm%2Fq4kNY3tFXgxsDpo1kkdrAZxKJG0tJJehltQdrfnZhL8z61QfWv9mWSdsT9FVyq0z6fniJRn37N%2F95r80k3ZQtmlXc%2FbyIOraKMaN1maVKGqrYAwMazLxm87RDhSQpvBamCisJ&X-Amz-Signature=72dee1533a8160180b09dc6547903f8cf13c293a2dec7de1901bd8b532c6b02b&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/7af9312b-2ad6-4911-9390-cdc0aa44b977/113_data.7z?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4665BGNSVJA%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164504Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJHMEUCIBlIAqBi2vW94nUUKXAOY3ztxei%2BJUE3ai8eZfRlvxZTAiEA%2BggtvAaHTTSlnPso5GDUiBNbScBi%2FU4UjwiSWrdrWhEq%2FwMIRxAAGgw2Mzc0MjMxODM4MDUiDIQhPiQMHYOmSCF5%2FircAzVVV%2F%2BnueFlGQaiI4OUtlCW4kEJgXdFUnUClAfeIIIaKLRqVyXpN4cVMUK6OjfQJPHXvEOr%2B4r8uslYbbqjIgXn7or4nMQ%2B%2FSwK%2FJHY%2BLDnjTTrZfWmANWKBHAkwKMhcuNhQcsgInM3pOOlESC6650LywxxUWZpWyR3nlSPmuw5WjxqlPycjATVB0KlTRNxk7F0JYPdtFdFvtJx9cQ%2BwhdIhDAePl1zqBpUicTQbYMP3PIy8nZ0pvWYjaVlrzTC7xaHHwGhWh9YCfjnbXUMmqLU8ia6UB7vOMpz9jsDQIJf3TktrqhEzWHhTgw8ocVvq9Ij%2FrA%2F9OlmPCvkPLynRnVH03%2FXywJym6397I%2FyyoLz3Tr2SdSiaERh9vtTMn9L%2F76hXfUhiSynchk0SzjISpIFIPrKmdGRDYMN52%2FjPKBUGWXT6dEGLVhk72efErOG63UYqjJy2JMFcfSavv0LbVqWiWA3Dapx%2FVhGGRRTZflpySFWsPFeR%2B8VcZJBan%2BLvhLgdDZk%2B5LCUwKjqlAGCeTsniBl5FAq%2Fd66kf0HJqq7yUGPG0PUTKGGIpJMvPKbHHaV4SLrbI1aODb%2BpvJpDc9Esv1E8m6OooyJVD%2B2Bhxd88ZSXbHCs3sI7klcMMzD49IGOqUB0lVOOfA80H4HWxWTeagfOdTarRrvH39IlCbrZi01%2FkT0ZsoylvCQXYRAcReC6qEZhwt5a1aR1uEq6JokcYaaQuTbfVg4iHveO3CNO44Q1WMGNCNPo5o0zJDS3v6wsgIWwm4ICs3X1rM%2BMIrx5In0KvglbIMbXsBEy%2Fza34AAk2dr5iHU7G%2BvZtWVcvlS5acQIaRSIZ2CSEkUhm5Dp7e0Cj69zE%2BD&X-Amz-Signature=42a74799357299cd96a6ec7554394e306040a0f529c6009cb5ae9ddb1dd48372&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject

아래 블로그를 참조했으며 코드상 몇 가지 오류사항들이 있어서 수정, 보안했다.

저장한 TensorRT 파일을 읽어오기

import tensorrt as trt
import pycuda.driver as cuda

file_name = "your.engine" # your TRT File
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
trt_runtime = trt.Runtime(TRT_LOGGER)

with open(file_name, 'rb') as f :
    engine_data = f.read()
engine = trt_runtime.deserialize_cuda_engine(engine_data)

TensorRT의 Engine로부터 Stream으로 묶고 GPU에 할당하기

class HostDeviceMem(object) :
    def __init__(self, host_mem, device_mem) :
        self.host = host_mem
        self.device = device_mem
        
    def __str__(self) :
        return "Host:\n"+str(self.host)+"\nDevice:\n"+str(self.device)
    
    
    def __repr__(self) :
        return self.__str__()
    
inputs, outputs, bindings, stream = [] , [], [], []

for binding in engine :
    size = trt.volume(engine.get_binding_shape(binding))*engine.max_batch_size
    dtype = trt.nptype(engine.get_binding_dtype(binding))
    
    host_mem = cuda.pagelocked_empty(size, dtype)  #allocate host and device buffers
    device_mem = cuda.mem_alloc(host_mem.nbytes) 
    bindings.append(int(device_mem))  #Append the device buffer to device bindings.
    if engine.binding_is_input(binding) :  #Append to the appropriate list.
        inputs.append(HostDeviceMem(host_mem, device_mem))
    else :
        outputs.append(HostDeviceMem(host_mem, device_mem))
        
context = engine.create_execution_context()

Input을 TensorRT가 읽을 수 있는 데이터로 변환 후 넣어준다

input_data = np.zeros(shape=(1, 3, 224, 224), dtype=np.float32) # dummpy input

numpy_array_input = [input_data]
hosts = [input.host for input in inputs]
trt_types = [trt.int32]

for numpy_array, host, trt_types in zip(numpy_array_input, hosts, trt_types) :
    numpy_array = np.asarray(numpy_array).astype(trt.nptype(trt_types)).ravel()
    np.copyto(host, numpy_array)

Inference

def do_inference(context, bindings, inputs, outputs, stream):
    [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]
    context.execute_async_v2(bindings=bindings, stream_handle=stream.handle)
    [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]
    stream.synchronize()
    return [out.host for out in outputs]

trt_outputs = do_inference(
    context=context,
    bindings=bindings,
    inputs=inputs,
    outputs=outputs,
    stream=cuda.Stream()
)

print(trt_outputs[0])

전체 코드

단일 이미지 Inference Code

import cv2
import numpy as np
import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
import time

file_name = "your.engine" # your TRT File
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
trt_runtime = trt.Runtime(TRT_LOGGER)

with open(file_name, 'rb') as f :
    engine_data = f.read()
    
engine = trt_runtime.deserialize_cuda_engine(engine_data)

class HostDeviceMem(object) :
    def __init__(self, host_mem, device_mem) :
        self.host = host_mem
        self.device = device_mem
        
    def __str__(self) :
        return "Host:\n"+str(self.host)+"\nDevice:\n"+str(self.device)
    
    
    def __repr__(self) :
        return self.__str__()
    
inputs, outputs, bindings, stream = [] , [], [], []

for binding in engine :
    size = trt.volume(engine.get_binding_shape(binding))*engine.max_batch_size
    dtype = trt.nptype(engine.get_binding_dtype(binding))
    host_mem = cuda.pagelocked_empty(size, dtype)  #allocate host and device buffers.
    device_mem = cuda.mem_alloc(host_mem.nbytes)  #Append the device buffer to device bindings.
    bindings.append(int(device_mem))  #Append to the appropriate list.
    if engine.binding_is_input(binding) :
        inputs.append(HostDeviceMem(host_mem, device_mem))
    else :
        outputs.append(HostDeviceMem(host_mem, device_mem))
        
context = engine.create_execution_context()

with open("imagenet_classes.txt", "r") as f :
    categories = [s.strip() for s in f.readlines()]

#input_data = np.zeros(shape=(1, 3, 224, 224), dtype=np.float32) # dummpy input

img_path = "./parrot.jpg"
input_data = cv2.imread(img_path, cv2.IMREAD_COLOR)
input_data = cv2.cvtColor(input_data, cv2.COLOR_BGR2RGB)
input_data = cv2.resize(input_data, (256, 256), interpolation=cv2.INTER_AREA).astype(np.float32)
input_data = input_data[16:240, 16:240, :].copy() # 224, 224, 3

input_data = input_data.transpose([2, 0, 1])
mean = np.array([0.079, 0.005, 0]) + 0.406 # RGB
std = np.array([0.005, 0, 0.001]) + 0.224

for channel in range(input_data.shape[0]) :
    input_data[channel, :, :] = (input_data[channel,:,:]/255 - mean[channel]) / std[channel]
    
input_data = np.expand_dims(input_data, axis=0) # 1, 3, 224, 224

numpy_array_input = [input_data]

hosts = [input.host for input in inputs]
trt_types = [trt.int32]

for numpy_array, host, trt_types in zip(numpy_array_input, hosts, trt_types) :
    numpy_array = np.asarray(numpy_array).astype(trt.nptype(trt_types)).ravel()
    np.copyto(host, numpy_array)
    
    
def do_inference(context, bindings, inputs, outputs, stream):
    [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]
    context.execute_async_v2(bindings=bindings, stream_handle=stream.handle)
    [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]
    stream.synchronize()
    return [out.host for out in outputs]

def softmax(x) :
    e_x = np.exp(x-np.max(x))
    return e_x / e_x.sum()

start = time.perf_counter()
trt_outputs = do_inference(
    context=context,
    bindings=bindings,
    inputs=inputs,
    outputs=outputs,
    stream=cuda.Stream()
)
end = time.perf_counter()

print("done")

infer_time = (end - start)*1000 #ms

trt_outputs_softmax = softmax(trt_outputs[0])
top1 = np.argmax(trt_outputs_softmax)

result = categories[top1]
score = trt_outputs_softmax[top1]

print(f"{img_path},{result}, {score:.5f}, {infer_time:.1f}")

다수 이미지 Inference Code

import cv2
import numpy as np
import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
import os
import time
    
def softmax(x) :
    e_x = np.exp(x-np.max(x))
    return e_x / e_x.sum()

def do_inference(context, bindings, inputs, outputs, stream):
        [cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]
        context.execute_async_v2(bindings=bindings, stream_handle=stream.handle)
        [cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]
        stream.synchronize()
        return [out.host for out in outputs]


file_name = "mobilenetv2-12_uint8.engine"
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)
trt_runtime = trt.Runtime(TRT_LOGGER)

with open(file_name, 'rb') as f :
    engine_data = f.read()
    
engine = trt_runtime.deserialize_cuda_engine(engine_data)

class HostDeviceMem(object) :
    def __init__(self, host_mem, device_mem) :
        self.host = host_mem
        self.device = device_mem
        
    def __str__(self) :
        return "Host:\n"+str(self.host)+"\nDevice:\n"+str(self.device)
    
    
    def __repr__(self) :
        return self.__str__()
    
inputs, outputs, bindings, stream = [] , [], [], []

for binding in engine :
    size = trt.volume(engine.get_binding_shape(binding))*engine.max_batch_size
    dtype = trt.nptype(engine.get_binding_dtype(binding))
    #allocate host and device buffers
    host_mem = cuda.pagelocked_empty(size, dtype)
    device_mem = cuda.mem_alloc(host_mem.nbytes)
    
    # Append the device buffer to device bindings.
    bindings.append(int(device_mem))
    if engine.binding_is_input(binding) :
        inputs.append(HostDeviceMem(host_mem, device_mem))
    else :
        outputs.append(HostDeviceMem(host_mem, device_mem))
        
context = engine.create_execution_context()

with open("imagenet_classes.txt", "r") as f :
    categories = [s.strip() for s in f.readlines()]


file_path = "./113_data"

f = open("./mobileNet_data_uint8.csv","w")
f.write("imageName,class,score,inference_time\n")


total_image_list = [] 
for roots, dirs, files in os.walk(file_path) :
    for file in files :
        file_path = os.path.join(roots, file)
        total_image_list.append(file_path)
        
                   
for img_path in total_image_list :

    input_data = cv2.imread(img_path, cv2.IMREAD_COLOR)
    input_data = cv2.cvtColor(input_data, cv2.COLOR_BGR2RGB)
    input_data = cv2.resize(input_data, (256, 256), interpolation=cv2.INTER_AREA).astype(np.float32)
    
    input_data = input_data[16:240, 16:240, :].copy()
    
    input_data = input_data.transpose([2, 0, 1]) 
    mean = np.array([0.079, 0.005, 0]) + 0.406 # RGB
    std = np.array([0.005, 0, 0.001]) + 0.224

    for channel in range(input_data.shape[0]) : 
        input_data[channel, :, :] = (input_data[channel,:,:]/255 - mean[channel]) / std[channel]


    input_data = np.expand_dims(input_data, axis=0) # 1, 3, 224, 224

    numpy_array_input = [input_data]

    hosts = [input.host for input in inputs]
    trt_types = [trt.int32]

    for numpy_array, host, trt_types in zip(numpy_array_input, hosts, trt_types) :
        numpy_array = np.asarray(numpy_array).astype(trt.nptype(trt_types)).ravel()
        np.copyto(host, numpy_array)
        
    start = time.perf_counter()
    trt_outputs = do_inference(
        context=context,
        bindings=bindings,
        inputs=inputs,
        outputs=outputs,
        stream=cuda.Stream()
    )
    end = time.perf_counter()
    
    print("Done")

    ori = trt_outputs
    trt_outputs_softmax = softmax(trt_outputs[0])

    top1 = np.argmax(trt_outputs_softmax)
    
    result = categories[top1]
    score = trt_outputs_softmax[top1]
    infer_time = (end - start)*1000 #ms
    img_name = img_path.split("/")[-1]
    print(f"{img_name},{result}, {score:.5f}, {infer_time:.1f}")
    f.write(f"{img_name},{result},{score:.5f},{infer_time:.1f}ms\n")


f.close()

reference : https://blog.si-analytics.ai/33

8. Model Evaluate

아래는 다수의 이미지로 Inference한 결과 데이터다.

처음 Engine이 올라갈 때 시간이 걸리는 부분을 제외하고 100개만 산출했다. (ImageName, Class, Score, Inference_time)

113개의 Inference에 대한 평균 22.09ms 확인했다.

https://prod-files-secure.s3.us-west-2.amazonaws.com/2861f846-8c98-4301-9ec7-27b23866c687/e8b908c8-acf6-4b57-90f2-ba1b7d0efff4/jetson.csv?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB4662PEZ23KA%2F20260716%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20260716T164457Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEH4aCXVzLXdlc3QtMiJIMEYCIQDvjrZVsAFSp8ZpCT1JG3UrswhncafhQY%2F2USET4yOAqgIhAOSUr6jSLlBL0S7qPqqRtgvizLqlfDBrCiwvaHJ8ExbuKv8DCEcQABoMNjM3NDIzMTgzODA1IgxgmlsR4AC5eH7XEiEq3AOQuBWdYOqe8b0ePUkaXQqXBtetZCAuwh3Ua2d%2Bwqy6PpVJbH%2F9JgE566pnzrovwrCarFR33x%2BMMr3MLi32xzDaLRhXMD8EQUVnpHCoq6%2BbdUIxie85gi8Cr%2B9x5s9F5mad%2BMT%2FRq1dZjMB%2B4J7P1Dkprd6nI5TY0lwEgjYgBtkxn808W4D4of%2BgVkuqFeywuaFWm6Hpo54UHr9YpL%2Baz2U1TjshiJYvl%2BP3iUlQqfDmM86abbEy62PyNHELrd1EWCJFkt3985XLJPojoJGUorfv58DE8rOP9ahDI8Q8bDJs7AaCBnsE23IJ2Ef14Tl9ydNruMFoUWDOnZWyyYzWlrHZUkpoO6mUHVTkYeqyOZLnWmEVAdOspIZHFfLWjUkqRcN0pX1imSYcY%2BpG4DQkBcvhO1NPWzfMnUXTw1Uav60TJLZVTqM0t1hVKYLXvR2xGI4YbMUAMCnc96IJBrsKXiFXA38pB4zo6%2FFMwDRHMHgxqFpI9ZjzG8fifjjsoiLJcvZybmLJatcdTNNf0t47Go0Dxe6cqkJ6ZAgKU7K5LDJxs362brF%2FRRyKUsn%2FzQGcXLYjVInda2P98sdEN%2BMRLvsy2dsHK0hzfWkHHMzxzJp2XPqvJ8wiqg1woRGszDkwuPSBjqkARVFUfUjfpu8nU%2BPmc5%2BCJutDyRI6qshs9SR4YsbJ3%2BPlXEtbd0vjQ4ICQaK8zKDr8PxSkzEBo%2FixhPEzUs9xbRM5Q1jmu7kmA4%2FcA%2FN0%2BaUgcU0mmlsk79rxoWPHPXGn4wnJoV3wDtwvj7e5HiUpHOW0jHdz968ID7uIC8JEBjl%2BTuLZeooOdOrVkGmNtD6C8yV17vsWsmUwdg2YhtdlkGeKXQT&X-Amz-Signature=cbe584cd30e957c8f9228b418293bb89ef8cc947faf7f53c2ee45b337b5a0863&X-Amz-SignedHeaders=host&x-amz-checksum-mode=ENABLED&x-id=GetObject