배포

배포 가능한 자산이 있으면 애플리케이션에 통합하고 싶을 수 있습니다. 이 프로세스는 대상 런타임에 따라 달라지므로 해당 설명서를 참조하세요.

참고: 양자화된 ONNX 모델을 배포하려면 장치 성능 향상 및 메모리 사용량 감소를 위해 몇 가지 추가 단계를 따라야 합니다.

배포 가능한 ONNX 모델 생성

양자화 및 컴파일 작업 후 ONNX 그래프: AI Hub에서 양자화 및 컴파일 작업을 결합하면 가장자리 중심의 양자화된 표현을 가진 ONNX 그래프가 생성됩니다. 여기서 가장자리는 가짜 양자화(Q + DQ)를 거칩니다. 모든 가중치는 fp32로 유지되며 모든 연산은 fp32로 작동합니다.

원하는 경우, ONNX 그래프를 QOp 표현과 일대일로 매핑되는 연산 중심의 양자화 표현으로 변환할 수 있습니다. QDQ가 QOp보다 가지는 장점은, 완전히 양자화된 그래프를 표현하기 위해 opset에 단 두 개의 추가 연산(Q, DQ)만 필요하다는 점입니다. 가중치는 양자화된 값으로 저장되며, 이는 모델 크기를 줄이고 QOp에 더 깔끔하게 매핑하는 데 기여합니다.

배포 가능한 자산을 만들려면:

AI Hub에서 대상 모델을 다운로드하세요.
다운로드한 모델에서 이 스크립트 를 실행합니다.
원하는 경우, 이 업데이트된 모델을 업로드하고 프로파일링하세요.

Qualcomm® AI Hub 앱들

이 과정은 난이도가 급하게 높아져서 벅찰 수 있습니다. 시작을 돕기 위해 샘플 앱과 튜토리얼 저장소를 제공합니다:

퀄컴® AI허브 앱들