デプロイメント
デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。
注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。
デプロイ可能なONNXモデルを作成する
量子化とコンパイルのジョブ後のONNXグラフ: AI Hubでの量子化とコンパイルジョブの組み合わせにより、edge-centricの量子化表現を持つONNXグラフが生成され、エッジはフェイク量子化(Q + DQ)を通過します。すべての重みはfp32で保持され、すべてのopsはfp32で動作します。
If desired, you can transform the ONNX graph into an op-centric quantized representation that has a one-to-one mapping with a QOp representation. The benefit of QDQ over QOp, is that only two additional ops (Q, DQ) are needed in the opset to represent a fully quantized graph. The weights are stored as quantized values. This reduces the model size and also contributes to a cleaner mapping to QOp.
このデプロイ可能なアセットを作成するには:
AI Hubからターゲットモデルをダウンロードします。
ダウンロードしたモデルにこの スクリプト を実行します。
If desired, upload and profile this updated model.
Qualcomm® AI Hub アプリ
このプロセスは学習曲線が急で、難しい場合があります。開始を支援するために、サンプルアプリとチュートリアルのリポジトリを提供しています: