デプロイメント

デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。

注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。

デプロイ可能なONNXモデルを作成する

量子化とコンパイルのジョブ後のONNXグラフ: AI Hubでの量子化とコンパイルジョブの組み合わせにより、edge-centricの量子化表現を持つONNXグラフが生成され、エッジはフェイク量子化(Q + DQ)を通過します。すべての重みはfp32で保持され、すべてのopsはfp32で動作します。

If desired, you can transform the ONNX graph into an op-centric quantized representation that has a one-to-one mapping with a QOp representation. The benefit of QDQ over QOp, is that only two additional ops (Q, DQ) are needed in the opset to represent a fully quantized graph. The weights are stored as quantized values. This reduces the model size and also contributes to a cleaner mapping to QOp.

このデプロイ可能なアセットを作成するには:

  • AI Hubからターゲットモデルをダウンロードします。

  • ダウンロードしたモデルにこの スクリプト を実行します。

  • If desired, upload and profile this updated model.

Qualcomm® AI Hub アプリ

このプロセスは学習曲線が急で、難しい場合があります。開始を支援するために、サンプルアプリとチュートリアルのリポジトリを提供しています: