デプロイメント

デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。

注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。

デプロイ可能なONNXモデルを作成する

量子化とコンパイルのジョブ後のONNXグラフ: AI Hubでの量子化とコンパイルジョブの組み合わせにより、edge-centricの量子化表現を持つONNXグラフが生成され、エッジはフェイク量子化(Q + DQ)を通過します。すべての重みはfp32で保持され、すべてのopsはfp32で動作します。

必要に応じて、ONNX グラフを QOp 表現と一対一で対応する、オペレーション中心の量子化表現に変換することができます。QOpに対するQDQの利点は、完全に量子化されたグラフを表現するために必要なopsが2つのops(Q、DQ)だけで済むことです。重みは量子化された値として保存されます。重みは量子化された値として保存され、モデルサイズの削減と QOp へのより明確なマッピングに貢献します。

このデプロイ可能なアセットを作成するには:

  • AI Hubからターゲットモデルをダウンロードします。

  • ダウンロードしたモデルにこの スクリプト を実行します。

  • 必要に応じて、この更新されたモデルをアップロードしてプロファイルしてください。

Qualcomm® AI Hub アプリ

このプロセスは学習曲線が急で、難しい場合があります。開始を支援するために、サンプルアプリとチュートリアルのリポジトリを提供しています: