デプロイメント
デプロイ可能なアセットがある場合、それをアプリケーションに統合したいかもしれません。このプロセスはターゲットランタイムに依存するため、そのドキュメントを参照してください。
注意: 量子化されたONNXモデルをデプロイするには、オンデバイスのパフォーマンスを向上させ、メモリフットプリントを削減するために、いくつかの追加手順を踏む必要があります。
デプロイ可能なONNXモデルを作成する
量子化とコンパイルのジョブ後のONNXグラフ: AI Hubでの量子化とコンパイルジョブの組み合わせにより、edge-centricの量子化表現を持つONNXグラフが生成され、エッジはフェイク量子化(Q + DQ)を通過します。すべての重みはfp32で保持され、すべてのopsはfp32で動作します。
必要に応じて、ONNX グラフを QOp 表現と一対一で対応する、オペレーション中心の量子化表現に変換することができます。QOpに対するQDQの利点は、完全に量子化されたグラフを表現するために必要なopsが2つのops(Q、DQ)だけで済むことです。重みは量子化された値として保存されます。重みは量子化された値として保存され、モデルサイズの削減と QOp へのより明確なマッピングに貢献します。
このデプロイ可能なアセットを作成するには:
AI Hubからターゲットモデルをダウンロードします。
ダウンロードしたモデルにこの スクリプト を実行します。
必要に応じて、この更新されたモデルをアップロードしてプロファイルしてください。
Qualcomm® AI Hub アプリ
このプロセスは学習曲線が急で、難しい場合があります。開始を支援するために、サンプルアプリとチュートリアルのリポジトリを提供しています: