部署

一旦你有了可部署的資產,你可能會想將其整合到應用程序中。這個過程將取決於目標runtime,因此請參考其文檔:

注意:部署量化的 ONNX 模型包括一些額外的步驟,必須遵循這些步驟以提高設備上的性能並減少記憶體用量。

創建可部署的 ONNX 模型

量化和編譯作業後的 ONNX 圖形結構:在 AI Hub 中,量化和編譯作業的組合產生了將邊緣參數量化的 ONNX 圖形結構,其中邊緣通過假量化(Q + DQ)。所有權重都保持在 fp32,所有操作都在 fp32 上運行。

如果需要,您可以將 ONNX 圖轉換為以操作為中心的量化表示,其與 QOp 表示具有一對一的對應關係。QDQ 相較於 QOp 的優勢在於,只需在 opset 中加入兩個額外的操作(Q 和 DQ),即可表示完整的量化圖。權重會以量化值儲存,這不僅減少了模型大小,也有助於更清晰地對應到 QOp。

要創建這個可部署的資產:

  • 從 AI Hub 下載目標模型。

  • 在下載的模型上運行這個 腳本 script

  • 如有需要,請上傳並分析這個更新後的模型。

Qualcomm® AI Hub 應用程序

這個過程可能會很艱難,學習曲線陡峭。為了幫助你入門,我們提供了一個示例應用程序和教程的存儲庫: