發布說明

Released Aug 22, 2025

  • We've migrated to a new single sign on (SSO) provider. There should be no disruption to users. If you hit any issues, please try re-logging in and let us know if there is any unexpected behaviour.

  • Upgraded to QAIRT 2.37.0, aimet_onnx 2.12.0.

  • Downloading models directly to memory has been deprecated. A warning has been added to the client and documentation accordingly. Please download source model to file via model = compile_job.download_target_model("model_filename"). The filename is required.

  • Client API get_jobs which has been deprecated for some time, has officially been removed. Please use get_job_summaries instead.

Released Aug 11, 2025

  • AI Hub 現已全面支援 DLC!因此,我們將停止產生 .so 模型庫檔案。DLC 檔案已證明在相同情境下 (例如針對 AArch64 Android) 非常適用,且更具可靠性。因此,AI Hub 即日起不再支援或維護 .so 檔案的產生,並將在約 6 週後移除。若要產生 .bin 檔案,現在將透過 .dlc 進行。產生 .bin (--qnn_context_binary) 與 .dlc (--qnn_dlc) 的執行選項,以及其他執行選項皆維持不變!已淘汰的選項 --qnn_bin_conversion_via_model_library 仍可用於透過 .so 模型產生 .bin 檔案。連結作業現在需輸入 (一個或多個) .dlc 檔案,以及一個或多個裝置。舊式的 .bin 模型連結方式將被淘汰。此外,--target_runtime qnn_lib_aarch64_android 也將被淘汰。

  • 升級至 QAIRT 2.36(2.36.4),現為預設版本。目前 Hub 支援 2.33.2、2.34.2 和 2.36.4。

  • 針對因 QNN Context Binary 產生失敗導致的編譯作業驗證錯誤,改善了錯誤訊息。訊息中會包含  <failed op_name>: <op_type>: <root-cause of failure> (若適用)。

  • 在我們的文件中新增了常見 ONNX 執行時錯誤,請參閱  FAQ

  • 特定失敗作業的錯誤訊息現在會包含指引,提示使用者查看執行時日誌以獲得更多資訊(若適用)。

  • 請注意,我們不再在使用 ONNX Runtime 的分析/推論作業之前於流程中量化權重。此變更是為了支援未來的功能強化,並讓我們的效能測量更容易重現。

2025年7月28日發布

  • 我們在 Quantize Job 中升級至 AIMET-ONNX 2.10.0。

  • 我們的文件(https://app.aihub.qualcomm.com/docs/)現在新增支援三種語言:韓文、日文與繁體中文。請點選左下角的語言選擇器來切換語言。

  • 針對版本 >=v73 和 SA8295P 的裝置新增了權重共享屬性。當您提交 hub.get_devices() 時,屬性 htp-supports-weight-sharing:true 表示該裝置的 HTP 支援權重共享。

2025年7月14日發布

  • AI Hub 現在無論模型大小如何,皆會產出包含外部權重(.zip)的 ONNX 模型,以解決模型上傳與視覺化時可能出現的下游問題。若要將其轉換為內嵌權重的單一模型,使用者可以執行以下操作:

    import onnx
    model = onnx.load("your_model.onnx")
    onnx.save(model, "your_new_model.onnx")
    
  • 修復了當 ONNX 模型使用 OpSet 5 的 Reshape 層時出現的編譯錯誤。

  • 修復了在對具有外部權重的 ONNX 模型進行量化作業時,PSNR 計算出現的錯誤。

  • 解決了 AIMET+ONNX 編譯為 QNN 時的一些問題。

  • 放寬了 AI Hub 用戶端所需的 protobuf 版本限制。使用者現在可以安裝 protobuf>=3.20,<=6.31.1。

  • Yolov8 QNN context binary 的張量輸出順序問題已透過最新的 QAIRT 版本解決。

  • 版本表格中的 AI Hub 版本曾暫時顯示為 local-hub-1999,該問題現已修復。

  • 針對 .dlc 的 w8a8 和 w8a16 量化模型,其效能因一個意外影響 Q/DQ 節點圖的優化步驟而大幅下降。

2025年6月30日發布

  • 模型視覺化功能已可顯示 int4 層。

  • 已升級多個相關套件:QAIRT 2.35 為最新版本。QAIRT 2.34.2 仍為預設版本。量化作業使用 AIMET ONNX 2.8.0。ONNX Runtime 為 1.22。

2025年6月16日發布

  • 已升級至 QAIRT SDK 2.34.2。此版本現在為所有作業的預設 QAIRT SDK 版本。

  • 新增對 .dlc 模型視覺化的支援(請注意,需使用 QAIRT SDK 2.34.2 或以上版本)。

  • 量化作業現在使用 aimet-onnx 2.7.0。

  • 您現在可以在 Qualcomm AI Hub CLI 程式中加入 --verbose 參數以啟用詳細日誌記錄。這在除錯失敗作業時非常有幫助,並可能由我們的團隊要求以獲取更多細節

  • 修復了在使用 LLM 匯出教學時,對多個圖中的其中一個進行分析時偶爾失敗的錯誤。這是由於使用 --qnn_options 時發生了非預期行為所致。

2025 年 6 月 2 日發佈

  • 修復了與多重圖形(multi-graph)分析相關的錯誤。

  • 僅針對 TFLite 路徑新增有限的 6D slice支援,以支援 RF-DETR 模型。

  • 大型模型(大於 2GB)的支援已擴展至量化作業,以及在 Compute 平台上的分析與推論作業。Android 平台目前尚不支援大型模型的分析或推論。

  • 升級至 aimet-onnx 2.6.0。

2025 年 5 月 14 日發佈

  • 透過 CLI 上傳模型時,現在會顯示模型 ID 及可點擊的模型連結。

  • 升級至 aimet-onnx 2.5.0。

2025年5月5日發佈

  • 使用者現在可以透過 AI Hub 編譯大型的 PyTorch 和 ONNX 模型(先前這類模型會因超過 2GB 而出現不支援的錯誤訊息)。請注意,目前尚不支援產生大型的 TF-Lite 模型。

  • 已升級多個套件:QAIRT 2.33.2、ONNX Runtime 1.21.1、aimet-onnx 2.4.0。

  • 當提交至 AI Hub 的作業具有錯誤的輸入格式時,將提供額外的錯誤訊息。

  • 針對目標為 precompiled_qnn_onnx 路徑的 ONNX 模型,編譯作業現在會遵循其輸出格式。

2025年4月22日發布

  • 在 AI Hub 提交編譯、分析和推論作業時,現在支持 Deep Learning Container .dlc 。請查看我們的 示 。請注意,目前這僅用於將 torch/onnx 編譯為 DLC 並提交 DLC 模型的分析/推論作業。包括 DLC 可視化在內的其他功能支持即將推出。

  • 新增對 QAIRT SDK 2.33.0 的支持,並升級至 2.32.6。默認值將繼續為 2.32,最新版本現在為 2.33。

  • 升級至 aimet-onnx 2.3.0。

  • 新增 Samsung Galaxy S25 設備到我們的 可用設備

2025年4月8日發布

  • AI Hub 現在生成 opset 20 的 ONNX 模型,這需要 ONNX Runtime 1.17(以前是 1.12)。

  • 在 ONNX2TF 中新增對 AffineGrid 操作的支持。

  • 在編譯 AIMET 模型時,AI Hub 現在支持 AIMET 編碼版本 1.0.0。

2025年3月25日發布

  • 我們注意到 “作業在8小時後超時” 作為失敗原因的增加。這個問題已經被調查並解決。如果您遇到此問題,請重新嘗試您的作業

  • 以前用於指定ONNX Runtime的選項 ort 已被移除。請繼續使用 --target_runtime onnx

  • 添加了多個HTP優化選項的能力。

2025年3月10日發布

  • 升級至QAIRT 2.32。Qualcomm AI Engine Direct SDK(又名QNN)現在被稱為Qualcomm AI Runtime SDK(又名QAIRT)。

  • 將AIMET-ONNX升級至版本2.0.1。這是我們量化作業的底層引擎。由於這次升級,解決了幾個量化作業錯誤,包括作業因內部量化器錯誤而失敗。請重新提交您的作業並讓我們知道是否有任何問題。

  • 實現了靜態形狀ROI Align TensorFlow Lite 支持。

  • 在編譯作業的版本區間中添加了ONNX Runtime的版本信息。

  • 請升級到最新的客戶端版本 0.25.0

2025年2月24日發布

2025年2月10日發布

  • ONNX模型現在支持在上傳模型時引入外部權重。目錄名稱帶有 .onnx 副檔名或文件名帶有 .onnx.zip 擴展名,並且必須只有一個權重文件,該文件必須是 .data 文件。請注意:使用此功能支持LLM仍在開發中。

  • 在查看配置文件作業的模型推理時間時,新增了中位數和迷你圖形,提供了更詳細的時間信息。

  • 所有模型資產的多模型作業可視化:現在當您點擊作業右上角的“可視化”時,可以流覧並可視化與作業相關的所有適用模型(源、中間和目標)。

  • 為Qualcomm QCS8275和QCS9075添加了新的IoT代理設備。這些設備現在可用於AI Hub作業。

  • 如果您看到以下錯誤消息:Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs>,請更新到最新的AI Hub模型(pip install qai-hub-models)。我們知道這個問題直接影響Llama模型編譯。

  • 引用過期數據集的工作會顯示準確的錯誤訊息。

2025年1月22日發布

  • 改進了大模型的上傳速度,以防止超時和SSLEOF錯誤。請繼續報告任何發生的錯誤!

  • 各種更新以改進失敗作業的錯誤消息。如果您遇到作業失敗並希望了解更多關於發生了什麼的詳細信息,請隨時在 Slack 上分享您的作業連結。

2025年1月6日發布

  • 我們已經移除了AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。

  • 我們的FAQ已遷移到其新家,在我們的文檔中!Check it out

  • 使用量化QNN模型的推理作業現在將可接受fp32 輸入與輸出。

2024年12月13日發布

  • 為 TensorFlow Lite 添加了ONNX NonMaxSupression操作。

  • 警告:我們將在1月6日的部署中棄用AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。

2024年11月25日發布

  • 升級至QNN 2.28.2和2.28.0以支持自動設備。

  • 針對Llama系列模型上傳到AI Hub的各種改進。我們已經解決了用戶反饋的超時問題。請讓我們知道是否遇到持續的問題。

  • 現在可以通過添加 --quantize_weight_type float16 到編譯選項來壓縮FP32權重到FP16。

  • AI Hub中提供了新的自動設備!我們現在提供SA8775P和SA7255P ADP設備。

2024年11月11日發布

  • 宣布:link jobs!這將多個模型組合成一個上下文二進制文件,以便在圖形之間共享權重,節省儲存空間。連結作業專屬於Hexagon Tensor Processor(HTP)的QNN上下文二進制文件。

  • 改進並解決qai-hub客戶端常見問題:最新的客戶端版本0.19.0修復了上傳時遇到的錯誤。此外,上傳大小限制已從5GB提高到10GB(壓縮),並且大文件可切分多部分上傳。

  • ONNX版本已更新至1.17.0。

  • 在我們的 文檔 中更新了示例,特別是量化評比和編譯作業。

2024年10月28日發布

  • 新設備:Snapdragon 8 Elite在Snapdragon峰會上宣布,所有用戶都可以通過指定 device = hub.Device("Snapdragon 8 Elite QRD")

  • 新設備:車用設備Snapdragon Cockpit Gen 4(SA8295P)現在可以在AI Hub中使用。選擇它 --device "SA8295P ADP" --device-os 14

  • 一旦您使用SSO登錄AI Hub,您將自動重定向到感興趣的頁面。

2024年10月14日發布

  • (Beta) Qualcomm AI Hub 現在支持將 float32 模型轉換為使用整數數值(例如 int8、int16)。這個 Beta 功能可以通過 submit_quantize_job API 來量化 PyTorch 模型。更多詳情和範例請參閱我們的文檔

  • 現在支持Int64(推理和分析作業)!

  • 升級至QNN 2.27。

2024年10月7日發布

  • 改進了推理作業中對rank-0(scalar)tensors的支持。

  • 更新作業狀態(並修復一個UI錯誤) 以提供更多關於作業所處階段的資訊。

  • 在許多情況下改進了錯誤消息,包括:分析器不支持的數據類型、無效的TFLite模型文件和許多設備上的內存不足錯誤。

  • 客戶端版本0.17.0 pip install qai-hub==0.17.0 已發布,這包括HTTP重試的修復,應使數據上傳和下載更加可靠!

  • 新設備支持!您現在可以通過指定 device = hub.Device("Snapdragon X Plus 8-Core CRD") 在AI Hub上啟動作業並選用Snapdragon X Plus。

2024年9月23日發布

  • 所有代理設備的芯片屬性已重命名為包含後綴-proxy。例如,chipset:qualcomm-qcs6490現在是chipset:qualcomm-qcs6490-proxy。設備名稱保持不變。

  • 升級至ONNX Runtime 1.19.2,TFLite至2.17。

2024年9月11日發布

  • 升級至QNN 2.26。

  • 模型頁面現在有一個下拉菜單以按創建者過濾,使搜索組織中其他人的模型更容易。

  • 跨UI的各種錯誤修復,包括QNN模型的更新可視化。查看並讓我們知道是否遇到任何問題!

2024年8月26日發布

  • 自8月13日起,如果用戶已經有最大允許數量的作業正在運行,Hub在創建作業時不再拋出異常。相反,新作業被置於 pending 狀態,並在現有作業完成後自動安排執行。在python客戶端版本 0.14.1 中,我們為作業物件添加了一個名為 pending 的新屬性。處於pending狀態的作業現在將返回 True 如果調用 pending ,並返回 False 如果調用 running

  • 升級至QNN 2.25。

  • get_job_summaries 在客戶端中從此版本(0.15.0) 及以後可用。 get_jobs API已棄用,應使用 get_job_summaries 代替。

  • 我們建議更新到客戶端版本0.15.0 pip install qai-hub==0.15.0,並且每次發布時更新您的客戶端,以確保您使用Qualcomm AI Hub的所有最新功能!

2024年8月12日發布

  • 新客戶端版本0.14.0可用!

  • 中間資產:當您提交編譯作業時,您現在會在編譯作業頁面上看到一個 "intermediate assets" 選項卡。此新功能允許AI Hub將編譯的中間狀態保存為AI Hub上的第一類模型。例如,如果您提交TorchScript模型進行TFLite編譯,將保存一個中間ONNX模型並可訪問。

  • 作業限制:Hub現在將自動排程超過每個用戶最大限制的作業,而不是返回錯誤。如果您以前處理過此類的錯誤,現在已不再需要重提作業。

2024年7月29日發布

  • 更新ONNX Runtime至1.18。

  • Qualcomm AI Hub開始支持Snapdragon Ride平台。查看我們為 車用設備 提供的預優化AI Hub模型,通過AI Hub在真實車用設備上測試這些模型,並讓我們知道是否遇到任何問題!

2024年7月15日發布

  • 對Android設備的內存估算進行了改進,允許更精確的範圍。分析器避免外源堆使用的能力得到了改善,導致內存範圍更小。嘗試提交一個新作業並查看內存範圍!

  • 將QNN更新至2.24.0,ONNX更新至1.16.0。

  • 為ONNX Runtime添加了int16支持。

2024年7月1日發布

  • AI Hub作業可以自動與您的組織共享。要將用戶添加到您的組織,請發送電子郵件至 ai-hub-support@qti.qualcomm.com,並附上您團隊的電子郵件地址。

  • AI Hub作業也可以在您的組織外部與Qualcomm共享以獲得支持。點擊任何作業右上角的 “共享” 按鈕,並指定AI Hub用戶的電子郵件,該作業(及其相關的模型資產)將被共享。通過從作業中刪除電子郵件地址也可以撤銷訪問權限。

  • 改進了AIMET模型編譯失敗的錯誤消息。

  • 文檔 已更新,適用於 precompiled_qnn_onnx

  • 為AI Hub網頁添加了詳細標題。現在,當您打開一個頁面時,它將指定您所在的頁面以及作業名稱(如適用)。

  • AI Hub以前版本的發布說明現在可以在我們的 文檔 中找到以供參考。

2024年6月17日發布

  • Windows設備現在在AI Hub上廣泛可用,包括全新的Snapdragon X Elite和上一代Snapdragon 8cx Gen 3參考設計。當您運行qai-hub list-devices時,您將看到它列出。通過指定 device = hub.Device("Snapdragon X Elite CRD") 來指定X Elite。

  • 支持編譯預編譯過的QNN ONNX模型!使用 options="--target_runtime precompiled_qnn_onnx" 來指定您正在使用預編譯的ONNX Runtime模型。(注意:文檔中有錯字,將在下次發布中修復,請按上述指定使用該選項)。

  • 添加了有關支持的ONNX Runtime選項的文檔。

  • 在快速入門示例中增加了包括提交推理作業、下載模型等步驟。

  • 在分析和推理作業中的額外錯誤詳細信息:如果您的作業失敗,請查看新增加的部分,標題為「運行時日誌中的附加信息」。這部分提供了關鍵細節,幫助您在不需要打開執行時日誌的情況下進行除錯。

  • 更新至QNN版本2.23。

2024年6月4日發布

  • 添加了設備系列列表:現在當您使用qai-hub list-devices時,您將看到這些列表(例如Google Pixel 3a系列,Samsung Galaxy S21系列等)。這應該有助於設備配置時間,請在適用時使用此選項!

  • 更新至QNN版本2.22.6。

  • 支持64位輸入類型作為編譯選項 --truncate_64bit_io

2024年5月17日發布

  • 通過ONNX QNN Execution Provider在Windows上添加了對Snapdragon X Elite NPU的支持,通過ONNX DirectML Execution Provider在Windows上添加了對Snapdragon X Elite GPU的支持——請在此處註冊以獲得使用資格!

  • QNN版本2.22支持(編譯資產現在針對QNN 2.22,而不是QNN版本2.20)。

  • 應用AI Hub於Windows!

  • QNN的w4a8支持(--quantize_full_type w4a8)。

  • 在我們的文檔中為每個runtime使用的上下文添加了更多信息。

  • 棄用目標runtime qnn_bin。請現在使用 --target_runtime qnn_context_binary。上下文二進制文件是針對設備硬件架構編譯的。更多信息可以在我們的文檔中找到。

2024年5月6日發布

  • 文檔現在包括將ONNX模型編譯為TFLite或QNN以及直接使用ONNX Runtime進行分析的示例。

  • ONNX Runtime的默認配置現在利用了最高速度的選項進行分析/推理。現在設置為3,這提供了默認情況下最優化的模型。

  • 將TensorFlowLite升級至2.16.1(適用於分析作業)。

  • 其他關於編譯作業性能的修復。

2024年4月22日發布

  • 多種性能改進,提升錯誤報告能力和支援更多的網路層!

  • 添加了QCS8450代理設備(請參見線程中的說明)。

  • 升級至最新的ONNX運行時版本(1.17.3)。

  • 更新了ONNX runtime模型的文檔。

  • 為ONNX Runtime引入了IO選項。

  • 為QNN路徑添加了w4a16量化支持。

2024年4月8日發布

  • 引入了ONNX runtime(.onnx)和NPU的支持。提交編譯作業時,請通過指定 options=--target_runtime onnx 來嘗試。

  • 對ONNX運行時進行了改進,包括許多加速。

  • 為ONNX運行時模型添加了模型可視化。

  • 增加了編譯作業的日誌記錄。

  • 更多IOT代理設備:查看QCS8250,QCS8550代理設備。

  • 升級至Tensorflow 2.15.0。

  • 通過Hub添加了對int16,w8a16量化的支持。

2024年3月25日發布

  • 添加了更多Galaxy S24設備以運行作業。

  • 升級至最新的QNN版本2.20。

  • 將模型上傳限制增加到10 GB。

  • 添加了支持將AIMET(.onnx +編碼)量化模型轉換為ONNX並通過ONNX Runtime在設備上運行

  • 優化:針對TFLite模型的深度卷積重塑其常量折疊。

  • 為防止通過編譯選項輸入不正確名稱添加了額外檢查。

2024年3月11日發布

  • AI Hub引入了具有Snapdragon® 8 Gen 3芯片組的設備。通過指定 device = hub.Device("Samsung Galaxy S24") 來定位Snapdragon® 8 Gen 3。

2024年2月28日發布

  • Qualcomm AI Hub在2024年MWC上推出。

  • 支持約75個QAI Hub模型,以通過TFLite和QNN運行時在各種移動設備上提供性能和準確性數據。