發布說明
Released Aug 22, 2025
We've migrated to a new single sign on (SSO) provider. There should be no disruption to users. If you hit any issues, please try re-logging in and let us know if there is any unexpected behaviour.
Upgraded to QAIRT 2.37.0, aimet_onnx 2.12.0.
Downloading models directly to memory has been deprecated. A warning has been added to the client and documentation accordingly. Please download source model to file via
model = compile_job.download_target_model("model_filename")
. The filename is required.Client API
get_jobs
which has been deprecated for some time, has officially been removed. Please useget_job_summaries
instead.
Released Aug 11, 2025
AI Hub 現已全面支援 DLC!因此,我們將停止產生 .so 模型庫檔案。DLC 檔案已證明在相同情境下 (例如針對 AArch64 Android) 非常適用,且更具可靠性。因此,AI Hub 即日起不再支援或維護 .so 檔案的產生,並將在約 6 週後移除。若要產生 .bin 檔案,現在將透過 .dlc 進行。產生 .bin (--qnn_context_binary) 與 .dlc (--qnn_dlc) 的執行選項,以及其他執行選項皆維持不變!已淘汰的選項 --qnn_bin_conversion_via_model_library 仍可用於透過 .so 模型產生 .bin 檔案。連結作業現在需輸入 (一個或多個) .dlc 檔案,以及一個或多個裝置。舊式的 .bin 模型連結方式將被淘汰。此外,--target_runtime qnn_lib_aarch64_android 也將被淘汰。
升級至 QAIRT 2.36(2.36.4),現為預設版本。目前 Hub 支援 2.33.2、2.34.2 和 2.36.4。
針對因 QNN Context Binary 產生失敗導致的編譯作業驗證錯誤,改善了錯誤訊息。訊息中會包含 <failed op_name>: <op_type>: <root-cause of failure> (若適用)。
在我們的文件中新增了常見 ONNX 執行時錯誤,請參閱 FAQ。
特定失敗作業的錯誤訊息現在會包含指引,提示使用者查看執行時日誌以獲得更多資訊(若適用)。
請注意,我們不再在使用 ONNX Runtime 的分析/推論作業之前於流程中量化權重。此變更是為了支援未來的功能強化,並讓我們的效能測量更容易重現。
2025年7月28日發布
我們在 Quantize Job 中升級至 AIMET-ONNX 2.10.0。
我們的文件(https://app.aihub.qualcomm.com/docs/)現在新增支援三種語言:韓文、日文與繁體中文。請點選左下角的語言選擇器來切換語言。
針對版本 >=v73 和 SA8295P 的裝置新增了權重共享屬性。當您提交 hub.get_devices() 時,屬性 htp-supports-weight-sharing:true 表示該裝置的 HTP 支援權重共享。
2025年7月14日發布
AI Hub 現在無論模型大小如何,皆會產出包含外部權重(.zip)的 ONNX 模型,以解決模型上傳與視覺化時可能出現的下游問題。若要將其轉換為內嵌權重的單一模型,使用者可以執行以下操作:
import onnx model = onnx.load("your_model.onnx") onnx.save(model, "your_new_model.onnx")
修復了當 ONNX 模型使用 OpSet 5 的 Reshape 層時出現的編譯錯誤。
修復了在對具有外部權重的 ONNX 模型進行量化作業時,PSNR 計算出現的錯誤。
解決了 AIMET+ONNX 編譯為 QNN 時的一些問題。
放寬了 AI Hub 用戶端所需的 protobuf 版本限制。使用者現在可以安裝 protobuf>=3.20,<=6.31.1。
Yolov8 QNN context binary 的張量輸出順序問題已透過最新的 QAIRT 版本解決。
版本表格中的 AI Hub 版本曾暫時顯示為 local-hub-1999,該問題現已修復。
針對 .dlc 的 w8a8 和 w8a16 量化模型,其效能因一個意外影響 Q/DQ 節點圖的優化步驟而大幅下降。
2025年6月30日發布
模型視覺化功能已可顯示 int4 層。
已升級多個相關套件:QAIRT 2.35 為最新版本。QAIRT 2.34.2 仍為預設版本。量化作業使用 AIMET ONNX 2.8.0。ONNX Runtime 為 1.22。
2025年6月16日發布
已升級至 QAIRT SDK 2.34.2。此版本現在為所有作業的預設 QAIRT SDK 版本。
新增對 .dlc 模型視覺化的支援(請注意,需使用 QAIRT SDK 2.34.2 或以上版本)。
量化作業現在使用 aimet-onnx 2.7.0。
您現在可以在 Qualcomm AI Hub CLI 程式中加入
--verbose
參數以啟用詳細日誌記錄。這在除錯失敗作業時非常有幫助,並可能由我們的團隊要求以獲取更多細節修復了在使用 LLM 匯出教學時,對多個圖中的其中一個進行分析時偶爾失敗的錯誤。這是由於使用 --qnn_options 時發生了非預期行為所致。
2025 年 6 月 2 日發佈
修復了與多重圖形(multi-graph)分析相關的錯誤。
僅針對 TFLite 路徑新增有限的 6D slice支援,以支援 RF-DETR 模型。
大型模型(大於 2GB)的支援已擴展至量化作業,以及在 Compute 平台上的分析與推論作業。Android 平台目前尚不支援大型模型的分析或推論。
升級至 aimet-onnx 2.6.0。
2025 年 5 月 14 日發佈
透過 CLI 上傳模型時,現在會顯示模型 ID 及可點擊的模型連結。
升級至 aimet-onnx 2.5.0。
2025年5月5日發佈
使用者現在可以透過 AI Hub 編譯大型的 PyTorch 和 ONNX 模型(先前這類模型會因超過 2GB 而出現不支援的錯誤訊息)。請注意,目前尚不支援產生大型的 TF-Lite 模型。
已升級多個套件:QAIRT 2.33.2、ONNX Runtime 1.21.1、aimet-onnx 2.4.0。
當提交至 AI Hub 的作業具有錯誤的輸入格式時,將提供額外的錯誤訊息。
針對目標為 precompiled_qnn_onnx 路徑的 ONNX 模型,編譯作業現在會遵循其輸出格式。
2025年4月22日發布
2025年4月8日發布
AI Hub 現在生成 opset 20 的 ONNX 模型,這需要 ONNX Runtime 1.17(以前是 1.12)。
在 ONNX2TF 中新增對 AffineGrid 操作的支持。
在編譯 AIMET 模型時,AI Hub 現在支持 AIMET 編碼版本 1.0.0。
2025年3月25日發布
我們注意到 “作業在8小時後超時” 作為失敗原因的增加。這個問題已經被調查並解決。如果您遇到此問題,請重新嘗試您的作業
以前用於指定ONNX Runtime的選項
ort
已被移除。請繼續使用--target_runtime onnx
。添加了多個HTP優化選項的能力。
2025年3月10日發布
升級至QAIRT 2.32。Qualcomm AI Engine Direct SDK(又名QNN)現在被稱為Qualcomm AI Runtime SDK(又名QAIRT)。
將AIMET-ONNX升級至版本2.0.1。這是我們量化作業的底層引擎。由於這次升級,解決了幾個量化作業錯誤,包括作業因內部量化器錯誤而失敗。請重新提交您的作業並讓我們知道是否有任何問題。
實現了靜態形狀ROI Align TensorFlow Lite 支持。
在編譯作業的版本區間中添加了ONNX Runtime的版本信息。
請升級到最新的客戶端版本 0.25.0。
2025年2月24日發布
2025年2月10日發布
ONNX模型現在支持在上傳模型時引入外部權重。目錄名稱帶有
.onnx
副檔名或文件名帶有.onnx.zip
擴展名,並且必須只有一個權重文件,該文件必須是.data
文件。請注意:使用此功能支持LLM仍在開發中。在查看配置文件作業的模型推理時間時,新增了中位數和迷你圖形,提供了更詳細的時間信息。
所有模型資產的多模型作業可視化:現在當您點擊作業右上角的“可視化”時,可以流覧並可視化與作業相關的所有適用模型(源、中間和目標)。
為Qualcomm QCS8275和QCS9075添加了新的IoT代理設備。這些設備現在可用於AI Hub作業。
如果您看到以下錯誤消息:
Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs>
,請更新到最新的AI Hub模型(pip install qai-hub-models
)。我們知道這個問題直接影響Llama模型編譯。引用過期數據集的工作會顯示準確的錯誤訊息。
2025年1月22日發布
改進了大模型的上傳速度,以防止超時和SSLEOF錯誤。請繼續報告任何發生的錯誤!
各種更新以改進失敗作業的錯誤消息。如果您遇到作業失敗並希望了解更多關於發生了什麼的詳細信息,請隨時在 Slack 上分享您的作業連結。
2025年1月6日發布
我們已經移除了AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。
我們的FAQ已遷移到其新家,在我們的文檔中!Check it out!
使用量化QNN模型的推理作業現在將可接受fp32 輸入與輸出。
2024年12月13日發布
為 TensorFlow Lite 添加了ONNX NonMaxSupression操作。
警告:我們將在1月6日的部署中棄用AIMET PyTorch模型(.pt)上傳路徑。我們建議使用ONNX模型(.onnx)和量化參數的編碼文件(.encodings)。
2024年11月25日發布
升級至QNN 2.28.2和2.28.0以支持自動設備。
針對Llama系列模型上傳到AI Hub的各種改進。我們已經解決了用戶反饋的超時問題。請讓我們知道是否遇到持續的問題。
現在可以通過添加 --quantize_weight_type float16 到編譯選項來壓縮FP32權重到FP16。
AI Hub中提供了新的自動設備!我們現在提供SA8775P和SA7255P ADP設備。
2024年11月11日發布
2024年10月28日發布
新設備:Snapdragon 8 Elite在Snapdragon峰會上宣布,所有用戶都可以通過指定
device = hub.Device("Snapdragon 8 Elite QRD")
。新設備:車用設備Snapdragon Cockpit Gen 4(SA8295P)現在可以在AI Hub中使用。選擇它
--device "SA8295P ADP" --device-os 14
。一旦您使用SSO登錄AI Hub,您將自動重定向到感興趣的頁面。
2024年10月14日發布
(Beta) Qualcomm AI Hub 現在支持將 float32 模型轉換為使用整數數值(例如 int8、int16)。這個 Beta 功能可以通過 submit_quantize_job API 來量化 PyTorch 模型。更多詳情和範例請參閱我們的文檔。
現在支持Int64(推理和分析作業)!
升級至QNN 2.27。
2024年10月7日發布
改進了推理作業中對rank-0(scalar)tensors的支持。
更新作業狀態(並修復一個UI錯誤) 以提供更多關於作業所處階段的資訊。
在許多情況下改進了錯誤消息,包括:分析器不支持的數據類型、無效的TFLite模型文件和許多設備上的內存不足錯誤。
客戶端版本0.17.0
pip install qai-hub==0.17.0
已發布,這包括HTTP重試的修復,應使數據上傳和下載更加可靠!新設備支持!您現在可以通過指定
device = hub.Device("Snapdragon X Plus 8-Core CRD")
在AI Hub上啟動作業並選用Snapdragon X Plus。
2024年9月23日發布
所有代理設備的芯片屬性已重命名為包含後綴-proxy。例如,chipset:qualcomm-qcs6490現在是chipset:qualcomm-qcs6490-proxy。設備名稱保持不變。
升級至ONNX Runtime 1.19.2,TFLite至2.17。
2024年9月11日發布
升級至QNN 2.26。
模型頁面現在有一個下拉菜單以按創建者過濾,使搜索組織中其他人的模型更容易。
跨UI的各種錯誤修復,包括QNN模型的更新可視化。查看並讓我們知道是否遇到任何問題!
2024年8月26日發布
自8月13日起,如果用戶已經有最大允許數量的作業正在運行,Hub在創建作業時不再拋出異常。相反,新作業被置於
pending
狀態,並在現有作業完成後自動安排執行。在python客戶端版本0.14.1
中,我們為作業物件添加了一個名為pending
的新屬性。處於pending狀態的作業現在將返回True
如果調用pending
,並返回False
如果調用running
。升級至QNN 2.25。
get_job_summaries
在客戶端中從此版本(0.15.0
) 及以後可用。get_jobs
API已棄用,應使用get_job_summaries
代替。我們建議更新到客戶端版本0.15.0
pip install qai-hub==0.15.0
,並且每次發布時更新您的客戶端,以確保您使用Qualcomm AI Hub的所有最新功能!
2024年8月12日發布
新客戶端版本0.14.0可用!
中間資產:當您提交編譯作業時,您現在會在編譯作業頁面上看到一個 "intermediate assets" 選項卡。此新功能允許AI Hub將編譯的中間狀態保存為AI Hub上的第一類模型。例如,如果您提交TorchScript模型進行TFLite編譯,將保存一個中間ONNX模型並可訪問。
作業限制:Hub現在將自動排程超過每個用戶最大限制的作業,而不是返回錯誤。如果您以前處理過此類的錯誤,現在已不再需要重提作業。
2024年7月29日發布
更新ONNX Runtime至1.18。
Qualcomm AI Hub開始支持Snapdragon Ride平台。查看我們為 車用設備 提供的預優化AI Hub模型,通過AI Hub在真實車用設備上測試這些模型,並讓我們知道是否遇到任何問題!
2024年7月15日發布
對Android設備的內存估算進行了改進,允許更精確的範圍。分析器避免外源堆使用的能力得到了改善,導致內存範圍更小。嘗試提交一個新作業並查看內存範圍!
將QNN更新至2.24.0,ONNX更新至1.16.0。
為ONNX Runtime添加了int16支持。
2024年7月1日發布
AI Hub作業可以自動與您的組織共享。要將用戶添加到您的組織,請發送電子郵件至 ai-hub-support@qti.qualcomm.com,並附上您團隊的電子郵件地址。
AI Hub作業也可以在您的組織外部與Qualcomm共享以獲得支持。點擊任何作業右上角的 “共享” 按鈕,並指定AI Hub用戶的電子郵件,該作業(及其相關的模型資產)將被共享。通過從作業中刪除電子郵件地址也可以撤銷訪問權限。
改進了AIMET模型編譯失敗的錯誤消息。
文檔 已更新,適用於
precompiled_qnn_onnx
。為AI Hub網頁添加了詳細標題。現在,當您打開一個頁面時,它將指定您所在的頁面以及作業名稱(如適用)。
AI Hub以前版本的發布說明現在可以在我們的 文檔 中找到以供參考。
2024年6月17日發布
Windows設備現在在AI Hub上廣泛可用,包括全新的Snapdragon X Elite和上一代Snapdragon 8cx Gen 3參考設計。當您運行qai-hub list-devices時,您將看到它列出。通過指定
device = hub.Device("Snapdragon X Elite CRD")
來指定X Elite。支持編譯預編譯過的QNN ONNX模型!使用
options="--target_runtime precompiled_qnn_onnx"
來指定您正在使用預編譯的ONNX Runtime模型。(注意:文檔中有錯字,將在下次發布中修復,請按上述指定使用該選項)。添加了有關支持的ONNX Runtime選項的文檔。
在快速入門示例中增加了包括提交推理作業、下載模型等步驟。
在分析和推理作業中的額外錯誤詳細信息:如果您的作業失敗,請查看新增加的部分,標題為「運行時日誌中的附加信息」。這部分提供了關鍵細節,幫助您在不需要打開執行時日誌的情況下進行除錯。
更新至QNN版本2.23。
2024年6月4日發布
添加了設備系列列表:現在當您使用qai-hub list-devices時,您將看到這些列表(例如Google Pixel 3a系列,Samsung Galaxy S21系列等)。這應該有助於設備配置時間,請在適用時使用此選項!
更新至QNN版本2.22.6。
支持64位輸入類型作為編譯選項
--truncate_64bit_io
。
2024年5月17日發布
通過ONNX QNN Execution Provider在Windows上添加了對Snapdragon X Elite NPU的支持,通過ONNX DirectML Execution Provider在Windows上添加了對Snapdragon X Elite GPU的支持——請在此處註冊以獲得使用資格!
QNN版本2.22支持(編譯資產現在針對QNN 2.22,而不是QNN版本2.20)。
應用AI Hub於Windows!
QNN的w4a8支持(
--quantize_full_type w4a8
)。在我們的文檔中為每個runtime使用的上下文添加了更多信息。
棄用目標runtime
qnn_bin
。請現在使用--target_runtime qnn_context_binary
。上下文二進制文件是針對設備硬件架構編譯的。更多信息可以在我們的文檔中找到。
2024年5月6日發布
文檔現在包括將ONNX模型編譯為TFLite或QNN以及直接使用ONNX Runtime進行分析的示例。
ONNX Runtime的默認配置現在利用了最高速度的選項進行分析/推理。現在設置為3,這提供了默認情況下最優化的模型。
將TensorFlowLite升級至2.16.1(適用於分析作業)。
其他關於編譯作業性能的修復。
2024年4月22日發布
多種性能改進,提升錯誤報告能力和支援更多的網路層!
添加了QCS8450代理設備(請參見線程中的說明)。
升級至最新的ONNX運行時版本(1.17.3)。
更新了ONNX runtime模型的文檔。
為ONNX Runtime引入了IO選項。
為QNN路徑添加了w4a16量化支持。
2024年4月8日發布
引入了ONNX runtime(.onnx)和NPU的支持。提交編譯作業時,請通過指定
options=--target_runtime onnx
來嘗試。對ONNX運行時進行了改進,包括許多加速。
為ONNX運行時模型添加了模型可視化。
增加了編譯作業的日誌記錄。
更多IOT代理設備:查看QCS8250,QCS8550代理設備。
升級至Tensorflow 2.15.0。
通過Hub添加了對int16,w8a16量化的支持。
2024年3月25日發布
添加了更多Galaxy S24設備以運行作業。
升級至最新的QNN版本2.20。
將模型上傳限制增加到10 GB。
添加了支持將AIMET(.onnx +編碼)量化模型轉換為ONNX並通過ONNX Runtime在設備上運行
優化:針對TFLite模型的深度卷積重塑其常量折疊。
為防止通過編譯選項輸入不正確名稱添加了額外檢查。
2024年3月11日發布
AI Hub引入了具有Snapdragon® 8 Gen 3芯片組的設備。通過指定
device = hub.Device("Samsung Galaxy S24")
來定位Snapdragon® 8 Gen 3。
2024年2月28日發布
Qualcomm AI Hub在2024年MWC上推出。
支持約75個QAI Hub模型,以通過TFLite和QNN運行時在各種移動設備上提供性能和準確性數據。