發布說明

2025年10月27日發布

現在，當指定執行環境為 QNN（context binaries 或 DLC）時，Optrace 資料已可用於分析工作。打開 Runtime Layer Analaysis 區塊並點擊 view optrace，即可查看詳細的 HTP 分析資料，包括 QNN Op 和 HTP Op 的細節、Optrace 的時間資訊與瓶頸分析。

2025年10月22日發布

我們的設備農場最近更新導致分析與推論工作出現間歇性失敗。錯誤訊息可能為 Failed to fully run the model, failed after compiling 或 Failed to profile the model: unexpected device error 我們已在部署中推出暫時解決方案，請重新執行您的工作。
新增對 QAIRT 2.39（最新版本）的支援。
升級至 PyTorch 2.8.0。
當使用 LiteMP（混合精度）功能時，已更新 Quantize Job 中的 PSNR 函數，使其與 AIMET 的離線 PSNR 計算方式一致。

2025 年 10 月 6 日發佈

為了簡化我們文件中的編譯模型範例，進行了小幅更新。
已更新至 ONNX Runtime 1.23。
AI Hub 所產生的 ONNX 模型現在使用 ir_version=11。這需要 ONNX Runtime 1.23 才能進行推論。
已更新至 AIMET-ONNX 2.15。
AI Hub 已移除將模型直接下載至記憶體的功能。模型現在必須下載至磁碟中。

2025 年 9 月 29 日發佈

ONNX Runtime 已新增額外的設定檔作業選項（透過 --onnx_options）。請參閱我們的 API 文件，瞭解如何設定 vtcm_mb、context_priority 和 offload_graph_io_quantization。
New Devices: We have 2 new mobile devices, Snapdragon® 8 Elite Gen 5 (SM8850) and Snapdragon® 7 Gen 4 (SM7750) that are available now to start testing your model on them through Qualcomm AI Hub! To start testing your model on one of these devices, simply specify the device name i.e. device=hub.Device("Snapdragon 8 Elite Gen 5 QRD") when submitting your job.
已修正預先編譯的 ONNX 模型的相關問題。

2025 年 9 月 22 日發佈

升級至 AIMET-ONNX 2.14。
QAIRT 2.38.0 為最新版本，現已提供。同時 QAIRT 2.37.0 也已升級至 2.37.1。
新增作業建立與重試操作的日誌記錄功能。

2025 年 9 月 8 日發佈

升級至 ONNX Runtime 1.22.2。
降低因 'unknown' 導致的作業失敗率。

2025 年 9 月 2 日發佈

LiteMP（代表輕量混合精度）現在已在 AI Hub 的量化作業提交中提供測試版。您可以在提交量化作業時啟用此選項，以允許將指定比例的層轉換為指定的精度（例如：--lite_mp percentage=10;override_qtype=int16）。
升級至 aimet-onnx 2.13.0。

2025年8月22日發佈

我們已遷移至新的單一登入（SSO）供應商。使用者不應受到任何影響。如遇到問題，請嘗試重新登入，並告知我們是否有任何異常行為。
已升級至 QAIRT 2.37.0 和 aimet_onnx 2.12.0。
直接將模型下載至記憶體的功能已被淘汰。客戶端與文件中已加入警告。請改用以下方式將來源模型下載為檔案：model = compile_job.download_target_model("model_filename") 檔案名稱為必填。
已正式移除已停用一段時間的客戶端 API get_jobs。請改用 get_job_summaries。

2025年8月11日發布

AI Hub 現已全面支援 DLC！因此，我們將停止產生 .so 模型庫檔案。DLC 檔案已證明在相同情境下（例如針對 AArch64 Android）非常適用，且更具可靠性。因此，AI Hub 即日起不再支援或維護 .so 檔案的產生，並將在約 6 週後移除。若要產生 .bin 檔案，現在將透過 .dlc 進行。產生 .bin （--qnn_context_binary）與 .dlc （--qnn_dlc）的執行選項，以及其他執行選項皆維持不變！已淘汰的選項 --qnn_bin_conversion_via_model_library 仍可用於透過 .so 模型產生 .bin 檔案。連結作業現在需輸入 (一個或多個) .dlc 檔案，以及一個或多個裝置。舊式的 .bin 模型連結方式將被淘汰。此外，--target_runtime qnn_lib_aarch64_android 也將被淘汰。
升級至 QAIRT 2.36（2.36.4），現為預設版本。目前 Hub 支援 2.33.2、2.34.2 和 2.36.4。
針對因 QNN Context Binary 產生失敗導致的編譯作業驗證錯誤，改善了錯誤訊息。訊息中會包含 <failed op_name>: <op_type>: <root-cause of failure> (若適用)。
在我們的文件中新增了常見 ONNX 執行時錯誤，請參閱 FAQ。
特定失敗作業的錯誤訊息現在會包含指引，提示使用者查看執行時日誌以獲得更多資訊（若適用）。
請注意，我們不再使用 ONNX Runtime 的分析／推論作業之前於流程中量化權重。此變更是為了支援未來的功能強化，並讓我們的效能測量更容易重現。

2025年7月28日發布

我們在 Quantize Job 中升級至 AIMET-ONNX 2.10.0。
我們的文件（https://app.aihub.qualcomm.com/docs/）現在新增支援三種語言：韓文、日文與繁體中文。請點選左下角的語言選擇器來切換語言。
針對版本 >=v73 和 SA8295P 的裝置新增了權重共享屬性。當您提交 hub.get_devices() 時，屬性 htp-supports-weight-sharing:true 表示該裝置的 HTP 支援權重共享。

2025年7月14日發布

AI Hub 現在無論模型大小如何，皆會產出包含外部權重（.zip）的 ONNX 模型，以解決模型上傳與視覺化時可能出現的下游問題。若要將其轉換為內嵌權重的單一模型，使用者可以執行以下操作：
```
import onnx
model = onnx.load("your_model.onnx")
onnx.save(model, "your_new_model.onnx")
```
修復了當 ONNX 模型使用 OpSet 5 的 Reshape 層時出現的編譯錯誤。
修復了在對具有外部權重的 ONNX 模型進行量化作業時，PSNR 計算出現的錯誤。
解決了 AIMET+ONNX 編譯為 QNN 時的一些問題。
放寬了 AI Hub 用戶端所需的 protobuf 版本限制。使用者現在可以安裝 protobuf>=3.20,<=6.31.1。
Yolov8 QNN context binary 的張量輸出順序問題已透過最新的 QAIRT 版本解決。
版本表格中的 AI Hub 版本曾暫時顯示為 local-hub-1999，該問題現已修復。
針對 .dlc 的 w8a8 和 w8a16 量化模型，其效能因一個意外影響 Q/DQ 節點圖的優化步驟而大幅下降。

2025年6月30日發布

模型視覺化功能已可顯示 int4 層。
已升級多個相關套件：QAIRT 2.35 為最新版本。QAIRT 2.34.2 仍為預設版本。量化作業使用 AIMET ONNX 2.8.0。ONNX Runtime 為 1.22。

2025年6月16日發布

已升級至 QAIRT SDK 2.34.2。此版本現在為所有作業的預設 QAIRT SDK 版本。
新增對 .dlc 模型視覺化的支援（請注意，需使用 QAIRT SDK 2.34.2 或以上版本）。
量化作業現在使用 aimet-onnx 2.7.0。
您現在可以在 Qualcomm AI Hub CLI 程式中加入 --verbose 參數以啟用詳細日誌記錄。這在除錯失敗作業時非常有幫助，並可能由我們的團隊要求以獲取更多細節
修復了在使用 LLM 匯出教學時，對多個圖中的其中一個進行分析時偶爾失敗的錯誤。這是由於使用 --qnn_options 時發生了非預期行為所致。

2025 年 6 月 2 日發佈

修復了與多重圖形（multi-graph）分析相關的錯誤。
僅針對 TFLite 路徑新增有限的 6D slice支援，以支援 RF-DETR 模型。
大型模型（大於 2GB）的支援已擴展至量化作業，以及在 Compute 平台上的分析與推論作業。Android 平台目前尚不支援大型模型的分析或推論。
升級至 aimet-onnx 2.6.0。

2025 年 5 月 14 日發佈

透過 CLI 上傳模型時，現在會顯示模型 ID 及可點擊的模型連結。
升級至 aimet-onnx 2.5.0。

2025年5月5日發佈

使用者現在可以透過 AI Hub 編譯大型的 PyTorch 和 ONNX 模型（先前這類模型會因超過 2GB 而出現不支援的錯誤訊息）。請注意，目前尚不支援產生大型的 TF-Lite 模型。
已升級多個套件：QAIRT 2.33.2、ONNX Runtime 1.21.1、aimet-onnx 2.4.0。
當提交至 AI Hub 的作業具有錯誤的輸入格式時，將提供額外的錯誤訊息。
針對目標為 precompiled_qnn_onnx 路徑的 ONNX 模型，編譯作業現在會遵循其輸出格式。

2025年4月22日發布

在 AI Hub 提交編譯、分析和推論作業時，現在支持 Deep Learning Container .dlc 。請查看我們的示例。請注意，目前這僅用於將 torch/onnx 編譯為 DLC 並提交 DLC 模型的分析/推論作業。包括 DLC 可視化在內的其他功能支持即將推出。
新增對 QAIRT SDK 2.33.0 的支持，並升級至 2.32.6。默認值將繼續為 2.32，最新版本現在為 2.33。
升級至 aimet-onnx 2.3.0。
新增 Samsung Galaxy S25 設備到我們的可用設備。

2025年4月8日發布

AI Hub 現在生成 opset 20 的 ONNX 模型，這需要 ONNX Runtime 1.17（以前是 1.12）。
在 ONNX2TF 中新增對 AffineGrid 操作的支持。
在編譯 AIMET 模型時，AI Hub 現在支持 AIMET 編碼版本 1.0.0。

2025年3月25日發布

我們注意到 “作業在8小時後超時” 作為失敗原因的增加。這個問題已經被調查並解決。如果您遇到此問題，請重新嘗試您的作業
以前用於指定ONNX Runtime的選項 ort 已被移除。請繼續使用 --target_runtime onnx。
添加了多個HTP優化選項的能力。

2025年3月10日發布

升級至QAIRT 2.32。Qualcomm AI Engine Direct SDK（又名QNN）現在被稱為Qualcomm AI Runtime SDK（又名QAIRT）。
將AIMET-ONNX升級至版本2.0.1。這是我們量化作業的底層引擎。由於這次升級，解決了幾個量化作業錯誤，包括作業因內部量化器錯誤而失敗。請重新提交您的作業並讓我們知道是否有任何問題。
實現了靜態形狀ROI Align TensorFlow Lite 支持。
在編譯作業的版本區間中添加了ONNX Runtime的版本信息。
請升級到最新的客戶端版本 0.25.0。

2025年2月24日發布

升級至 QNN 版本 2.31。
查看我們的新設備頁面，提供關於runtime支持的重要信息。

2025年2月10日發布

ONNX模型現在支持在上傳模型時引入外部權重。目錄名稱帶有 .onnx 副檔名或文件名帶有 .onnx.zip 擴展名，並且必須只有一個權重文件，該文件必須是 .data 文件。請注意：使用此功能支持LLM仍在開發中。
在查看配置文件作業的模型推理時間時，新增了中位數和迷你圖形，提供了更詳細的時間信息。
所有模型資產的多模型作業可視化：現在當您點擊作業右上角的“可視化”時，可以流覧並可視化與作業相關的所有適用模型（源、中間和目標）。
為Qualcomm QCS8275和QCS9075添加了新的IoT代理設備。這些設備現在可用於AI Hub作業。
如果您看到以下錯誤消息：Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs>，請更新到最新的AI Hub模型(pip install qai-hub-models)。我們知道這個問題直接影響Llama模型編譯。
引用過期數據集的工作會顯示準確的錯誤訊息。

2025年1月22日發布

改進了大模型的上傳速度，以防止超時和SSLEOF錯誤。請繼續報告任何發生的錯誤！
各種更新以改進失敗作業的錯誤消息。如果您遇到作業失敗並希望了解更多關於發生了什麼的詳細信息，請隨時在 Slack 上分享您的作業連結。

2025年1月6日發布

我們已經移除了AIMET PyTorch模型（.pt）上傳路徑。我們建議使用ONNX模型（.onnx）和量化參數的編碼文件（.encodings）。
我們的FAQ已遷移到其新家，在我們的文檔中！Check it out！
使用量化QNN模型的推理作業現在將可接受fp32 輸入與輸出。

2024年12月13日發布

為 TensorFlow Lite 添加了ONNX NonMaxSupression操作。
警告：我們將在1月6日的部署中棄用AIMET PyTorch模型（.pt）上傳路徑。我們建議使用ONNX模型（.onnx）和量化參數的編碼文件（.encodings）。

2024年11月25日發布

升級至QNN 2.28.2和2.28.0以支持自動設備。
針對Llama系列模型上傳到AI Hub的各種改進。我們已經解決了用戶反饋的超時問題。請讓我們知道是否遇到持續的問題。
現在可以通過添加 --quantize_weight_type float16 到編譯選項來壓縮FP32權重到FP16。
AI Hub中提供了新的自動設備！我們現在提供SA8775P和SA7255P ADP設備。

2024年11月11日發布

宣布：link jobs！這將多個模型組合成一個上下文二進制文件，以便在圖形之間共享權重，節省儲存空間。連結作業專屬於Hexagon Tensor Processor（HTP）的QNN上下文二進制文件。
改進並解決qai-hub客戶端常見問題：最新的客戶端版本0.19.0修復了上傳時遇到的錯誤。此外，上傳大小限制已從5GB提高到10GB（壓縮），並且大文件可切分多部分上傳。
ONNX版本已更新至1.17.0。
在我們的文檔中更新了示例，特別是量化評比和編譯作業。

2024年10月28日發布

新設備：Snapdragon 8 Elite在Snapdragon峰會上宣布，所有用戶都可以通過指定 device = hub.Device("Snapdragon 8 Elite QRD")。
新設備：車用設備Snapdragon Cockpit Gen 4（SA8295P）現在可以在AI Hub中使用。選擇它 --device "SA8295P ADP" --device-os 14。
一旦您使用SSO登錄AI Hub，您將自動重定向到感興趣的頁面。

2024年10月14日發布

(Beta) Qualcomm AI Hub 現在支持將 float32 模型轉換為使用整數數值（例如 int8、int16）。這個 Beta 功能可以通過 submit_quantize_job API 來量化 PyTorch 模型。更多詳情和範例請參閱我們的文檔。
現在支持Int64（推理和分析作業）！
升級至QNN 2.27。

2024年10月7日發布

改進了推理作業中對rank-0（scalar）tensors的支持。
更新作業狀態(並修復一個UI錯誤) 以提供更多關於作業所處階段的資訊。
在許多情況下改進了錯誤消息，包括：分析器不支持的數據類型、無效的TFLite模型文件和許多設備上的內存不足錯誤。
客戶端版本0.17.0 pip install qai-hub==0.17.0 已發布，這包括HTTP重試的修復，應使數據上傳和下載更加可靠！
新設備支持！您現在可以通過指定 device = hub.Device("Snapdragon X Plus 8-Core CRD") 在AI Hub上啟動作業並選用Snapdragon X Plus。

2024年9月23日發布

所有代理設備的芯片屬性已重命名為包含後綴-proxy。例如，chipset:qualcomm-qcs6490現在是chipset:qualcomm-qcs6490-proxy。設備名稱保持不變。
升級至ONNX Runtime 1.19.2，TFLite至2.17。

2024年9月11日發布

升級至QNN 2.26。
模型頁面現在有一個下拉菜單以按創建者過濾，使搜索組織中其他人的模型更容易。
跨UI的各種錯誤修復，包括QNN模型的更新可視化。查看並讓我們知道是否遇到任何問題！

2024年8月26日發布

自8月13日起，如果用戶已經有最大允許數量的作業正在運行，Hub在創建作業時不再拋出異常。相反，新作業被置於 pending 狀態，並在現有作業完成後自動安排執行。在python客戶端版本 0.14.1 中，我們為作業物件添加了一個名為 pending 的新屬性。處於pending狀態的作業現在將返回 True 如果調用 pending ，並返回 False 如果調用 running。
升級至QNN 2.25。
get_job_summaries 在客戶端中從此版本(0.15.0) 及以後可用。 get_jobs API已棄用，應使用 get_job_summaries 代替。
我們建議更新到客戶端版本0.15.0 pip install qai-hub==0.15.0，並且每次發布時更新您的客戶端，以確保您使用Qualcomm AI Hub的所有最新功能！

2024年8月12日發布

新客戶端版本0.14.0可用！
中間資產：當您提交編譯作業時，您現在會在編譯作業頁面上看到一個 "intermediate assets" 選項卡。此新功能允許AI Hub將編譯的中間狀態保存為AI Hub上的第一類模型。例如，如果您提交TorchScript模型進行TFLite編譯，將保存一個中間ONNX模型並可訪問。
作業限制：Hub現在將自動排程超過每個用戶最大限制的作業，而不是返回錯誤。如果您以前處理過此類的錯誤，現在已不再需要重提作業。

2024年7月29日發布

更新ONNX Runtime至1.18。
Qualcomm AI Hub開始支持Snapdragon Ride平台。查看我們為車用設備提供的預優化AI Hub模型，通過AI Hub在真實車用設備上測試這些模型，並讓我們知道是否遇到任何問題！

2024年7月15日發布

對Android設備的內存估算進行了改進，允許更精確的範圍。分析器避免外源堆使用的能力得到了改善，導致內存範圍更小。嘗試提交一個新作業並查看內存範圍！
將QNN更新至2.24.0，ONNX更新至1.16.0。
為ONNX Runtime添加了int16支持。

2024年7月1日發布

AI Hub作業可以自動與您的組織共享。要將用戶添加到您的組織，請發送電子郵件至 ai-hub-support@qti.qualcomm.com，並附上您團隊的電子郵件地址。
AI Hub作業也可以在您的組織外部與Qualcomm共享以獲得支持。點擊任何作業右上角的 “共享” 按鈕，並指定AI Hub用戶的電子郵件，該作業（及其相關的模型資產）將被共享。通過從作業中刪除電子郵件地址也可以撤銷訪問權限。
改進了AIMET模型編譯失敗的錯誤消息。
文檔已更新，適用於 precompiled_qnn_onnx。
為AI Hub網頁添加了詳細標題。現在，當您打開一個頁面時，它將指定您所在的頁面以及作業名稱（如適用）。
AI Hub以前版本的發布說明現在可以在我們的文檔中找到以供參考。

2024年6月17日發布

Windows設備現在在AI Hub上廣泛可用，包括全新的Snapdragon X Elite和上一代Snapdragon 8cx Gen 3參考設計。當您運行qai-hub list-devices時，您將看到它列出。通過指定 device = hub.Device("Snapdragon X Elite CRD") 來指定X Elite。
支持編譯預編譯過的QNN ONNX模型！使用 options="--target_runtime precompiled_qnn_onnx" 來指定您正在使用預編譯的ONNX Runtime模型。（注意：文檔中有錯字，將在下次發布中修復，請按上述指定使用該選項）。
添加了有關支持的ONNX Runtime選項的文檔。
在快速入門示例中增加了包括提交推理作業、下載模型等步驟。
在分析和推理作業中的額外錯誤詳細信息：如果您的作業失敗，請查看新增加的部分，標題為「運行時日誌中的附加信息」。這部分提供了關鍵細節，幫助您在不需要打開執行時日誌的情況下進行除錯。
更新至QNN版本2.23。

2024年6月4日發布

添加了設備系列列表：現在當您使用qai-hub list-devices時，您將看到這些列表（例如Google Pixel 3a系列，Samsung Galaxy S21系列等）。這應該有助於設備配置時間，請在適用時使用此選項！
更新至QNN版本2.22.6。
支持64位輸入類型作為編譯選項 --truncate_64bit_io。

2024年5月17日發布

通過ONNX QNN Execution Provider在Windows上添加了對Snapdragon X Elite NPU的支持，通過ONNX DirectML Execution Provider在Windows上添加了對Snapdragon X Elite GPU的支持——請在此處註冊以獲得使用資格！
QNN版本2.22支持（編譯資產現在針對QNN 2.22，而不是QNN版本2.20）。
應用AI Hub於Windows！
QNN的w4a8支持（--quantize_full_type w4a8）。
在我們的文檔中為每個runtime使用的上下文添加了更多信息。
棄用目標runtime qnn_bin。請現在使用 --target_runtime qnn_context_binary。上下文二進制文件是針對設備硬件架構編譯的。更多信息可以在我們的文檔中找到。

2024年5月6日發布

文檔現在包括將ONNX模型編譯為TFLite或QNN以及直接使用ONNX Runtime進行分析的示例。
ONNX Runtime的默認配置現在利用了最高速度的選項進行分析/推理。現在設置為3，這提供了默認情況下最優化的模型。
將TensorFlowLite升級至2.16.1（適用於分析作業）。
其他關於編譯作業性能的修復。

2024年4月22日發布

多種性能改進，提升錯誤報告能力和支援更多的網路層！
添加了QCS8450代理設備（請參見線程中的說明）。
升級至最新的ONNX運行時版本（1.17.3）。
更新了ONNX runtime模型的文檔。
為ONNX Runtime引入了IO選項。
為QNN路徑添加了w4a16量化支持。

2024年4月8日發布

引入了ONNX runtime（.onnx）和NPU的支持。提交編譯作業時，請通過指定 options=--target_runtime onnx 來嘗試。
對ONNX運行時進行了改進，包括許多加速。
為ONNX運行時模型添加了模型可視化。
增加了編譯作業的日誌記錄。
更多IOT代理設備：查看QCS8250，QCS8550代理設備。
升級至Tensorflow 2.15.0。
通過Hub添加了對int16，w8a16量化的支持。

2024年3月25日發布

添加了更多Galaxy S24設備以運行作業。
升級至最新的QNN版本2.20。
將模型上傳限制增加到10 GB。
添加了支持將AIMET（.onnx +編碼）量化模型轉換為ONNX並通過ONNX Runtime在設備上運行
優化：針對TFLite模型的深度卷積重塑其常量折疊。
為防止通過編譯選項輸入不正確名稱添加了額外檢查。

2024年3月11日發布

AI Hub引入了具有Snapdragon® 8 Gen 3芯片組的設備。通過指定 device = hub.Device("Samsung Galaxy S24") 來定位Snapdragon® 8 Gen 3。

2024年2月28日發布

Qualcomm AI Hub在2024年MWC上推出。
支持約75個QAI Hub模型，以通過TFLite和QNN運行時在各種移動設備上提供性能和準確性數據。