リリースノート
Released Aug 11, 2025
DLC support is now fully functional in AI Hub! As a result, we will be moving away from generating .so model library files. DLC files have proven to be suitable in the same situations (i.e. targeting AArch64 Android) and are more reliable. As a result, .so generation has been deprecated via AI Hub (effective immediately - it is no longer supported or maintained) and subsequently removed in ~6 weeks. To generate a .bin file, it will now go through .dlc. The runtime options to generate .bin (--qnn_context_binary) and .dlc (--qnn_dlc) as well as other runtime options remain unchanged! The deprecated option --qnn_bin_conversion_via_model_library can be used to generate .bin files through .so models. Linking jobs now take in .dlc files (1 or more) as well as one or more devices. The old style of linking .bin models is being deprecated. Additionally, --target_runtime qnn_lib_aarch64_android is being deprecated.
Upgraded to QAIRT 2.36 (2.36.4), which is now the default version. Currently Hub supports 2.33.2, 2.34.2 and 2.36.4.
Improved error messaging for validation errors in compile jobs due to QNN Context Binary Generation failures. Message includes <failed op_name>: <op_type>: <root-cause of failure> when applicable.
Added common ONNX runtime errors to our FAQ in our documentation.
Error messages on specific failed jobs now includes a pointer to check the runtime log for more information when applicable.
Please note we no longer quantize weights in the pipeline prior to profile/inference jobs that use ONNX Runtime. This change was made to support future enhancements, and for our performance measurements to be easily reproduced.
Released July 28, 2025
Upgraded to AIMET-ONNX 2.10.0 in our Quantize Job.
Localization of our documentation (https://app.aihub.qualcomm.com/docs/) is now available in 3 additional languages - Korean, Japanese and Traditional Chinese. Check it out by toggling the language selector in the bottom left corner.
Added a weight sharing attribute to devices (>=v73 and SA8295P). When you submit hub.get_devices() , then the attribute htp-supports-weight-sharing:true indicates which device HTPs allow weights to be shared.
2025年7月14日リリース
AI Hub now always produces ONNX models with external weights (.zip) regardless of the size of the model to address downstream issues affecting model upload and visualization. To turn this into a single model with embedded weights, users can do
import onnx model = onnx.load("your_model.onnx") onnx.save(model, "your_new_model.onnx")
OpSet 5のReshapeレイヤーを使用するONNXモデルで発生していたコンパイルバグを修正しました。
外部ウェイトを使用するONNXモデルのQuantizeジョブにおけるPSNR計算のバグを修正しました。
AIMET+ONNXからQNNへのコンパイル時に発生していたいくつかの問題に対処しました。
AI Hubクライアントで必要なprotobufのバージョン制限を緩和しました。protobuf>=3.20,<=6.31.1がインストール可能になりました。
Yolov8 QNNコンテキストバイナリでテンソル出力の順序に影響を与えていた問題が、最新のQAIRTバージョンで解決されました。
バージョンタブに表示されるAI Hubのバージョンが一時的にlocal-hub-1999と表示されていた問題が解決されました。
.dlcをターゲットとするw8a8およびw8a16の量子化モデルで、Q/DQノードに影響を与えるパフォーマンスグラフパスにより、著しい性能低下が報告されました。
2025年6月30日リリース
モデルの可視化機能が拡張され、int4レイヤーの表示が可能になりました。
さまざまな依存パッケージがアップグレードされました: QAIRT 2.35 が最新バージョンとして追加されました。デフォルトバージョンは引き続き QAIRT 2.34.2 です。量子化ジョブ用の AIMET ONNX 2.8.0. ONNX Runtime 1.22
2025年6月16日リリース
QAIRT SDK 2.34.2 にアップグレードされました。すべてのジョブでこのバージョンがデフォルトとして使用されます。
.dlc モデルの可視化サポートが追加されました(QAIRT SDK バージョン 2.34.2 以上が必要です)。
量子化ジョブは aimet-onnx 2.7.0 を使用するようになりました。
Qualcomm AI Hub CLI クライアントに
--verbose
オプションが追加され、詳細なログ出力が可能になりました。これは失敗したジョブのデバッグ時に役立ち、詳細情報を得るために当社チームから要求される場合があります。LLMエクスポートチュートリアルを使用して複数のグラフのうち1つをプロファイリングする際に、断続的に失敗するバグを修正しました。これは--qnn_optionsをフラグとして渡した際に、意図しない動作が発生していたためです。
2025年6月2日リリース
マルチグラフプロファイリングに関連するバグを修正しました。
RF-DETR モデルをサポートするため、TFLite パスに限定した 6D スライスのサポートを追加しました。
(2GB を超える)大規模モデルのサポートが、量子化ジョブおよび Compute プラットフォーム上でのプロファイル/推論ジョブに拡張されました。Android プラットフォームでは現在、大規模モデルのプロファイルまたは推論はサポートされていません。
aimet-onnx 2.6.0にアップグレードされました。
2025年5月14日リリース
CLI 経由でモデルをアップロードする際、モデル ID とクリック可能なモデルリンクが表示されるようになりました。
aimet-onnx 2.5.0にアップグレードされました。
2025年5月5日リリース
ユーザはAI Hubでコンパイルする大規模PyTorchまだはONNXモデル(以前は2GBより大きいモデルはエラーメッセージが表示)を持ち込むことができますが、大規模TFLiteモデルはまだサポートされていないことに留意してください。
複数のパッケージをアップグレードしました:QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0。
間違ったインプットシェイプを持ったジョブの際に、追加のエラーメッセージをAI Hubに送信しました。
precompiled_qnn_onnxパスをターゲットにした際は、コンパイルジョブはONNXモデルのアウトプットシャイプを重んじます。
2025年4月22日リリース
AI Hubでコンパイル、プロファイル、および推論ジョブを提出する際に、Deep Learning Container
.dlc
のサポートが利用可能になりました。例 をご覧ください。現在、torch/onnxをDLCにコンパイルし、DLCモデルのプロファイル/推論ジョブを提出するために使用されています。DLCの視覚化を含む追加機能のサポートは近日中に提供される予定です。QAIRT SDK 2.33.0のサポートが追加され、2.32.6にアップグレードされました。デフォルトは引き続き2.32で、最新バージョンは2.33です。
aimet-onnx 2.3.0にアップグレードされました。
Samsung Galaxy S25デバイスが 利用可能なデバイス に追加されました。
2025年4月8日リリース
AI Hubは現在、opset 20を使用するONNXモデルを生成しており、これは ONNX Runtime 1.17(以前は1.12)を必要とします。
ONNX2TFでAffineGrid opのサポートが追加されました。
AIMETモデルをコンパイルする際、AI Hubは現在AIMETエンコーディングバージョン1.0.0をサポートしています。
2025年3月25日リリース
"Job timed out after 8h" という失敗理由が増加していることが確認されました。この問題は調査され、軽減されました。この問題が発生した場合は、ジョブを再試行してください。
以前ONNX Runtimeを指定するために使用されていたオプション
ort
は削除されました。代わりにonnxを使用し続けてください:--target_runtime onnx
。複数のHTP最適化オプションを指定する機能が追加されました。
2025年3月10日リリース
QAIRT 2.32にアップグレードされました。Qualcomm AI Engine Direct SDK(別名QNN)は、現在Qualcomm AI Runtime SDK(別名QAIRT)として知られています。
AIMET-ONNXがバージョン2.0.1にアップグレードされました。これは量子化ジョブの基盤エンジンです。このアップグレードの結果、いくつかの量子化ジョブのバグが解決され、内部量子化エラーで失敗するジョブが含まれます。ジョブを再提出し、問題がある場合はお知らせください。
静的形状ROI Align TensorFlow Lite サポートが実装されました。
コンパイルジョブのバージョン小区分にONNX Runtimeのバージョン情報が追加されました。
最新のクライアントバージョン 0.25.0 にアップグレードしてください。
2025年2月24日リリース
2025年2月10日リリース
ONNXモデルは、モデルをアップロードする際に外部の重みを持ち込むことをサポートするようになりました。
.onnx
拡張子のディレクトリ名または.onnx.zip
拡張子のファイル名であり、正確に1つの重みファイル(.data
ファイル)を持つ必要があります。注意:この機能を使用するLLMのサポートはまだ開発中です。プロファイルジョブでモデル推論時間を表示する際に、中位数とスパークライングラフィックが追加され、より詳細なタイミング情報が提供されます。
すべてのモデルアセットのマルチモデルジョブ可視化:ジョブの右上隅にある「Visualize」ボタンをクリックすると、ジョブに関連するすべての適用可能なモデル(ソース、中間、ターゲット)をナビゲートして可視化する機能があります。
Qualcomm QCS8275およびQCS9075用の新しいIoTプロキシデバイスが追加されました。これらのデバイスは、ジョブを提出する際にAI Hubでターゲットにすることができます。
次のエラーメッセージが表示された場合:
Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs
、最新のAI Hubモデル (pip install qai-hub-models
) に更新してください。この問題はLlamaモデルのコンパイルに直接影響することがわかっています。期限切れのデータセットを参照するジョブは、正確なエラーメッセージで表示されるようになりました。
2025年1月22日リリース
大規模モデルのアップロード速度が向上し、タイムアウトやSSLEOFエラーを防止します。発生するエラーを引き続き報告してください!
エラーメッセージの改善のために、さまざまな変更が行われました。ジョブが失敗した場合、詳細な情報を求めている場合は、Slack にリンクを共有してください。
2025年1月6日リリース
AIMET PyTorchモデル(.pt)アップロードパスを削除しました。代わりにONNXモデル(.onnx)と量子化パラメータのエンコーディングファイル(.encodings)を使用することをお勧めします。
FAQが新しい場所に移動しました。ドキュメントでご確認ください!
fp16 I/Oを使用する量子化されたQNNモデルを使用する推論ジョブは、fp32データを受け入れるようになりました。
2024年12月13日リリース
TensorFlow Lite equivalentにONNX NonMaxSupression opの翻訳が追加されました。
警告: 2025年1月6日のデプロイメントの一環として、AIMET PyTorchモデル(.pt)のアップロードパスを廃止する予定です。代わりにONNXモデル(.onnx)と量子化パラメータを含むエンコーディングファイル(.encodings)を使用することをお勧めします。
2024年11月25日リリース
自動車デバイス用にQNN 2.28.2および2.28.0にアップグレードしました。
LlamaファミリーのモデルをAI Hubにアップロードする際の問題に関連するさまざまな改善を行いました。これらのLLMをアップロードする際にタイムアウトが発生したユーザーからのフィードバックに対応しました。引き続き問題が発生する場合はお知らせください。
コンパイルオプションに--quantize_weight_type float16を追加することで、FP32ウェイトをFP16に圧縮できるようになりました。
AI Hubで新しい自動デバイスが利用可能になりました!SA8775PおよびSA7255P ADPデバイスを提供しています。
2024年11月11日リリース
発表:link jobs!これにより、複数のモデルを単一のコンテキストバイナリに結合し、グラフ間でウェイトを共有してディスクスペースを節約できます。リンクジョブはHexagon Tensor Processor(HTP)のQNNコンテキストバイナリ専用です。
一般的な問題に対処するためのqai-hubクライアントの改善:最新のクライアントバージョン0.19.0には、アップロード時に発生したエラーの修正が含まれています。さらに、アップロードサイズの制限が5GBから10GB(圧縮)に引き上げられ、大きなファイルは複数の部分に分割してアップロードされます。
ONNXバージョンが1.17.0に更新されました。
documentation の例を更新しました。特に量子化ベンチマークおよびコンパイルジョブに関するものです。
2024年10月28日リリース
新しいデバイス:Snapdragon 8 EliteがSnapdragon Summitで発表され、
device = hub.Device("Snapdragon 8 Elite QRD")
を指定することで全ユーザーが利用可能です。新しいデバイス:自動車デバイスSnapdragon Cockpit Gen 4(SA8295P)がAI Hubで使用可能になりました。
--device "SA8295P ADP" --device-os 14
を指定して選択してください。SSOでAI Hubにサインインすると、自動的に関心のあるページにリダイレクトされます。
2024年10月14日リリース
(ベータ)Qualcomm AI Hubは、float32モデルを整数数値(例:int8、int16)に変換する機能を提供します。このベータ機能は、submit_quantize_job APIを使用してPyTorchモデルを量子化するために使用できます。詳細と例はドキュメント をご覧ください。
Int64がサポートされるようになりました(推論およびプロファイリングジョブの両方)。
QNN 2.27にアップグレードしました。
2024年10月7日リリース
推論ジョブにおけるrank-0(scalar)テンソルのサポートを改善しました。
ジョブのステージに関する確認するためのジョブを送信(厄介なUIバグを修正)した際はジョブ状態を更新してください。
多くの場合のエラーメッセージを改善しました。これには、プロファイラーでサポートされていないデータタイプの使用、無効なTFLiteモデルファイル、および多くのデバイスでのメモリエラーが含まれます。
クライアントバージョン0.17.0
pip install qai-hub==0.17.0
がリリースされ、HTTPリトライの修正が含まれており、データのアップロードとダウンロードがはるかに信頼性の高いものになりました。新しいデバイスサポート!
device = hub.Device("Snapdragon X Plus 8-Core CRD")
を指定することで、AI HubでSnapdragon X Plusをターゲットにしてジョブを起動できます。
2024年9月23日リリース
すべてのプロキシデバイスのチップセット属性に-proxyサフィックスが追加されました。たとえば、chipset:qualcomm-qcs6490はchipset:qualcomm-qcs6490-proxyになりました。デバイス名は変更されていません。
ONNX Runtimeを1.19.2、TFLiteを2.17にアップグレードしました。
2024年9月11日リリース
QNN 2.26にアップグレードしました。
モデルページに作成者でフィルタリングするためのドロップダウンが追加され、組織内の他の人が所有するモデルを検索しやすくなりました。
UI全体のさまざまなバグ修正が含まれており、QNNモデルの視覚化が更新されています。確認して、問題が発生した場合はお知らせください。
2024年8月26日リリース
8月13日以降、ユーザーが最大許可ジョブ数を超えてジョブを作成しようとした場合、Hubは例外をスローしなくなりました。代わりに、新しいジョブは
pending
状態になり、既存のジョブが終了すると自動的に実行されるようにスケジュールされます。Pythonクライアントバージョン0.14.1
では、ジョブオブジェクトにpending
という新しいプロパティが追加されました。バックエンドの容量が利用可能になるのを待っているpending
状態のジョブは、pending
が呼び出された場合にTrue
を返し、running
が呼び出された場合にFalse
を返します。QNNを2.25にアップグレードしました。
get_job_summaries
はこのバージョン (0.15.0
) 以降のクライアントで利用可能です。get_jobs
は廃止され、代わりにget_job_summaries
を使用してください。クライアントバージョン0.15.0
pip install qai-hub==0.15.0
への更新をお勧めします。また、Qualcomm AI Hubの最新機能を利用するために、各リリースごとにクライアントを更新してください。
2024年8月12日リリース
新しいクライアントバージョン0.14.0が利用可能です!
Intermediate Assets:コンパイルジョブを送信すると、コンパイルジョブページに「Intermediate Assets」タブが表示されるようになりました。この新機能により、AI Hubはコンパイルの中間状態をAI Hubの最初のクラスモデルとして保存できます。例えば、TFLiteコンパイル用にTorchScriptモデルを送信すると、中間のONNXモデルが保存され、アクセス可能になります。
ジョブの同時実行制限:エラーを返す代わりに、Hubはユーザーごとの最大制限を超えたジョブを自動的にキューに入れるようになりました。以前にエラーハンドリングで処理していた場合、ジョブを送信するためにエラーハンドリングは不要です。
2024年7月29日リリース
ONNX Runtimeを1.18に更新しました。
Qualcomm AI HubはSnapdragon Rideプラットフォームのサポートを拡張しました。事前に最適化されたAI Hubモデルを Automotive devices で確認し、実際の自動車デバイスでこれらのモデルをテストし、問題が発生した場合はお知らせください。
2024年7月15日リリース
Androidデバイスのメモリ推定の改善により、より正確な範囲が可能になりました。プロファイラーの外因性ヒープ使用を回避する能力が向上し、メモリ範囲が小さくなりました。新しいジョブを送信してメモリ範囲を確認してください。
QNNを2.24.0、ONNXを1.16.0に更新しました。
ONNX Runtimeにint16サポートを追加しました
2024年7月1日リリース
AI Hubジョブは組織内で自動的に共有できます。組織にユーザーを追加するには、チームのメールアドレスを ai-hub-support@qti.qualcomm.com に送信してください。
AI Hubジョブは組織外およびQualcommと共有してサポートを受けることもできます。ジョブの右上にある「Share」ボタンをクリックし、AI Hubユーザーのメールアドレスを指定すると、ジョブ(および関連するモデル資産)が共有されます。メールアドレスをジョブから削除することでアクセスを取り消すこともできます。
コンパイルに失敗したAIMETモデルのエラーメッセージを改善しました
Documentation が
precompiled_qnn_onnx
用に更新されました。AI Hubウェブページの詳細なタイトルを追加しました。ページを開くと、ページ名とジョブ名が表示されます。
AI Hubの以前のリリースノートは、documentation で参照できます。
2024年6月17日リリース
WindowsデバイスがAI Hubで広く利用可能になりました。新しいSnapdragon X Eliteおよび前世代のSnapdragon 8cx Gen 3リファレンスデザインが含まれます。qai-hub list-devicesを実行するとリストに表示されます。X Eliteをターゲットにするには、
device = hub.Device("Snapdragon X Elite CRD")
を指定してください。コンパイル済みQNN ONNXモデルのコンパイルサポートを追加しました!コンパイルジョブを送信する際に
options="--target_runtime precompiled_qnn_onnx"
を指定してください。(注:ドキュメントに誤字がありますが、次のリリースで修正されます。上記のオプションを使用してください)サポートされているONNX Runtimeオプションに関するドキュメントを追加しました
Getting Started Quick Exampleの手順を拡張し、推論ジョブの送信、モデルのダウンロードなどを含めました。
プロファイルおよび推論ジョブの追加エラーの詳細を強調表示しました:ジョブが失敗した場合、Additional Information from the Runtime Log という新しいセクションを確認してください。ランタイムログを展開してスクロールすることなく、デバッグに役立つ重要な詳細が提供されます。
QNNバージョン2.23に更新しました。
2024年6月4日リリース
デバイスファミリーのリストを追加しました:qai-hub list-devicesを使用すると、これらがリストに表示されます(Google Pixel 3aファミリー、Samsung Galaxy S21ファミリーなど)。デバイスプロビジョニング時間の短縮に役立ちますので、適用可能な場合はこのオプションを使用してください。
QNNバージョン2.22.6に更新しました。
64ビット入力タイプのコンパイルオプション
--truncate_64bit_io
をサポートしました
2024年5月17日リリース
WindowsでのONNX QNN Execution Providerを介したSnapdragon X Elite NPUのサポート、およびONNX DirectML Execution Providerを介したSnapdragon X Elite GPUのサポートを追加しました。早期アクセスするためにここからサインインを!
QNNバージョン2.22サポート(コンパイルされたアセットはQNNバージョン2.20ではなくQNN 2.22をターゲットにしています)
AI HubでのWindowsサポート!
QNNのw4a8サポート (
--quantize_full_type w4a8
)。ドキュメントに各ランタイムの使用時期に関する追加コンテキストを追加しました。
ターゲットランタイム
qnn_bin
の廃止。今後は--target_runtime qnn_context_binary
を使用してください。コンテキストバイナリはデバイスのハードウェアアーキテクチャに特化してコンパイルされます。詳細はドキュメントをご覧ください
2024年5月6日リリース
ドキュメントには、ONNXモデルをTFLiteまたはQNNにコンパイルする例や、ONNX Runtimeを使用して直接プロファイリングする例が含まれています
ONNX Runtimeのデフォルト設定は、プロファイリング/推論で最高速度を実現するオプションを利用するようになりました。現在、デフォルトで最適化されたモデルを提供する3に設定されています
TensorFlowLiteを2.16.1にアップグレードしました(プロファイルジョブ用)。
コンパイルジョブの追加のパフォーマンス修正。
2024年4月22日リリース
さまざまなパフォーマンスの改善、エラーレポートの改善、および追加のレイヤーサポートが追加されました!
QCS8450プロキシデバイスを追加しました(スレッド内の注記を参照)。
最新のONNXランタイムバージョン(1.17.3)にアップグレードしました。
ONNXランタイムモデルのドキュメントを更新しました。
ONNX RuntimeのIOオプションを導入しました。
QNNパスのw4a16量子化サポートを追加しました
2024年4月8日リリース
ONNXランタイム(.onnx)およびNPUサポートを導入しました。コンパイルジョブを送信する際にoptions=--target_runtime onnxを指定して試してみてください。
ONNXランタイムの改善には多くのスピードアップが含まれています。
ONNXランタイムモデルのモデル可視化を追加しました。
コンパイルジョブのログ記録を増やしました。
IOT用の追加のプロキシデバイス:QCS8250、QCS8550プロキシデバイスを確認してください。
Tensorflow 2.15.0にアップグレードしました
Hub経由でint16、w8a16量子化のサポートを追加しました
2024年3月25日リリース
ジョブ実行用にさらに多くのGalaxy S24デバイスを追加しました
最新のQNNバージョン2.20にアップグレードしました。
モデルのアップロード制限を10 GBに増やしました
AIMET(.onnx + エンコーディング)量子化モデルをONNXに変換し、ONNX Runtimeを介してオンデバイスで実行するサポートを追加しました
追加の最適化:TFLiteモデルのdepthwise convolutionのための定数折りたたみリシェイプ
コンパイルオプションを介して誤った入力名が渡されるのを防ぐための追加のチェック。
2024年3月11日リリース
Snapdragon® 8 Gen 3チップセットを搭載したデバイスをAI Hubに導入しました。Snapdragon® 8 Gen 3をターゲットにするには、device = hub.Device("Samsung Galaxy S24")を指定してください
2024年2月28日リリース
Qualcomm AI HubがMWC 2024で発表されました。
TFLiteおよびQNNランタイムを介してさまざまなモバイルデバイスでパフォーマンスと精度の数値を提供する約75のQAI Hubモデルをサポートしています。