リリースノート

Released Aug 11, 2025

  • DLC support is now fully functional in AI Hub! As a result, we will be moving away from generating .so model library files. DLC files have proven to be suitable in the same situations (i.e. targeting AArch64 Android) and are more reliable. As a result, .so generation has been deprecated via AI Hub (effective immediately - it is no longer supported or maintained) and subsequently removed in ~6 weeks. To generate a .bin file, it will now go through .dlc. The runtime options to generate .bin (--qnn_context_binary) and .dlc (--qnn_dlc) as well as other runtime options remain unchanged! The deprecated option --qnn_bin_conversion_via_model_library can be used to generate .bin files through .so models. Linking jobs now take in .dlc files (1 or more) as well as one or more devices. The old style of linking .bin models is being deprecated. Additionally, --target_runtime qnn_lib_aarch64_android is being deprecated.

  • Upgraded to QAIRT 2.36 (2.36.4), which is now the default version. Currently Hub supports 2.33.2, 2.34.2 and 2.36.4.

  • Improved error messaging for validation errors in compile jobs due to QNN Context Binary Generation failures. Message includes <failed op_name>: <op_type>: <root-cause of failure> when applicable.

  • Added common ONNX runtime errors to our FAQ in our documentation.

  • Error messages on specific failed jobs now includes a pointer to check the runtime log for more information when applicable.

  • Please note we no longer quantize weights in the pipeline prior to profile/inference jobs that use ONNX Runtime. This change was made to support future enhancements, and for our performance measurements to be easily reproduced.

Released July 28, 2025

  • Upgraded to AIMET-ONNX 2.10.0 in our Quantize Job.

  • Localization of our documentation (https://app.aihub.qualcomm.com/docs/) is now available in 3 additional languages - Korean, Japanese and Traditional Chinese. Check it out by toggling the language selector in the bottom left corner.

  • Added a weight sharing attribute to devices (>=v73 and SA8295P). When you submit hub.get_devices() , then the attribute htp-supports-weight-sharing:true indicates which device HTPs allow weights to be shared.

2025年7月14日リリース

  • AI Hub now always produces ONNX models with external weights (.zip) regardless of the size of the model to address downstream issues affecting model upload and visualization. To turn this into a single model with embedded weights, users can do

    import onnx
    model = onnx.load("your_model.onnx")
    onnx.save(model, "your_new_model.onnx")
    
  • OpSet 5のReshapeレイヤーを使用するONNXモデルで発生していたコンパイルバグを修正しました。

  • 外部ウェイトを使用するONNXモデルのQuantizeジョブにおけるPSNR計算のバグを修正しました。

  • AIMET+ONNXからQNNへのコンパイル時に発生していたいくつかの問題に対処しました。

  • AI Hubクライアントで必要なprotobufのバージョン制限を緩和しました。protobuf>=3.20,<=6.31.1がインストール可能になりました。

  • Yolov8 QNNコンテキストバイナリでテンソル出力の順序に影響を与えていた問題が、最新のQAIRTバージョンで解決されました。

  • バージョンタブに表示されるAI Hubのバージョンが一時的にlocal-hub-1999と表示されていた問題が解決されました。

  • .dlcをターゲットとするw8a8およびw8a16の量子化モデルで、Q/DQノードに影響を与えるパフォーマンスグラフパスにより、著しい性能低下が報告されました。

2025年6月30日リリース

  • モデルの可視化機能が拡張され、int4レイヤーの表示が可能になりました。

  • さまざまな依存パッケージがアップグレードされました: QAIRT 2.35 が最新バージョンとして追加されました。デフォルトバージョンは引き続き QAIRT 2.34.2 です。量子化ジョブ用の AIMET ONNX 2.8.0. ONNX Runtime 1.22

2025年6月16日リリース

  • QAIRT SDK 2.34.2 にアップグレードされました。すべてのジョブでこのバージョンがデフォルトとして使用されます。

  • .dlc モデルの可視化サポートが追加されました(QAIRT SDK バージョン 2.34.2 以上が必要です)。

  • 量子化ジョブは aimet-onnx 2.7.0 を使用するようになりました。

  • Qualcomm AI Hub CLI クライアントに --verbose オプションが追加され、詳細なログ出力が可能になりました。これは失敗したジョブのデバッグ時に役立ち、詳細情報を得るために当社チームから要求される場合があります。

  • LLMエクスポートチュートリアルを使用して複数のグラフのうち1つをプロファイリングする際に、断続的に失敗するバグを修正しました。これは--qnn_optionsをフラグとして渡した際に、意図しない動作が発生していたためです。

2025年6月2日リリース

  • マルチグラフプロファイリングに関連するバグを修正しました。

  • RF-DETR モデルをサポートするため、TFLite パスに限定した 6D スライスのサポートを追加しました。

  • (2GB を超える)大規模モデルのサポートが、量子化ジョブおよび Compute プラットフォーム上でのプロファイル/推論ジョブに拡張されました。Android プラットフォームでは現在、大規模モデルのプロファイルまたは推論はサポートされていません。

  • aimet-onnx 2.6.0にアップグレードされました。

2025年5月14日リリース

  • CLI 経由でモデルをアップロードする際、モデル ID とクリック可能なモデルリンクが表示されるようになりました。

  • aimet-onnx 2.5.0にアップグレードされました。

2025年5月5日リリース

  • ユーザはAI Hubでコンパイルする大規模PyTorchまだはONNXモデル(以前は2GBより大きいモデルはエラーメッセージが表示)を持ち込むことができますが、大規模TFLiteモデルはまだサポートされていないことに留意してください。

  • 複数のパッケージをアップグレードしました:QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0。

  • 間違ったインプットシェイプを持ったジョブの際に、追加のエラーメッセージをAI Hubに送信しました。

  • precompiled_qnn_onnxパスをターゲットにした際は、コンパイルジョブはONNXモデルのアウトプットシャイプを重んじます。

2025年4月22日リリース

  • AI Hubでコンパイル、プロファイル、および推論ジョブを提出する際に、Deep Learning Container .dlc のサポートが利用可能になりました。 をご覧ください。現在、torch/onnxをDLCにコンパイルし、DLCモデルのプロファイル/推論ジョブを提出するために使用されています。DLCの視覚化を含む追加機能のサポートは近日中に提供される予定です。

  • QAIRT SDK 2.33.0のサポートが追加され、2.32.6にアップグレードされました。デフォルトは引き続き2.32で、最新バージョンは2.33です。

  • aimet-onnx 2.3.0にアップグレードされました。

  • Samsung Galaxy S25デバイスが 利用可能なデバイス に追加されました。

2025年4月8日リリース

  • AI Hubは現在、opset 20を使用するONNXモデルを生成しており、これは ONNX Runtime 1.17(以前は1.12)を必要とします。

  • ONNX2TFでAffineGrid opのサポートが追加されました。

  • AIMETモデルをコンパイルする際、AI Hubは現在AIMETエンコーディングバージョン1.0.0をサポートしています。

2025年3月25日リリース

  • "Job timed out after 8h" という失敗理由が増加していることが確認されました。この問題は調査され、軽減されました。この問題が発生した場合は、ジョブを再試行してください。

  • 以前ONNX Runtimeを指定するために使用されていたオプション ort は削除されました。代わりにonnxを使用し続けてください:--target_runtime onnx

  • 複数のHTP最適化オプションを指定する機能が追加されました。

2025年3月10日リリース

  • QAIRT 2.32にアップグレードされました。Qualcomm AI Engine Direct SDK(別名QNN)は、現在Qualcomm AI Runtime SDK(別名QAIRT)として知られています。

  • AIMET-ONNXがバージョン2.0.1にアップグレードされました。これは量子化ジョブの基盤エンジンです。このアップグレードの結果、いくつかの量子化ジョブのバグが解決され、内部量子化エラーで失敗するジョブが含まれます。ジョブを再提出し、問題がある場合はお知らせください。

  • 静的形状ROI Align TensorFlow Lite サポートが実装されました。

  • コンパイルジョブのバージョン小区分にONNX Runtimeのバージョン情報が追加されました。

  • 最新のクライアントバージョン 0.25.0 にアップグレードしてください。

2025年2月24日リリース

  • QNNバージョン 2.31にアップグレードしました。

  • 新しい  デバイスページ をご覧ください。こちらでは、重要なランタイムサポート情報を提供しています。

2025年2月10日リリース

  • ONNXモデルは、モデルをアップロードする際に外部の重みを持ち込むことをサポートするようになりました。.onnx 拡張子のディレクトリ名または .onnx.zip 拡張子のファイル名であり、正確に1つの重みファイル(.data ファイル)を持つ必要があります。注意:この機能を使用するLLMのサポートはまだ開発中です。

  • プロファイルジョブでモデル推論時間を表示する際に、中位数とスパークライングラフィックが追加され、より詳細なタイミング情報が提供されます。

  • すべてのモデルアセットのマルチモデルジョブ可視化:ジョブの右上隅にある「Visualize」ボタンをクリックすると、ジョブに関連するすべての適用可能なモデル(ソース、中間、ターゲット)をナビゲートして可視化する機能があります。

  • Qualcomm QCS8275およびQCS9075用の新しいIoTプロキシデバイスが追加されました。これらのデバイスは、ジョブを提出する際にAI Hubでターゲットにすることができます。

  • 次のエラーメッセージが表示された場合:Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs、最新のAI Hubモデル (pip install qai-hub-models) に更新してください。この問題はLlamaモデルのコンパイルに直接影響することがわかっています。

  • 期限切れのデータセットを参照するジョブは、正確なエラーメッセージで表示されるようになりました。

2025年1月22日リリース

  • 大規模モデルのアップロード速度が向上し、タイムアウトやSSLEOFエラーを防止します。発生するエラーを引き続き報告してください!

  • エラーメッセージの改善のために、さまざまな変更が行われました。ジョブが失敗した場合、詳細な情報を求めている場合は、Slack にリンクを共有してください。

2025年1月6日リリース

  • AIMET PyTorchモデル(.pt)アップロードパスを削除しました。代わりにONNXモデル(.onnx)と量子化パラメータのエンコーディングファイル(.encodings)を使用することをお勧めします。

  • FAQが新しい場所に移動しました。ドキュメントでご確認ください!

  • fp16 I/Oを使用する量子化されたQNNモデルを使用する推論ジョブは、fp32データを受け入れるようになりました。

2024年12月13日リリース

  • TensorFlow Lite equivalentにONNX NonMaxSupression opの翻訳が追加されました。

  • 警告: 2025年1月6日のデプロイメントの一環として、AIMET PyTorchモデル(.pt)のアップロードパスを廃止する予定です。代わりにONNXモデル(.onnx)と量子化パラメータを含むエンコーディングファイル(.encodings)を使用することをお勧めします。

2024年11月25日リリース

  • 自動車デバイス用にQNN 2.28.2および2.28.0にアップグレードしました。

  • LlamaファミリーのモデルをAI Hubにアップロードする際の問題に関連するさまざまな改善を行いました。これらのLLMをアップロードする際にタイムアウトが発生したユーザーからのフィードバックに対応しました。引き続き問題が発生する場合はお知らせください。

  • コンパイルオプションに--quantize_weight_type float16を追加することで、FP32ウェイトをFP16に圧縮できるようになりました。

  • AI Hubで新しい自動デバイスが利用可能になりました!SA8775PおよびSA7255P ADPデバイスを提供しています。

2024年11月11日リリース

  • 発表:link jobs!これにより、複数のモデルを単一のコンテキストバイナリに結合し、グラフ間でウェイトを共有してディスクスペースを節約できます。リンクジョブはHexagon Tensor Processor(HTP)のQNNコンテキストバイナリ専用です。

  • 一般的な問題に対処するためのqai-hubクライアントの改善:最新のクライアントバージョン0.19.0には、アップロード時に発生したエラーの修正が含まれています。さらに、アップロードサイズの制限が5GBから10GB(圧縮)に引き上げられ、大きなファイルは複数の部分に分割してアップロードされます。

  • ONNXバージョンが1.17.0に更新されました。

  • documentation の例を更新しました。特に量子化ベンチマークおよびコンパイルジョブに関するものです。

2024年10月28日リリース

  • 新しいデバイス:Snapdragon 8 EliteがSnapdragon Summitで発表され、device = hub.Device("Snapdragon 8 Elite QRD") を指定することで全ユーザーが利用可能です。

  • 新しいデバイス:自動車デバイスSnapdragon Cockpit Gen 4(SA8295P)がAI Hubで使用可能になりました。--device "SA8295P ADP" --device-os 14 を指定して選択してください。

  • SSOでAI Hubにサインインすると、自動的に関心のあるページにリダイレクトされます。

2024年10月14日リリース

  • (ベータ)Qualcomm AI Hubは、float32モデルを整数数値(例:int8、int16)に変換する機能を提供します。このベータ機能は、submit_quantize_job APIを使用してPyTorchモデルを量子化するために使用できます。詳細と例はドキュメント をご覧ください。

  • Int64がサポートされるようになりました(推論およびプロファイリングジョブの両方)。

  • QNN 2.27にアップグレードしました。

2024年10月7日リリース

  • 推論ジョブにおけるrank-0(scalar)テンソルのサポートを改善しました。

  • ジョブのステージに関する確認するためのジョブを送信(厄介なUIバグを修正)した際はジョブ状態を更新してください。

  • 多くの場合のエラーメッセージを改善しました。これには、プロファイラーでサポートされていないデータタイプの使用、無効なTFLiteモデルファイル、および多くのデバイスでのメモリエラーが含まれます。

  • クライアントバージョン0.17.0 pip install qai-hub==0.17.0 がリリースされ、HTTPリトライの修正が含まれており、データのアップロードとダウンロードがはるかに信頼性の高いものになりました。

  • 新しいデバイスサポート! device = hub.Device("Snapdragon X Plus 8-Core CRD") を指定することで、AI HubでSnapdragon X Plusをターゲットにしてジョブを起動できます。

2024年9月23日リリース

  • すべてのプロキシデバイスのチップセット属性に-proxyサフィックスが追加されました。たとえば、chipset:qualcomm-qcs6490はchipset:qualcomm-qcs6490-proxyになりました。デバイス名は変更されていません。

  • ONNX Runtimeを1.19.2、TFLiteを2.17にアップグレードしました。

2024年9月11日リリース

  • QNN 2.26にアップグレードしました。

  • モデルページに作成者でフィルタリングするためのドロップダウンが追加され、組織内の他の人が所有するモデルを検索しやすくなりました。

  • UI全体のさまざまなバグ修正が含まれており、QNNモデルの視覚化が更新されています。確認して、問題が発生した場合はお知らせください。

2024年8月26日リリース

  • 8月13日以降、ユーザーが最大許可ジョブ数を超えてジョブを作成しようとした場合、Hubは例外をスローしなくなりました。代わりに、新しいジョブは pending 状態になり、既存のジョブが終了すると自動的に実行されるようにスケジュールされます。Pythonクライアントバージョン 0.14.1 では、ジョブオブジェクトに pending という新しいプロパティが追加されました。バックエンドの容量が利用可能になるのを待っている pending 状態のジョブは、pending が呼び出された場合に True を返し、running が呼び出された場合に False を返します。

  • QNNを2.25にアップグレードしました。

  • get_job_summaries はこのバージョン (0.15.0) 以降のクライアントで利用可能です。 get_jobs は廃止され、代わりに get_job_summaries を使用してください。

  • クライアントバージョン0.15.0 pip install qai-hub==0.15.0 への更新をお勧めします。また、Qualcomm AI Hubの最新機能を利用するために、各リリースごとにクライアントを更新してください。

2024年8月12日リリース

  • 新しいクライアントバージョン0.14.0が利用可能です!

  • Intermediate Assets:コンパイルジョブを送信すると、コンパイルジョブページに「Intermediate Assets」タブが表示されるようになりました。この新機能により、AI Hubはコンパイルの中間状態をAI Hubの最初のクラスモデルとして保存できます。例えば、TFLiteコンパイル用にTorchScriptモデルを送信すると、中間のONNXモデルが保存され、アクセス可能になります。

  • ジョブの同時実行制限:エラーを返す代わりに、Hubはユーザーごとの最大制限を超えたジョブを自動的にキューに入れるようになりました。以前にエラーハンドリングで処理していた場合、ジョブを送信するためにエラーハンドリングは不要です。

2024年7月29日リリース

  • ONNX Runtimeを1.18に更新しました。

  • Qualcomm AI HubはSnapdragon Rideプラットフォームのサポートを拡張しました。事前に最適化されたAI Hubモデルを Automotive devices で確認し、実際の自動車デバイスでこれらのモデルをテストし、問題が発生した場合はお知らせください。

2024年7月15日リリース

  • Androidデバイスのメモリ推定の改善により、より正確な範囲が可能になりました。プロファイラーの外因性ヒープ使用を回避する能力が向上し、メモリ範囲が小さくなりました。新しいジョブを送信してメモリ範囲を確認してください。

  • QNNを2.24.0、ONNXを1.16.0に更新しました。

  • ONNX Runtimeにint16サポートを追加しました

2024年7月1日リリース

  • AI Hubジョブは組織内で自動的に共有できます。組織にユーザーを追加するには、チームのメールアドレスを ai-hub-support@qti.qualcomm.com に送信してください。

  • AI Hubジョブは組織外およびQualcommと共有してサポートを受けることもできます。ジョブの右上にある「Share」ボタンをクリックし、AI Hubユーザーのメールアドレスを指定すると、ジョブ(および関連するモデル資産)が共有されます。メールアドレスをジョブから削除することでアクセスを取り消すこともできます。

  • コンパイルに失敗したAIMETモデルのエラーメッセージを改善しました

  • Documentationprecompiled_qnn_onnx 用に更新されました。

  • AI Hubウェブページの詳細なタイトルを追加しました。ページを開くと、ページ名とジョブ名が表示されます。

  • AI Hubの以前のリリースノートは、documentation で参照できます。

2024年6月17日リリース

  • WindowsデバイスがAI Hubで広く利用可能になりました。新しいSnapdragon X Eliteおよび前世代のSnapdragon 8cx Gen 3リファレンスデザインが含まれます。qai-hub list-devicesを実行するとリストに表示されます。X Eliteをターゲットにするには、device = hub.Device("Snapdragon X Elite CRD") を指定してください。

  • コンパイル済みQNN ONNXモデルのコンパイルサポートを追加しました!コンパイルジョブを送信する際に options="--target_runtime precompiled_qnn_onnx" を指定してください。(注:ドキュメントに誤字がありますが、次のリリースで修正されます。上記のオプションを使用してください)

  • サポートされているONNX Runtimeオプションに関するドキュメントを追加しました

  • Getting Started Quick Exampleの手順を拡張し、推論ジョブの送信、モデルのダウンロードなどを含めました。

  • プロファイルおよび推論ジョブの追加エラーの詳細を強調表示しました:ジョブが失敗した場合、Additional Information from the Runtime Log という新しいセクションを確認してください。ランタイムログを展開してスクロールすることなく、デバッグに役立つ重要な詳細が提供されます。

  • QNNバージョン2.23に更新しました。

2024年6月4日リリース

  • デバイスファミリーのリストを追加しました:qai-hub list-devicesを使用すると、これらがリストに表示されます(Google Pixel 3aファミリー、Samsung Galaxy S21ファミリーなど)。デバイスプロビジョニング時間の短縮に役立ちますので、適用可能な場合はこのオプションを使用してください。

  • QNNバージョン2.22.6に更新しました。

  • 64ビット入力タイプのコンパイルオプション --truncate_64bit_io をサポートしました

2024年5月17日リリース

  • WindowsでのONNX QNN Execution Providerを介したSnapdragon X Elite NPUのサポート、およびONNX DirectML Execution Providerを介したSnapdragon X Elite GPUのサポートを追加しました。早期アクセスするためにここからサインインを!

  • QNNバージョン2.22サポート(コンパイルされたアセットはQNNバージョン2.20ではなくQNN 2.22をターゲットにしています)

  • AI HubでのWindowsサポート!

  • QNNのw4a8サポート (--quantize_full_type w4a8)。

  • ドキュメントに各ランタイムの使用時期に関する追加コンテキストを追加しました。

  • ターゲットランタイム qnn_bin の廃止。今後は --target_runtime qnn_context_binary を使用してください。コンテキストバイナリはデバイスのハードウェアアーキテクチャに特化してコンパイルされます。詳細はドキュメントをご覧ください

2024年5月6日リリース

  • ドキュメントには、ONNXモデルをTFLiteまたはQNNにコンパイルする例や、ONNX Runtimeを使用して直接プロファイリングする例が含まれています

  • ONNX Runtimeのデフォルト設定は、プロファイリング/推論で最高速度を実現するオプションを利用するようになりました。現在、デフォルトで最適化されたモデルを提供する3に設定されています

  • TensorFlowLiteを2.16.1にアップグレードしました(プロファイルジョブ用)。

  • コンパイルジョブの追加のパフォーマンス修正。

2024年4月22日リリース

  • さまざまなパフォーマンスの改善、エラーレポートの改善、および追加のレイヤーサポートが追加されました!

  • QCS8450プロキシデバイスを追加しました(スレッド内の注記を参照)。

  • 最新のONNXランタイムバージョン(1.17.3)にアップグレードしました。

  • ONNXランタイムモデルのドキュメントを更新しました。

  • ONNX RuntimeのIOオプションを導入しました。

  • QNNパスのw4a16量子化サポートを追加しました

2024年4月8日リリース

  • ONNXランタイム(.onnx)およびNPUサポートを導入しました。コンパイルジョブを送信する際にoptions=--target_runtime onnxを指定して試してみてください。

  • ONNXランタイムの改善には多くのスピードアップが含まれています。

  • ONNXランタイムモデルのモデル可視化を追加しました。

  • コンパイルジョブのログ記録を増やしました。

  • IOT用の追加のプロキシデバイス:QCS8250、QCS8550プロキシデバイスを確認してください。

  • Tensorflow 2.15.0にアップグレードしました

  • Hub経由でint16、w8a16量子化のサポートを追加しました

2024年3月25日リリース

  • ジョブ実行用にさらに多くのGalaxy S24デバイスを追加しました

  • 最新のQNNバージョン2.20にアップグレードしました。

  • モデルのアップロード制限を10 GBに増やしました

  • AIMET(.onnx + エンコーディング)量子化モデルをONNXに変換し、ONNX Runtimeを介してオンデバイスで実行するサポートを追加しました

  • 追加の最適化:TFLiteモデルのdepthwise convolutionのための定数折りたたみリシェイプ

  • コンパイルオプションを介して誤った入力名が渡されるのを防ぐための追加のチェック。

2024年3月11日リリース

  • Snapdragon® 8 Gen 3チップセットを搭載したデバイスをAI Hubに導入しました。Snapdragon® 8 Gen 3をターゲットにするには、device = hub.Device("Samsung Galaxy S24")を指定してください

2024年2月28日リリース

  • Qualcomm AI HubがMWC 2024で発表されました。

  • TFLiteおよびQNNランタイムを介してさまざまなモバイルデバイスでパフォーマンスと精度の数値を提供する約75のQAI Hubモデルをサポートしています。