릴리즈 노트

Released Aug 22, 2025

  • We’ve migrated to a new single sign on (SSO) provider. There should be no disruption to users. If you hit any issues, please try re-logging in and let us know if there is any unexpected behaviour.

  • Upgraded to QAIRT 2.37.0, aimet_onnx 2.12.0.

  • Downloading models directly to memory has been deprecated. A warning has been added to the client and documentation accordingly. Please download source model to file via model = compile_job.download_target_model("model_filename"). The filename is required.

  • Client API get_jobs which has been deprecated for some time, has officially been removed. Please use get_job_summaries instead.

Released Aug 11, 2025

  • 이제 AI Hub에서 DLC 지원이 완전히 작동합니다! 이에 따라 .so 모델 라이브러리 파일 생성을 중단합니다. DLC 파일은 동일한 상황(예: AArch64 Android 대상)에 적합하며 더 안정적입니다. 따라서 .so 생성을 AI Hub에서 즉시 중단하며 (더 이상 지원 또는 유지되지 않음), 약 6주 후 완전히 제거됩니다. .bin 파일을 생성하려면 이제 .dlc를 통해 진행됩니다. .bin (–qnn_context_binary) 및 .dlc (–qnn_dlc) 생성을 위한 런타임 옵션은 기존과 동일하며, 다른 런타임 옵션도 변경되지 않았습니다! 더 이상 사용되지 않는 옵션인 –qnn_bin_conversion_via_model_library는 .so 모델을 통해 .bin 파일을 생성할 때 사용할 수 있습니다. 링크 작업은 이제 하나 이상의 .dlc 파일과 하나 이상의 디바이스를 입력으로 받습니다. 이전 방식의 .bin 모델 링크는 더 이상 사용되지 않습니다. 또한 –target_runtime qnn_lib_aarch64_android도 더 이상 사용되지 않습니다.

  • 기본 버전으로 QAIRT 2.36(2.36.4)로 업그레이드되었습니다. 현재 Hub는 2.33.2, 2.34.2, 2.36.4를 지원합니다.

  • QNN Context Binary 생성 실패로 인해 컴파일 작업에서 발생하는 유효성 검사 오류에 대한 메시지를 개선했습니다. 메시지에는 적용 가능한 경우 <failed op_name>: <op_type>: <root-cause of failure> 이 포함됩니다.

  • 우리 문서의 자주 묻는 질문 에 일반적인 ONNX 런타임 오류를 추가했습니다.

  • 특정 실패한 작업에 대한 오류 메시지에 적용 가능한 경우 런타임 로그를 확인하라는 안내가 추가되었습니다.

  • ONNX Runtime을 사용하는 프로파일/추론 작업 전에 파이프라인에서 가중치를 양자화하지 않게 되었습니다. 이 변경은 향후 기능 향상 지원 및 성능 측정의 재현성을 높이기 위해 이루어졌습니다.

2025년 7월 28일 릴리스

  • Quantize 작업에서 AIMET-ONNX 2.10.0으로 업그레이드되었습니다.

  • 문서(https://app.aihub.qualcomm.com/docs/)의 현지화가 이제 한국어, 일본어, 번체 중국어를 포함한 3개 언어로 추가 지원됩니다. 왼쪽 하단의 언어 선택기를 통해 확인해보세요.

  • 장치(v73 이상 및 SA8295P)에 weight sharing 속성이 추가되었습니다. hub.get_devices()를 제출하면 htp-supports-weight-sharing:true 속성이 해당 장치의 HTP가 weight sharing을 지원함을 나타냅니다.

2025년 7월 14일 릴리즈

  • AI Hub는 이제 모델 크기와 관계없이 항상 외부 가중치(.zip)를 포함한 ONNX 모델을 생성합니다. 이는 모델 업로드 및 시각화에 영향을 미치는 다운스트림 문제를 해결하기 위한 것입니다. 이를 가중치가 내장된 단일 모델로 변환하려면 사용자가 다음을 수행할 수 있습니다.

    import onnx
    model = onnx.load("your_model.onnx")
    onnx.save(model, "your_new_model.onnx")
    
  • OpSet 5의 Reshape 레이어를 사용하는 ONNX 모델에서 발생하던 컴파일 버그를 수정했습니다.

  • 외부 가중치를 사용하는 ONNX 모델의 Quantize 작업에서 PSNR 계산 관련 버그를 해결했습니다.

  • AIMET+ONNX에서 QNN으로 컴파일할 때 발생하던 일부 문제를 해결했습니다.

  • AI Hub 클라이언트에서 요구되는 protobuf 버전을 완화했습니다. 이제 사용자는 protobuf>=3.20,<=6.31.1을 설치할 수 있습니다.

  • Yolov8 QNN 컨텍스트 바이너리에서 텐서 출력 순서에 영향을 주던 문제가 최신 QAIRT 버전에서 해결되었습니다.

  • 버전 탭에 표시되던 AI Hub 버전이 일시적으로 local-hub-1999로 나타나는 문제가 있었으며, 현재는 해결되었습니다.

  • .dlc를 대상으로 하는 w8a8 및 w8a16 양자화 모델의 성능이 Q/DQ 노드에 영향을 주는 성능 그래프 패스 때문에 크게 저하되었던 문제가 있었습니다.

2025년 6월 30일 릴리즈

  • 모델 시각화 기능이 확장되어 int4 계층을 표시할 수 있게 되었습니다.

  • 다양한 종속 패키지가 업그레이드되었습니다: QAIRT 2.35가 최신 버전으로 추가되었습니다. 기본 버전은 여전히 QAIRT 2.34.2입니다. Quantize 작업을 위한 AIMET ONNX 2.8.0. ONNX Runtime 1.22

2025년 6월 16일 릴리즈

  • QAIRT SDK 2.34.2로 업그레이드되었습니다. 이제 모든 작업에서 기본 QAIRT SDK 버전으로 사용됩니다.

  • .dlc 모델 시각화 지원이 추가되었습니다. (단, QAIRT SDK 2.34.2 이상이 필요합니다.)

  • Quantize 작업은 이제 aimet-onnx 2.7.0을 사용합니다.

  • 퀄컴 AI Hub CLI 클라이언트에 --verbose 옵션이 추가되어 상세 로그를 출력할 수 있습니다. 실패한 작업을 디버깅할 때 유용하며, 추가 정보를 위해 당사 팀에서 요청할 수 있습니다.

  • LLM 내보내기 튜토리얼을 사용할 때, 여러 그래프 중 하나를 프로파일링할 때 간헐적으로 실패하던 버그를 수정했습니다. 이는 –qnn_options 플래그를 전달할 때 의도치 않은 동작이 발생했기 때문입니다.

2025년 6월 2일 릴리즈

  • 멀티 그래프 프로파일링 관련 버그 수정

  • RF-DETR 모델 지원을 위해 TFLite 경로에 한정된 6D 슬라이스 지원 추가

  • (2GB를 초과하는) 대형 모델 지원이 양자화 작업 및 Compute 플랫폼에서의 프로파일/추론 작업으로 확장되었습니다. Android 플랫폼은 현재 대형 모델의 프로파일 또는 추론을 지원하지 않습니다.

  • aimet-onnx 2.6.0으로 업그레이드

2025년 5월 14일 릴리즈

  • CLI를 통해 모델 업로드 시, 모델 ID와 클릭 가능한 모델 링크가 출력되도록 개선

  • aimet-onnx 2.5.0으로 업그레이드

2025년 5월 5일 릴리즈

  • 사용자는 이제 AI Hub를 통해 대용량 PyTorch 및 ONNX 모델을 컴파일할 수 있습니다 (이전에는 2GB를 초과하는 모델은 지원되지 않는다는 오류 메시지가 표시됨). 단, 대용량 TF-Lite 모델 생성은 아직 지원되지 않습니다.

  • 다양한 패키지가 업그레이드되었습니다: QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0.

  • AI Hub에 잘못된 입력 형태(input shape)의 작업이 제출될 경우 추가적인 오류 메시지가 제공됩니다.

  • 이제 ONNX 모델을 precompiled_qnn_onnx 경로로 타겟팅할 때 출력 형태(output shape)를 준수하여 컴파일 작업이 수행됩니다.

2025년 4월 22일 릴리즈

  • AI Hub에서 컴파일, 프로파일 및 추론 작업을 제출할 때 이제 Deep Learning Container .dlc 지원이 가능합니다. 예제 를 확인하십시오. 현재는 torch/onnx를 DLC로 컴파일하고 DLC 모델의 프로파일/추론 작업을 제출하는 데 사용됩니다. 추가 기능 지원, 포함 DLC 시각화는 곧 제공될 예정입니다.

  • QAIRT SDK 2.33.0 지원 추가 및 2.32.6으로 업그레이드되었습니다. 기본값은 계속해서 2.32이며 최신 버전은 이제 2.33입니다.

  • aimet-onnx 2.3.0으로 업그레이드되었습니다.

  • Samsung Galaxy S25 장치가 사용 가능한 장치 에 추가되었습니다.

2025년 4월 8일 릴리즈

  • AI Hub는 이제 opset 20을 사용하는 ONNX 모델을 생성하며, 이는 ONNX Runtime 1.17 (이전에는 1.12)을 필요로 합니다.

  • ONNX2TF에서 AffineGrid op 지원이 추가되었습니다.

  • AIMET 모델을 컴파일할 때 AI Hub는 이제 AIMET 인코딩 버전 1.0.0을 지원합니다.

2025년 3월 25일 릴리즈

  • “Job timed out after 8h”이라는 실패 이유가 증가하고 있었습니다. 이 문제는 조사되어 해결되었습니다. 이 문제가 발생하면 작업을 다시 시도해 주세요.

  • 이전에 ONNX Runtime을 지정하는 데 사용되었던 ort 옵션이 제거되었습니다. 대신 onnx를 계속 사용해 주세요: --target_runtime onnx.

  • 여러 HTP 최적화 옵션을 지정할 수 있는 기능이 추가되었습니다.

2025년 3월 10일 릴리즈

  • QAIRT 2.32로 업그레이드되었습니다. Qualcomm AI Engine Direct SDK(일명 QNN)는 이제 Qualcomm AI Runtime SDK(일명 QAIRT)로도 불립니다.

  • AIMET-ONNX가 버전 2.0.1로 업그레이드되었습니다. 이는 Quantize Job의 기본 엔진입니다. 이 업그레이드로 인해 여러 Quantize Job 버그가 해결되었으며, 내부 양자화 오류로 인해 실패한 작업도 포함됩니다. 작업을 다시 제출해 주시고 문제가 있으면 알려 주세요.

  • 정적 형태 ROI Align TensorFlow Lite 지원이 구현되었습니다.

  • 컴파일 작업의 버전 하위 섹션에 ONNX Runtime의 버전 정보가 추가되었습니다.

  • 최신 클라이언트 버전 0.25.0 으로 업그레이드해 주세요.

2025년 2월 24일 릴리즈

  • QNN 버전 2.31로 업그레이드되었습니다.

  • 새로운 장치 페이지 페이지를 확인해 보세요. 이 페이지는 주요 런타임 지원 정보를 제공합니다.

2025년 2월 10일 릴리즈

  • 이제 ONNX 모델은 모델 업로드 시 외부 가중치를 가져오는 것을 지원합니다. .onnx 확장자를 가진 디렉토리 이름 또는 .onnx.zip 확장자를 가진 파일 이름은 정확히 하나의 가중치 파일을 가져야 하며, 이는 .data 파일이어야 합니다. 참고: 이 기능을 사용하는 LLM 지원은 아직 개발 중입니다.

  • 프로파일 작업에서 모델 추론 시간을 볼 때 중간값 및 스파크라인 그래픽이 추가되어 더 자세한 타이밍 정보를 제공합니다.

  • 모든 모델 자산에 대한 다중 모델 작업 시각화: 이제 작업의 오른쪽 상단 모서리에 있는 시각화 버튼을 클릭하면 작업과 관련된 모든 적용 가능한 모델(소스, 중간 및 대상)을 탐색하고 시각화할 수 있습니다.

  • Added new IoT proxy devices for Qualcomm QCS8275 and QCS9075. These devices are now available in AI Hub to target when submitting a job.

  • 다음 오류 메시지가 표시되면: Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs, 최신 AI Hub Models(pip install qai-hub-models)로 업데이트해 주세요. 이 문제는 Llama 모델 컴파일에 직접 영향을 미치는 것으로 알고 있습니다.

  • 만료된 데이터셋을 참조하는 작업은 이제 정확한 오류 메시지와 함께 표시됩니다.

2025년 1월 22일 릴리즈

  • 대규모 모델의 업로드 속도가 개선되어 시간 초과 및 SSLEOF 오류를 방지합니다. 오류가 발생하면 계속 알려 주세요!

  • 실패한 작업의 오류 메시지를 개선하기 위한 다양한 변경 사항이 있습니다. 실패한 작업이 발생하고 무슨 일이 일어났는지 더 자세히 알고 싶다면 Slack 에 링크를 공유해 주세요.

2025년 1월 6일 릴리즈

  • AIMET PyTorch 모델(.pt) 업로드 경로가 제거되었습니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용하는 것을 권장합니다.

  • FAQ가 문서의 새 위치로 이동했습니다! 확인해 보세요!

  • fp16 I/O를 사용하는 양자화된 QNN 모델을 사용하는 추론 작업은 이제 fp32 데이터를 허용합니다.

2024년 12월 13일 릴리즈

  • ONNX NonMaxSupression 연산을 TFLite 동등 연산으로 번역 추가.

  • 경고: 1월 6일 배포의 일환으로 AIMET PyTorch 모델(.pt) 업로드 경로를 폐지할 예정입니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용할 것을 권장합니다.

2024년 11월 25일 릴리즈

  • 자동차 장치용 QNN 2.28.2 및 2.28.0으로 업그레이드되었습니다.

  • AI허브 에 Llama 계열 모델을 업로드하는 문제와 관련된 다양한 개선 사항. 이러한 LLM을 사용하여 AI허브 에 업로드하는 동안 시간 초과를 경험한 사용자로부터 피드백을 해결했습니다. 문제가 지속되면 알려주세요.

  • 이제 컴파일 옵션에 –quantize_weight_type float16을 추가하여 FP32 가중치를 FP16으로 압축할 수 있습니다.

  • AI허브 에서 새로운 자동 장치를 사용할 수 있습니다! 이제 SA8775P 및 SA7255P ADP 장치를 제공합니다.

2024년 11월 11일 릴리즈

  • 발표: link jobs! 이는 여러 모델을 단일 컨텍스트 바이너리로 결합하여 그래프 간에 가중치를 공유할 수 있어 디스크 공간을 절약합니다. 링크 작업은 Hexagon Tensor Processor (HTP)를 위한 QNN 컨텍스트 바이너리에만 독점적으로 사용됩니다.

  • 일반적인 문제를 해결하는 qai-hub 클라이언트 개선: 최신 클라이언트 버전 0.19.0에는 업로드 시 발생한 오류에 대한 수정 사항이 더 많이 있습니다. 또한 업로드 크기 제한이 5GB에서 10GB(압축)로 늘어났으며, 큰 파일은 여러 부분으로 업로드됩니다.

  • ONNX 버전이 1.17.0으로 업데이트되었습니다.

  • 문서 의 예시가 업데이트되어, 특히 양자화 벤치마킹 및 컴파일 작업에 대한 내용이 추가되었습니다.

2024년 10월 28일 릴리즈

  • 새로운 디바이스: Snapdragon 8 Elite가 Snapdragon Summit에서 발표되었으며, device = hub.Device("Snapdragon 8 Elite QRD") 를 지정하여 모든 사용자가 사용할 수 있습니다.

  • 새로운 디바이스: 자동차 디바이스인 Snapdragon Cockpit Gen 4 (SA8295P)가 이제 AI Hub에서 사용할 수 있습니다. --device "SA8295P ADP" --device-os 14 를 선택하십시오.

  • SSO로 AI Hub에 로그인하면 자동으로 관심 페이지로 리디렉션됩니다.

2024년 10월 14일 릴리즈

  • (베타) Qualcomm AI Hub는 이제 float32 모델을 정수 수치(e.g. int8, int16)로 변환할 수 있습니다. 이 베타 기능은 submit_quantize_job API를 통해 PyTorch 모델을 양자화하는 데 사용할 수 있습니다. 자세한 내용과 예제는 문서 를 참조하십시오.

  • 이제 int64가 지원됩니다(추론 및 프로파일링 작업 모두)!

  • QNN 2.27로 업그레이드되었습니다.

2024년 10월 7일 릴리즈

  • 추론 작업에서 rank-0 (스칼라) 텐서에 대한 지원이 향상되었습니다.

  • 작업이 제출될 때 작업 상태를 업데이트하여 작업의 진행 단계를 더 명확하게 보여줍니다(그리고 성가신 UI 버그를 수정했습니다).

  • 프로파일러에서 지원하지 않는 데이터 유형 사용, 잘못된 TFLite 모델 파일 및 많은 디바이스에서 메모리 부족 오류를 포함한 여러 경우에 대한 오류 메시지가 개선되었습니다.

  • 클라이언트 버전 0.17.0 pip install qai-hub==0.17.0 이 릴리즈되었으며, 이는 데이터 업로드 및 다운로드를 훨씬 더 신뢰할 수 있게 만드는 HTTP 재시도에 대한 수정 사항을 포함합니다.

  • 새로운 디바이스 지원! 이제 device = hub.Device("Snapdragon X Plus 8-Core CRD") 를 지정하여 AI Hub에서 Snapdragon X Plus를 대상으로 작업을 시작할 수 있습니다.

2024년 9월 23일 릴리즈

  • 모든 프록시 디바이스의 칩셋 속성에 -proxy 접미사가 추가되었습니다. 예를 들어, chipset:qualcomm-qcs6490은 이제 chipset:qualcomm-qcs6490-proxy입니다. 디바이스 이름은 변경되지 않았습니다.

  • ONNXRuntime 1.19.2, TFLite 2.17로 업그레이드되었습니다.

2024년 9월 11일 릴리즈

  • QNN 2.26으로 업그레이드되었습니다.

  • 모델 페이지에 생성자로 필터링할 수 있는 드롭다운이 추가되어 조직 내 다른 사람이 소유한 모델을 더 쉽게 검색할 수 있습니다.

  • QNN 모델에 대한 시각화를 포함한 UI 전반에 걸친 다양한 버그 수정이 포함되었습니다. 문제가 발생하면 알려주세요!

2024년 8월 26일 릴리즈

  • 8월 13일부터, 사용자가 실행 중인 최대 허용 작업 수를 이미 가지고 있는 경우 작업 생성 시 Hub가 더 이상 예외를 발생시키지 않습니다. 대신, 새로운 작업은 대기 상태로 설정되고 기존 작업이 완료되면 자동으로 실행됩니다. Python 클라이언트 버전 0.14.1 에서는 작업 객체에 pending 이라는 새 속성이 추가되었습니다. 백엔드 용량을 기다리는 대기 상태의 작업은 이제 pending 이 호출되면 True, running 이 호출되면 False 를 반환합니다.

  • QNN 2.25로 업그레이드되었습니다.

  • get_job_summaries 는 이 버전(0.15.0)부터 클라이언트에서 사용할 수 있습니다. get_jobs API는 더 이상 사용되지 않으며 get_job_summaries 를 대신 사용해야 합니다.

  • Qualcomm AI Hub의 최신 기능을 모두 사용하려면 클라이언트 버전 0.15.0 pip install qai-hub==0.15.0 으로 업데이트하고 각 릴리즈마다 클라이언트를 업데이트하는 것이 좋습니다!

2024년 8월 12일 릴리즈

  • 새로운 클라이언트 버전 0.14.0이 릴리즈되었습니다!

  • 중간 자산: 컴파일 작업을 제출하면 이제 컴파일 작업 페이지에 “중간 자산” 탭이 표시됩니다. 이 새로운 기능을 통해 AI Hub는 컴파일의 중간 상태를 AI Hub의 일급 모델로 저장할 수 있습니다. 예를 들어, TFLite 컴파일을 위해 TorchScript 모델을 제출하면 중간 ONNX 모델이 저장되고 액세스할 수 있습니다.

  • 작업 동시성 제한: 오류를 반환하는 대신, Hub는 이제 사용자당 최대 제한을 초과하는 작업을 자동으로 대기열에 추가합니다. 이전에 오류 처리를 통해 오류를 처리한 경우, 이제 작업을 제출하는 데 더 이상 필요하지 않습니다.

2024년 7월 29일 릴리즈

  • ONNX 1.18로 업그레이드

  • Qualcomm AI Hub는 Snapdragon Ride 플랫폼을 포함하도록 지원을 확장했습니다. 자동차 디바이스 에 사용할 수 있는 사전 최적화된 AI Hub 모델을 확인하고, AI Hub를 통해 실제 자동차 디바이스에서 이러한 모델을 테스트해보고 문제가 발생하면 알려주세요!

2024년 7월 15일 릴리즈

  • Android 디바이스의 메모리 추정치가 개선되어 훨씬 더 정확한 범위를 제공할 수 있게 되었습니다. 프로파일러의 외부 힙 사용을 피하는 능력이 향상되어 더 작은 메모리 범위를 제공합니다. 새로운 작업을 제출하고 메모리 범위를 확인해보세요!

  • QNN 2.24.0, ONNX 1.16.0으로 업그레이드

  • ONNX Runtime에 대한 int16 지원이 추가되었습니다.

2024년 7월 1일 릴리즈

  • AI Hub 작업은 조직과 자동으로 공유할 수 있습니다. 조직에 사용자를 추가하려면 팀원의 이메일 주소를 포함하여 ai-hub-support@qti.qualcomm.com 로 이메일을 보내주세요.

  • AI Hub 작업은 조직 외부 및 Qualcomm과도 공유할 수 있습니다. 작업의 오른쪽 상단에 있는 “공유” 버튼을 클릭하고 AI Hub 사용자의 이메일을 지정하면 작업(및 관련 모델 자산)이 공유됩니다. 이메일 주소를 작업에서 제거하여 액세스를 취소할 수도 있습니다.

  • 컴파일에 실패한 AIMET 모델에 대한 오류 메시지가 개선되었습니다.

  • precompiled_qnn_onnx 에 대한 문서 가 업데이트되었습니다.

  • AI Hub 웹페이지에 대한 자세한 제목이 추가되었습니다. 이제 페이지를 열면 해당 페이지와 해당되는 작업 이름이 지정됩니다.

  • AI Hub의 이전 릴리즈의 릴리즈 노트는 참조용으로 문서 에서 찾을 수 있습니다.

2024년 6월 17일 릴리즈

  • Windows 디바이스는 이제 AI Hub에서 널리 사용 가능하며, 새로운 Snapdragon X Elite 및 이전 세대 Snapdragon 8cx Gen 3 참조 디자인을 포함합니다. qai-hub list-devices를 실행하면 목록에 표시됩니다. device = hub.Device("Snapdragon X Elite CRD") 를 지정하여 X Elite를 대상으로 작업을 실행하십시오.

  • 사전 컴파일된 QNN ONNX 모델 컴파일 지원! 사전 컴파일된 ONNX Runtime 모델을 사용 중임을 지정하려면 options="--target_runtime precompiled_qnn_onnx" 를 사용하십시오. (참고: 문서에 오타가 있으며 다음 릴리즈에서 수정될 예정입니다. 위에 지정된 옵션을 사용하십시오).

  • 지원되는 ONNX Runtime 옵션에 대한 문서가 추가되었습니다.

  • 시작하기 빠른 예제에 추론 작업 제출, 모델 다운로드 등을 포함한 단계가 확장되었습니다.

  • 프로파일 및 추론 작업에 대한 추가 오류 세부 정보가 강조 표시되었습니다: 작업이 실패하면 런타임 로그의 추가 정보 라는 새 섹션을 확인하십시오. 런타임 로그를 확장하고 스크롤하지 않고도 디버그하는 데 도움이 되는 주요 세부 정보를 제공합니다.

  • QNN 버전 2.23으로 업데이트되었습니다.

2024년 6월 4일 릴리즈

  • 디바이스 패밀리 목록이 추가되었습니다: 이제 qai-hub list-devices를 사용할 때 이러한 목록이 표시됩니다(Google Pixel 3a 패밀리, Samsung Galaxy S21 패밀리 등). 이는 디바이스 프로비저닝 시간을 단축하는 데 도움이 되므로 해당 옵션을 사용할 때 사용하십시오!

  • QNN 버전 2.22.6으로 업데이트되었습니다.

  • 64비트 입력 유형에 대한 컴파일 옵션 --truncate_64bit_io 지원이 추가되었습니다.

2024년 5월 17일 릴리즈

  • ONNX QNN 실행 공급자를 통한 Windows에서 Snapdragon X Elite NPU 및 ONNX DirectML 실행 공급자를 통한 Windows에서 Snapdragon X Elite GPU 지원이 추가되었습니다. 조기 액세스를 위해 여기에 등록하십시오!

  • QNN 버전 2.22 지원(컴파일된 자산은 이제 QNN 버전 2.20 대신 QNN 2.22를 대상으로 함).

  • AI Hub에서 Windows 지원!

  • QNN에 대한 w4a8 지원(--quantize_full_type w4a8).

  • 문서에 각 런타임을 사용할 때의 추가 컨텍스트가 추가되었습니다.

  • 대상 런타임 qnn_bin 의 사용 중단. 이제 --target_runtime qnn_context_binary 를 사용하십시오. 컨텍스트 바이너리는 디바이스의 하드웨어 아키텍처에 맞게 컴파일됩니다. 자세한 내용은 문서에서 확인할 수 있습니다.

2024년 5월 6일 릴리즈

  • 문서에는 이제 ONNX 모델을 TFLite 또는 QNN으로 컴파일하고 ONNX Runtime을 사용하여 직접 프로파일링하는 예제가 포함되어 있습니다.

  • ONNX Runtime의 기본 구성은 이제 프로파일링/추론에서 가장 높은 속도를 위한 옵션을 활용합니다. 기본적으로 가장 최적화된 모델을 제공하는 3으로 설정되었습니다.

  • (프로파일링 작업을 위해)TensorFlowLite를 2.16.1 로 업그레이되었습니다.

  • 컴파일 작업에 대한 추가 성능 수정.

2024년 4월 22일 릴리즈

  • 다양한 성능 개선, 오류 보고 개선 및 추가 레이어 지원이 추가되었습니다!

  • QCS8450 프록시 디바이스가 추가되었습니다(스레드의 참고 사항 참조).

  • 최신 ONNX runtime (1.17.3)으로 업그레이드 되었습니다.

  • ONNX 런타임 모델에 대한 문서가 업데이트되었습니다.

  • ONNX Runtime에 대한 IO 옵션이 도입되었습니다.

  • QNN 경로에 대한 w4a16 양자화 지원이 추가되었습니다.

2024년 4월 8일 릴리즈

  • ONNX 런타임(.onnx) 및 NPU 지원이 도입되었습니다. 컴파일 작업을 제출할 때 options=--target_runtime onnx 를 지정하여 사용해보십시오.

  • ONNX 런타임의 개선 사항에는 많은 속도 향상이 포함됩니다.

  • ONNX 런타임 모델에 대한 모델 시각화가 추가되었습니다.

  • 컴파일 작업에 대한 로깅이 증가했습니다.

  • IOT용 더 많은 프록시 디바이스: QCS8250, QCS8550 프록시 디바이스를 확인하십시오.

  • Tensorflow 2.15.0으로 업그레이드되었습니다.

  • Hub를 통한 int16, w8a16 양자화 지원이 추가되었습니다.

2024년 3월 25일 릴리즈

  • 작업 실행을 위한 더 많은 Galaxy S24 디바이스가 추가되었습니다.

  • 최신 QNN 버전 2.20으로 업그레이드되었습니다.

  • 모델 업로드 제한이 10GB로 증가했습니다.

  • AIMET(.onnx + 인코딩) 양자화 모델을 ONNX로 변환하고 ONNX Runtime을 통해 디바이스에서 실행할 수 있는 지원이 추가되었습니다.

  • 최적화 추가: constant folding reshape for depthwise convolutions for TFLite 모델들.

  • 잘못된 입력 이름이 컴파일 옵션을 통해 전달되지 않도록 추가 검사를 수행합니다.

2024년 3월 11일

  • 스냅드래곤® 8 젠 3 칩셋을 AI허브에 도입하였습니다. 스냅드래곤® 8 젠 3 device = hub.Device("Samsung Galaxy S24") 를 지정해서 대상 단말을 설정하세요.

2024년 2월 28일 릴리즈

  • MWC 2024에서 퀄컴AI허브 출시

  • 약 75개의 QAI 허브 모델에 대한 지원을 통해 TFLite 및 QNN 런타임을 통해 다양한 모바일 장치에서 성능 및 정확도 수치를 제공합니다.