릴리즈 노트
Released Aug 22, 2025
We’ve migrated to a new single sign on (SSO) provider. There should be no disruption to users. If you hit any issues, please try re-logging in and let us know if there is any unexpected behaviour.
Upgraded to QAIRT 2.37.0, aimet_onnx 2.12.0.
Downloading models directly to memory has been deprecated. A warning has been added to the client and documentation accordingly. Please download source model to file via
model = compile_job.download_target_model("model_filename")
. The filename is required.Client API
get_jobs
which has been deprecated for some time, has officially been removed. Please useget_job_summaries
instead.
Released Aug 11, 2025
이제 AI Hub에서 DLC 지원이 완전히 작동합니다! 이에 따라 .so 모델 라이브러리 파일 생성을 중단합니다. DLC 파일은 동일한 상황(예: AArch64 Android 대상)에 적합하며 더 안정적입니다. 따라서 .so 생성을 AI Hub에서 즉시 중단하며 (더 이상 지원 또는 유지되지 않음), 약 6주 후 완전히 제거됩니다. .bin 파일을 생성하려면 이제 .dlc를 통해 진행됩니다. .bin (–qnn_context_binary) 및 .dlc (–qnn_dlc) 생성을 위한 런타임 옵션은 기존과 동일하며, 다른 런타임 옵션도 변경되지 않았습니다! 더 이상 사용되지 않는 옵션인 –qnn_bin_conversion_via_model_library는 .so 모델을 통해 .bin 파일을 생성할 때 사용할 수 있습니다. 링크 작업은 이제 하나 이상의 .dlc 파일과 하나 이상의 디바이스를 입력으로 받습니다. 이전 방식의 .bin 모델 링크는 더 이상 사용되지 않습니다. 또한 –target_runtime qnn_lib_aarch64_android도 더 이상 사용되지 않습니다.
기본 버전으로 QAIRT 2.36(2.36.4)로 업그레이드되었습니다. 현재 Hub는 2.33.2, 2.34.2, 2.36.4를 지원합니다.
QNN Context Binary 생성 실패로 인해 컴파일 작업에서 발생하는 유효성 검사 오류에 대한 메시지를 개선했습니다. 메시지에는 적용 가능한 경우 <failed op_name>: <op_type>: <root-cause of failure> 이 포함됩니다.
우리 문서의 자주 묻는 질문 에 일반적인 ONNX 런타임 오류를 추가했습니다.
특정 실패한 작업에 대한 오류 메시지에 적용 가능한 경우 런타임 로그를 확인하라는 안내가 추가되었습니다.
ONNX Runtime을 사용하는 프로파일/추론 작업 전에 파이프라인에서 가중치를 양자화하지 않게 되었습니다. 이 변경은 향후 기능 향상 지원 및 성능 측정의 재현성을 높이기 위해 이루어졌습니다.
2025년 7월 28일 릴리스
Quantize 작업에서 AIMET-ONNX 2.10.0으로 업그레이드되었습니다.
문서(https://app.aihub.qualcomm.com/docs/)의 현지화가 이제 한국어, 일본어, 번체 중국어를 포함한 3개 언어로 추가 지원됩니다. 왼쪽 하단의 언어 선택기를 통해 확인해보세요.
장치(v73 이상 및 SA8295P)에 weight sharing 속성이 추가되었습니다. hub.get_devices()를 제출하면 htp-supports-weight-sharing:true 속성이 해당 장치의 HTP가 weight sharing을 지원함을 나타냅니다.
2025년 7월 14일 릴리즈
AI Hub는 이제 모델 크기와 관계없이 항상 외부 가중치(.zip)를 포함한 ONNX 모델을 생성합니다. 이는 모델 업로드 및 시각화에 영향을 미치는 다운스트림 문제를 해결하기 위한 것입니다. 이를 가중치가 내장된 단일 모델로 변환하려면 사용자가 다음을 수행할 수 있습니다.
import onnx model = onnx.load("your_model.onnx") onnx.save(model, "your_new_model.onnx")
OpSet 5의 Reshape 레이어를 사용하는 ONNX 모델에서 발생하던 컴파일 버그를 수정했습니다.
외부 가중치를 사용하는 ONNX 모델의 Quantize 작업에서 PSNR 계산 관련 버그를 해결했습니다.
AIMET+ONNX에서 QNN으로 컴파일할 때 발생하던 일부 문제를 해결했습니다.
AI Hub 클라이언트에서 요구되는 protobuf 버전을 완화했습니다. 이제 사용자는 protobuf>=3.20,<=6.31.1을 설치할 수 있습니다.
Yolov8 QNN 컨텍스트 바이너리에서 텐서 출력 순서에 영향을 주던 문제가 최신 QAIRT 버전에서 해결되었습니다.
버전 탭에 표시되던 AI Hub 버전이 일시적으로 local-hub-1999로 나타나는 문제가 있었으며, 현재는 해결되었습니다.
.dlc를 대상으로 하는 w8a8 및 w8a16 양자화 모델의 성능이 Q/DQ 노드에 영향을 주는 성능 그래프 패스 때문에 크게 저하되었던 문제가 있었습니다.
2025년 6월 30일 릴리즈
모델 시각화 기능이 확장되어 int4 계층을 표시할 수 있게 되었습니다.
다양한 종속 패키지가 업그레이드되었습니다: QAIRT 2.35가 최신 버전으로 추가되었습니다. 기본 버전은 여전히 QAIRT 2.34.2입니다. Quantize 작업을 위한 AIMET ONNX 2.8.0. ONNX Runtime 1.22
2025년 6월 16일 릴리즈
QAIRT SDK 2.34.2로 업그레이드되었습니다. 이제 모든 작업에서 기본 QAIRT SDK 버전으로 사용됩니다.
.dlc 모델 시각화 지원이 추가되었습니다. (단, QAIRT SDK 2.34.2 이상이 필요합니다.)
Quantize 작업은 이제 aimet-onnx 2.7.0을 사용합니다.
퀄컴 AI Hub CLI 클라이언트에
--verbose
옵션이 추가되어 상세 로그를 출력할 수 있습니다. 실패한 작업을 디버깅할 때 유용하며, 추가 정보를 위해 당사 팀에서 요청할 수 있습니다.LLM 내보내기 튜토리얼을 사용할 때, 여러 그래프 중 하나를 프로파일링할 때 간헐적으로 실패하던 버그를 수정했습니다. 이는 –qnn_options 플래그를 전달할 때 의도치 않은 동작이 발생했기 때문입니다.
2025년 6월 2일 릴리즈
멀티 그래프 프로파일링 관련 버그 수정
RF-DETR 모델 지원을 위해 TFLite 경로에 한정된 6D 슬라이스 지원 추가
(2GB를 초과하는) 대형 모델 지원이 양자화 작업 및 Compute 플랫폼에서의 프로파일/추론 작업으로 확장되었습니다. Android 플랫폼은 현재 대형 모델의 프로파일 또는 추론을 지원하지 않습니다.
aimet-onnx 2.6.0으로 업그레이드
2025년 5월 14일 릴리즈
CLI를 통해 모델 업로드 시, 모델 ID와 클릭 가능한 모델 링크가 출력되도록 개선
aimet-onnx 2.5.0으로 업그레이드
2025년 5월 5일 릴리즈
사용자는 이제 AI Hub를 통해 대용량 PyTorch 및 ONNX 모델을 컴파일할 수 있습니다 (이전에는 2GB를 초과하는 모델은 지원되지 않는다는 오류 메시지가 표시됨). 단, 대용량 TF-Lite 모델 생성은 아직 지원되지 않습니다.
다양한 패키지가 업그레이드되었습니다: QAIRT 2.33.2, ONNX Runtime 1.21.1, aimet-onnx 2.4.0.
AI Hub에 잘못된 입력 형태(input shape)의 작업이 제출될 경우 추가적인 오류 메시지가 제공됩니다.
이제 ONNX 모델을 precompiled_qnn_onnx 경로로 타겟팅할 때 출력 형태(output shape)를 준수하여 컴파일 작업이 수행됩니다.
2025년 4월 22일 릴리즈
AI Hub에서 컴파일, 프로파일 및 추론 작업을 제출할 때 이제 Deep Learning Container
.dlc
지원이 가능합니다. 예제 를 확인하십시오. 현재는 torch/onnx를 DLC로 컴파일하고 DLC 모델의 프로파일/추론 작업을 제출하는 데 사용됩니다. 추가 기능 지원, 포함 DLC 시각화는 곧 제공될 예정입니다.QAIRT SDK 2.33.0 지원 추가 및 2.32.6으로 업그레이드되었습니다. 기본값은 계속해서 2.32이며 최신 버전은 이제 2.33입니다.
aimet-onnx 2.3.0으로 업그레이드되었습니다.
Samsung Galaxy S25 장치가 사용 가능한 장치 에 추가되었습니다.
2025년 4월 8일 릴리즈
AI Hub는 이제 opset 20을 사용하는 ONNX 모델을 생성하며, 이는 ONNX Runtime 1.17 (이전에는 1.12)을 필요로 합니다.
ONNX2TF에서 AffineGrid op 지원이 추가되었습니다.
AIMET 모델을 컴파일할 때 AI Hub는 이제 AIMET 인코딩 버전 1.0.0을 지원합니다.
2025년 3월 25일 릴리즈
“Job timed out after 8h”이라는 실패 이유가 증가하고 있었습니다. 이 문제는 조사되어 해결되었습니다. 이 문제가 발생하면 작업을 다시 시도해 주세요.
이전에 ONNX Runtime을 지정하는 데 사용되었던
ort
옵션이 제거되었습니다. 대신 onnx를 계속 사용해 주세요:--target_runtime onnx
.여러 HTP 최적화 옵션을 지정할 수 있는 기능이 추가되었습니다.
2025년 3월 10일 릴리즈
QAIRT 2.32로 업그레이드되었습니다. Qualcomm AI Engine Direct SDK(일명 QNN)는 이제 Qualcomm AI Runtime SDK(일명 QAIRT)로도 불립니다.
AIMET-ONNX가 버전 2.0.1로 업그레이드되었습니다. 이는 Quantize Job의 기본 엔진입니다. 이 업그레이드로 인해 여러 Quantize Job 버그가 해결되었으며, 내부 양자화 오류로 인해 실패한 작업도 포함됩니다. 작업을 다시 제출해 주시고 문제가 있으면 알려 주세요.
정적 형태 ROI Align TensorFlow Lite 지원이 구현되었습니다.
컴파일 작업의 버전 하위 섹션에 ONNX Runtime의 버전 정보가 추가되었습니다.
최신 클라이언트 버전 0.25.0 으로 업그레이드해 주세요.
2025년 2월 24일 릴리즈
2025년 2월 10일 릴리즈
이제 ONNX 모델은 모델 업로드 시 외부 가중치를 가져오는 것을 지원합니다.
.onnx
확장자를 가진 디렉토리 이름 또는.onnx.zip
확장자를 가진 파일 이름은 정확히 하나의 가중치 파일을 가져야 하며, 이는.data
파일이어야 합니다. 참고: 이 기능을 사용하는 LLM 지원은 아직 개발 중입니다.프로파일 작업에서 모델 추론 시간을 볼 때 중간값 및 스파크라인 그래픽이 추가되어 더 자세한 타이밍 정보를 제공합니다.
모든 모델 자산에 대한 다중 모델 작업 시각화: 이제 작업의 오른쪽 상단 모서리에 있는 시각화 버튼을 클릭하면 작업과 관련된 모든 적용 가능한 모델(소스, 중간 및 대상)을 탐색하고 시각화할 수 있습니다.
Added new IoT proxy devices for Qualcomm QCS8275 and QCS9075. These devices are now available in AI Hub to target when submitting a job.
다음 오류 메시지가 표시되면:
Tensors {'...'} occur in value_info but also in model IO. See https://github.com/onnx/onnx/blob/main/docs/IR.md#graphs
, 최신 AI Hub Models(pip install qai-hub-models
)로 업데이트해 주세요. 이 문제는 Llama 모델 컴파일에 직접 영향을 미치는 것으로 알고 있습니다.만료된 데이터셋을 참조하는 작업은 이제 정확한 오류 메시지와 함께 표시됩니다.
2025년 1월 22일 릴리즈
대규모 모델의 업로드 속도가 개선되어 시간 초과 및 SSLEOF 오류를 방지합니다. 오류가 발생하면 계속 알려 주세요!
실패한 작업의 오류 메시지를 개선하기 위한 다양한 변경 사항이 있습니다. 실패한 작업이 발생하고 무슨 일이 일어났는지 더 자세히 알고 싶다면 Slack 에 링크를 공유해 주세요.
2025년 1월 6일 릴리즈
AIMET PyTorch 모델(.pt) 업로드 경로가 제거되었습니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용하는 것을 권장합니다.
FAQ가 문서의 새 위치로 이동했습니다! 확인해 보세요!
fp16 I/O를 사용하는 양자화된 QNN 모델을 사용하는 추론 작업은 이제 fp32 데이터를 허용합니다.
2024년 12월 13일 릴리즈
ONNX NonMaxSupression 연산을 TFLite 동등 연산으로 번역 추가.
경고: 1월 6일 배포의 일환으로 AIMET PyTorch 모델(.pt) 업로드 경로를 폐지할 예정입니다. 대신 ONNX 모델(.onnx)과 양자화 매개변수가 포함된 인코딩 파일(.encodings)을 사용할 것을 권장합니다.
2024년 11월 25일 릴리즈
자동차 장치용 QNN 2.28.2 및 2.28.0으로 업그레이드되었습니다.
AI허브 에 Llama 계열 모델을 업로드하는 문제와 관련된 다양한 개선 사항. 이러한 LLM을 사용하여 AI허브 에 업로드하는 동안 시간 초과를 경험한 사용자로부터 피드백을 해결했습니다. 문제가 지속되면 알려주세요.
이제 컴파일 옵션에 –quantize_weight_type float16을 추가하여 FP32 가중치를 FP16으로 압축할 수 있습니다.
AI허브 에서 새로운 자동 장치를 사용할 수 있습니다! 이제 SA8775P 및 SA7255P ADP 장치를 제공합니다.
2024년 11월 11일 릴리즈
발표: link jobs! 이는 여러 모델을 단일 컨텍스트 바이너리로 결합하여 그래프 간에 가중치를 공유할 수 있어 디스크 공간을 절약합니다. 링크 작업은 Hexagon Tensor Processor (HTP)를 위한 QNN 컨텍스트 바이너리에만 독점적으로 사용됩니다.
일반적인 문제를 해결하는 qai-hub 클라이언트 개선: 최신 클라이언트 버전 0.19.0에는 업로드 시 발생한 오류에 대한 수정 사항이 더 많이 있습니다. 또한 업로드 크기 제한이 5GB에서 10GB(압축)로 늘어났으며, 큰 파일은 여러 부분으로 업로드됩니다.
ONNX 버전이 1.17.0으로 업데이트되었습니다.
문서 의 예시가 업데이트되어, 특히 양자화 벤치마킹 및 컴파일 작업에 대한 내용이 추가되었습니다.
2024년 10월 28일 릴리즈
새로운 디바이스: Snapdragon 8 Elite가 Snapdragon Summit에서 발표되었으며,
device = hub.Device("Snapdragon 8 Elite QRD")
를 지정하여 모든 사용자가 사용할 수 있습니다.새로운 디바이스: 자동차 디바이스인 Snapdragon Cockpit Gen 4 (SA8295P)가 이제 AI Hub에서 사용할 수 있습니다.
--device "SA8295P ADP" --device-os 14
를 선택하십시오.SSO로 AI Hub에 로그인하면 자동으로 관심 페이지로 리디렉션됩니다.
2024년 10월 14일 릴리즈
(베타) Qualcomm AI Hub는 이제 float32 모델을 정수 수치(e.g. int8, int16)로 변환할 수 있습니다. 이 베타 기능은 submit_quantize_job API를 통해 PyTorch 모델을 양자화하는 데 사용할 수 있습니다. 자세한 내용과 예제는 문서 를 참조하십시오.
이제 int64가 지원됩니다(추론 및 프로파일링 작업 모두)!
QNN 2.27로 업그레이드되었습니다.
2024년 10월 7일 릴리즈
추론 작업에서 rank-0 (스칼라) 텐서에 대한 지원이 향상되었습니다.
작업이 제출될 때 작업 상태를 업데이트하여 작업의 진행 단계를 더 명확하게 보여줍니다(그리고 성가신 UI 버그를 수정했습니다).
프로파일러에서 지원하지 않는 데이터 유형 사용, 잘못된 TFLite 모델 파일 및 많은 디바이스에서 메모리 부족 오류를 포함한 여러 경우에 대한 오류 메시지가 개선되었습니다.
클라이언트 버전 0.17.0
pip install qai-hub==0.17.0
이 릴리즈되었으며, 이는 데이터 업로드 및 다운로드를 훨씬 더 신뢰할 수 있게 만드는 HTTP 재시도에 대한 수정 사항을 포함합니다.새로운 디바이스 지원! 이제
device = hub.Device("Snapdragon X Plus 8-Core CRD")
를 지정하여 AI Hub에서 Snapdragon X Plus를 대상으로 작업을 시작할 수 있습니다.
2024년 9월 23일 릴리즈
모든 프록시 디바이스의 칩셋 속성에 -proxy 접미사가 추가되었습니다. 예를 들어, chipset:qualcomm-qcs6490은 이제 chipset:qualcomm-qcs6490-proxy입니다. 디바이스 이름은 변경되지 않았습니다.
ONNXRuntime 1.19.2, TFLite 2.17로 업그레이드되었습니다.
2024년 9월 11일 릴리즈
QNN 2.26으로 업그레이드되었습니다.
모델 페이지에 생성자로 필터링할 수 있는 드롭다운이 추가되어 조직 내 다른 사람이 소유한 모델을 더 쉽게 검색할 수 있습니다.
QNN 모델에 대한 시각화를 포함한 UI 전반에 걸친 다양한 버그 수정이 포함되었습니다. 문제가 발생하면 알려주세요!
2024년 8월 26일 릴리즈
8월 13일부터, 사용자가 실행 중인 최대 허용 작업 수를 이미 가지고 있는 경우 작업 생성 시 Hub가 더 이상 예외를 발생시키지 않습니다. 대신, 새로운 작업은
대기 중
상태로 설정되고 기존 작업이 완료되면 자동으로 실행됩니다. Python 클라이언트 버전0.14.1
에서는 작업 객체에pending
이라는 새 속성이 추가되었습니다. 백엔드 용량을 기다리는대기 중
상태의 작업은 이제pending
이 호출되면True
,running
이 호출되면False
를 반환합니다.QNN 2.25로 업그레이드되었습니다.
get_job_summaries
는 이 버전(0.15.0
)부터 클라이언트에서 사용할 수 있습니다.get_jobs
API는 더 이상 사용되지 않으며get_job_summaries
를 대신 사용해야 합니다.Qualcomm AI Hub의 최신 기능을 모두 사용하려면 클라이언트 버전 0.15.0
pip install qai-hub==0.15.0
으로 업데이트하고 각 릴리즈마다 클라이언트를 업데이트하는 것이 좋습니다!
2024년 8월 12일 릴리즈
새로운 클라이언트 버전 0.14.0이 릴리즈되었습니다!
중간 자산: 컴파일 작업을 제출하면 이제 컴파일 작업 페이지에 “중간 자산” 탭이 표시됩니다. 이 새로운 기능을 통해 AI Hub는 컴파일의 중간 상태를 AI Hub의 일급 모델로 저장할 수 있습니다. 예를 들어, TFLite 컴파일을 위해 TorchScript 모델을 제출하면 중간 ONNX 모델이 저장되고 액세스할 수 있습니다.
작업 동시성 제한: 오류를 반환하는 대신, Hub는 이제 사용자당 최대 제한을 초과하는 작업을 자동으로 대기열에 추가합니다. 이전에 오류 처리를 통해 오류를 처리한 경우, 이제 작업을 제출하는 데 더 이상 필요하지 않습니다.
2024년 7월 29일 릴리즈
ONNX 1.18로 업그레이드
Qualcomm AI Hub는 Snapdragon Ride 플랫폼을 포함하도록 지원을 확장했습니다. 자동차 디바이스 에 사용할 수 있는 사전 최적화된 AI Hub 모델을 확인하고, AI Hub를 통해 실제 자동차 디바이스에서 이러한 모델을 테스트해보고 문제가 발생하면 알려주세요!
2024년 7월 15일 릴리즈
Android 디바이스의 메모리 추정치가 개선되어 훨씬 더 정확한 범위를 제공할 수 있게 되었습니다. 프로파일러의 외부 힙 사용을 피하는 능력이 향상되어 더 작은 메모리 범위를 제공합니다. 새로운 작업을 제출하고 메모리 범위를 확인해보세요!
QNN 2.24.0, ONNX 1.16.0으로 업그레이드
ONNX Runtime에 대한 int16 지원이 추가되었습니다.
2024년 7월 1일 릴리즈
AI Hub 작업은 조직과 자동으로 공유할 수 있습니다. 조직에 사용자를 추가하려면 팀원의 이메일 주소를 포함하여 ai-hub-support@qti.qualcomm.com 로 이메일을 보내주세요.
AI Hub 작업은 조직 외부 및 Qualcomm과도 공유할 수 있습니다. 작업의 오른쪽 상단에 있는 “공유” 버튼을 클릭하고 AI Hub 사용자의 이메일을 지정하면 작업(및 관련 모델 자산)이 공유됩니다. 이메일 주소를 작업에서 제거하여 액세스를 취소할 수도 있습니다.
컴파일에 실패한 AIMET 모델에 대한 오류 메시지가 개선되었습니다.
precompiled_qnn_onnx
에 대한 문서 가 업데이트되었습니다.AI Hub 웹페이지에 대한 자세한 제목이 추가되었습니다. 이제 페이지를 열면 해당 페이지와 해당되는 작업 이름이 지정됩니다.
AI Hub의 이전 릴리즈의 릴리즈 노트는 참조용으로 문서 에서 찾을 수 있습니다.
2024년 6월 17일 릴리즈
Windows 디바이스는 이제 AI Hub에서 널리 사용 가능하며, 새로운 Snapdragon X Elite 및 이전 세대 Snapdragon 8cx Gen 3 참조 디자인을 포함합니다. qai-hub list-devices를 실행하면 목록에 표시됩니다.
device = hub.Device("Snapdragon X Elite CRD")
를 지정하여 X Elite를 대상으로 작업을 실행하십시오.사전 컴파일된 QNN ONNX 모델 컴파일 지원! 사전 컴파일된 ONNX Runtime 모델을 사용 중임을 지정하려면
options="--target_runtime precompiled_qnn_onnx"
를 사용하십시오. (참고: 문서에 오타가 있으며 다음 릴리즈에서 수정될 예정입니다. 위에 지정된 옵션을 사용하십시오).지원되는 ONNX Runtime 옵션에 대한 문서가 추가되었습니다.
시작하기 빠른 예제에 추론 작업 제출, 모델 다운로드 등을 포함한 단계가 확장되었습니다.
프로파일 및 추론 작업에 대한 추가 오류 세부 정보가 강조 표시되었습니다: 작업이 실패하면 런타임 로그의 추가 정보 라는 새 섹션을 확인하십시오. 런타임 로그를 확장하고 스크롤하지 않고도 디버그하는 데 도움이 되는 주요 세부 정보를 제공합니다.
QNN 버전 2.23으로 업데이트되었습니다.
2024년 6월 4일 릴리즈
디바이스 패밀리 목록이 추가되었습니다: 이제 qai-hub list-devices를 사용할 때 이러한 목록이 표시됩니다(Google Pixel 3a 패밀리, Samsung Galaxy S21 패밀리 등). 이는 디바이스 프로비저닝 시간을 단축하는 데 도움이 되므로 해당 옵션을 사용할 때 사용하십시오!
QNN 버전 2.22.6으로 업데이트되었습니다.
64비트 입력 유형에 대한 컴파일 옵션
--truncate_64bit_io
지원이 추가되었습니다.
2024년 5월 17일 릴리즈
ONNX QNN 실행 공급자를 통한 Windows에서 Snapdragon X Elite NPU 및 ONNX DirectML 실행 공급자를 통한 Windows에서 Snapdragon X Elite GPU 지원이 추가되었습니다. 조기 액세스를 위해 여기에 등록하십시오!
QNN 버전 2.22 지원(컴파일된 자산은 이제 QNN 버전 2.20 대신 QNN 2.22를 대상으로 함).
AI Hub에서 Windows 지원!
QNN에 대한 w4a8 지원(
--quantize_full_type w4a8
).문서에 각 런타임을 사용할 때의 추가 컨텍스트가 추가되었습니다.
대상 런타임
qnn_bin
의 사용 중단. 이제--target_runtime qnn_context_binary
를 사용하십시오. 컨텍스트 바이너리는 디바이스의 하드웨어 아키텍처에 맞게 컴파일됩니다. 자세한 내용은 문서에서 확인할 수 있습니다.
2024년 5월 6일 릴리즈
문서에는 이제 ONNX 모델을 TFLite 또는 QNN으로 컴파일하고 ONNX Runtime을 사용하여 직접 프로파일링하는 예제가 포함되어 있습니다.
ONNX Runtime의 기본 구성은 이제 프로파일링/추론에서 가장 높은 속도를 위한 옵션을 활용합니다. 기본적으로 가장 최적화된 모델을 제공하는 3으로 설정되었습니다.
(프로파일링 작업을 위해)TensorFlowLite를 2.16.1 로 업그레이되었습니다.
컴파일 작업에 대한 추가 성능 수정.
2024년 4월 22일 릴리즈
다양한 성능 개선, 오류 보고 개선 및 추가 레이어 지원이 추가되었습니다!
QCS8450 프록시 디바이스가 추가되었습니다(스레드의 참고 사항 참조).
최신 ONNX runtime (1.17.3)으로 업그레이드 되었습니다.
ONNX 런타임 모델에 대한 문서가 업데이트되었습니다.
ONNX Runtime에 대한 IO 옵션이 도입되었습니다.
QNN 경로에 대한 w4a16 양자화 지원이 추가되었습니다.
2024년 4월 8일 릴리즈
ONNX 런타임(.onnx) 및 NPU 지원이 도입되었습니다. 컴파일 작업을 제출할 때
options=--target_runtime onnx
를 지정하여 사용해보십시오.ONNX 런타임의 개선 사항에는 많은 속도 향상이 포함됩니다.
ONNX 런타임 모델에 대한 모델 시각화가 추가되었습니다.
컴파일 작업에 대한 로깅이 증가했습니다.
IOT용 더 많은 프록시 디바이스: QCS8250, QCS8550 프록시 디바이스를 확인하십시오.
Tensorflow 2.15.0으로 업그레이드되었습니다.
Hub를 통한 int16, w8a16 양자화 지원이 추가되었습니다.
2024년 3월 25일 릴리즈
작업 실행을 위한 더 많은 Galaxy S24 디바이스가 추가되었습니다.
최신 QNN 버전 2.20으로 업그레이드되었습니다.
모델 업로드 제한이 10GB로 증가했습니다.
AIMET(.onnx + 인코딩) 양자화 모델을 ONNX로 변환하고 ONNX Runtime을 통해 디바이스에서 실행할 수 있는 지원이 추가되었습니다.
최적화 추가: constant folding reshape for depthwise convolutions for TFLite 모델들.
잘못된 입력 이름이 컴파일 옵션을 통해 전달되지 않도록 추가 검사를 수행합니다.
2024년 3월 11일
스냅드래곤® 8 젠 3 칩셋을 AI허브에 도입하였습니다. 스냅드래곤® 8 젠 3
device = hub.Device("Samsung Galaxy S24")
를 지정해서 대상 단말을 설정하세요.
2024년 2월 28일 릴리즈
MWC 2024에서 퀄컴AI허브 출시
약 75개의 QAI 허브 모델에 대한 지원을 통해 TFLite 및 QNN 런타임을 통해 다양한 모바일 장치에서 성능 및 정확도 수치를 제공합니다.