ONNX Runtime WebGPU PR Monitor

Last Updated: 05/29/2026, 08:28 PM | Total: 260 PRs

Showing 1-10 of 47 PRs
Page 1 of 5
👤 guschmue📅 Created: 05/29/2026
🤖 AI 摘要

本 PR 标题为"WebGPU Pad kernel int64 / int32 truncation can read to oob read",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 45 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 46 changes: +45/-1)
onnxruntime/core/providers/webgpu/tensor/pad.cc
onnxruntime/core/providers/webgpu/tensor/pad.wgsl.template
onnxruntime/test/providers/cpu/tensor/pad_test.cc
ep:WebGPU
👤 Laan33📅 Created: 05/29/2026
🤖 AI 摘要

本 PR 标题为"[MLAS][KleidiAI] Apply fp16 split independent fixes",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 38 行新增和 31 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 69 changes: +38/-31)
onnxruntime/core/mlas/lib/kleidiai/qgemm_kleidiai.cpp
onnxruntime/test/contrib_ops/attention_op_test.cc
onnxruntime/test/mlas/unittest/test_conv2d.h
👤 guschmue📅 Created: 05/29/2026
🤖 AI 摘要

本 PR 标题为"checks to handle oob writes based on seqlens_k",主要修改了 8 个文件,涉及 onnxruntime 等模块。代码变更包括 50 行新增和 23 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (8 files, 73 changes: +50/-23)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/flash_attention.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_qkt.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_split_vx.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_vx_reduce.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
👤 guschmue📅 Created: 05/28/2026
🤖 AI 摘要

本 PR 标题为"fix bound check on webgpu/slice",主要修改了 2 个文件,涉及 onnxruntime 等模块。代码变更包括 34 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (2 files, 35 changes: +34/-1)
onnxruntime/core/providers/webgpu/tensor/slice.cc
onnxruntime/test/providers/cpu/tensor/slice_op.test.cc
ep:WebGPU
👤 tianleiwu📅 Created: 05/27/2026
🤖 AI 摘要

本 PR 标题为"Honor disable_synchronize_execution_providers for CUDA graph replay",主要修改了 17 个文件,涉及 include、onnxruntime 等模块。代码变更包括 36 行新增和 25 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (17 files, 68 changes: +43/-25)
include/onnxruntime/core/framework/execution_provider.h
onnxruntime/core/providers/cuda/cuda_execution_provider.cc
onnxruntime/core/providers/cuda/cuda_execution_provider.h
onnxruntime/core/providers/cuda/plugin/cuda_ep.cc
onnxruntime/core/providers/dml/DmlExecutionProvider/src/ExecutionProvider.h
onnxruntime/core/providers/js/js_execution_provider.cc
onnxruntime/core/providers/js/js_execution_provider.h
onnxruntime/core/providers/nv_tensorrt_rtx/nv_execution_provider.cc
onnxruntime/core/providers/nv_tensorrt_rtx/nv_execution_provider.h
onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc
onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
onnxruntime/core/providers/webgpu/webgpu_execution_provider.h
onnxruntime/core/session/inference_session.cc
onnxruntime/core/session/inference_session.h
onnxruntime/core/session/plugin_ep/ep_plugin_provider_interfaces.cc
onnxruntime/core/session/plugin_ep/ep_plugin_provider_interfaces.h
👤 hariharans29📅 Created: 05/26/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU] Proposal: Default non-debug validation mode set to disabled",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 19 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 23 changes: +22/-1)
onnxruntime/core/providers/webgpu/webgpu_context.cc
onnxruntime/core/providers/webgpu/webgpu_context.h
onnxruntime/core/providers/webgpu/webgpu_provider_factory.cc
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 135 changes: +36/-99)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 3043 changes: +3033/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/python/tools/quantization/turboquant_kv/__init__.py
onnxruntime/python/tools/quantization/turboquant_kv/__main__.py
onnxruntime/python/tools/quantization/turboquant_kv/benchmark.py
onnxruntime/python/tools/quantization/turboquant_kv/centroids.py
onnxruntime/python/tools/quantization/turboquant_kv/hadamard.py
onnxruntime/python/tools/quantization/turboquant_kv/last_token_logits.py
onnxruntime/python/tools/quantization/turboquant_kv/onnx_rewriter.py
onnxruntime/python/tools/quantization/turboquant_kv/packing.py
onnxruntime/python/tools/quantization/turboquant_kv/quantizer.py
onnxruntime/python/tools/quantization/turboquant_kv/validate.py
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 2041 changes: +2014/-27)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.cc
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_decode.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/turboquant_encode.wgsl.template
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
ep:WebGPU
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (2/4): CUDA kernels",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3353 行新增和 28 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 3381 changes: +3353/-28)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/cuda/bert/attention_data.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/group_query_attention.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant.cuh
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.cu
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc