ONNX Runtime WebGPU PR Monitor

Last Updated: 06/03/2026, 08:59 PM | Total: 264 PRs

Showing 1-10 of 47 PRs
Page 1 of 5
👤 qjia7📅 Created: 06/03/2026
🤖 AI 摘要

本 PR 标题为"webgpu: Add session-level buffer pool for graph capture reuse",主要修改了 8 个文件,涉及 onnxruntime 等模块。代码变更包括 248 行新增和 2 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (8 files, 250 changes: +248/-2)
onnxruntime/core/providers/webgpu/buffer_manager.cc
onnxruntime/core/providers/webgpu/buffer_manager.h
onnxruntime/core/providers/webgpu/session_buffer_pool.cc
onnxruntime/core/providers/webgpu/session_buffer_pool.h
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
onnxruntime/core/providers/webgpu/webgpu_execution_provider.h
onnxruntime/core/providers/webgpu/webgpu_provider_factory.cc
onnxruntime/core/providers/webgpu/webgpu_provider_options.h
👤 xhcao📅 Created: 06/03/2026
🤖 AI 摘要

本 PR 标题为"webgpu: adjust the parms for gemm-subgroup kernel",主要修改了 5 个文件,涉及 onnxruntime 等模块。代码变更包括 16 行新增和 8 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (5 files, 24 changes: +16/-8)
onnxruntime/core/providers/webgpu/math/matmul.cc
onnxruntime/core/providers/webgpu/vendor/intel/math/gemm.cc
onnxruntime/core/providers/webgpu/vendor/intel/math/gemm_subgroup.cc
onnxruntime/core/providers/webgpu/vendor/intel/math/gemm_subgroup.h
onnxruntime/core/providers/webgpu/vendor/intel/math/matmul.cc
👤 haoxli📅 Created: 06/03/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU] Fix nearest half-tie handling for round_prefer_ceil/floor",主要修改了 2 个文件,涉及 onnxruntime 等模块。代码变更包括 84 行新增和 2 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (2 files, 86 changes: +84/-2)
onnxruntime/core/providers/webgpu/tensor/resize_impl.cc
onnxruntime/test/providers/cpu/tensor/resize_op_test.cc
👤 yuslepukhin📅 Created: 06/01/2026
🤖 AI 摘要

本 PR 标题为"Address numerical accuracy issues.",主要修改了 13 个文件,涉及 onnxruntime 等模块。代码变更包括 1115 行新增和 124 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (12 files, 1329 changes: +1207/-122)
onnxruntime/core/providers/cpu/math/element_wise_ops.cc
onnxruntime/core/providers/cpu/math/element_wise_ops.h
onnxruntime/core/providers/cpu/nn/layer_norm_impl.cc
onnxruntime/core/providers/cpu/reduction/reduction_ops.h
onnxruntime/core/providers/cuda/cuda_utils.cu
onnxruntime/core/providers/cuda/math/binary_elementwise_ops.h
onnxruntime/core/providers/cuda/reduction/reduction_functions.cu
onnxruntime/core/providers/cuda/reduction/reduction_functions.h
onnxruntime/core/providers/cuda/reduction/reduction_ops.cc
onnxruntime/test/contrib_ops/layer_norm_op_test.cc
onnxruntime/test/providers/cpu/activation/activation_op_test.cc
onnxruntime/test/providers/cpu/reduction/reduction_ops_test.cc
👤 guschmue📅 Created: 05/29/2026
🤖 AI 摘要

本 PR 标题为"WebGPU Pad kernel int64 / int32 truncation can read to oob read",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 45 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 46 changes: +45/-1)
onnxruntime/core/providers/webgpu/tensor/pad.cc
onnxruntime/core/providers/webgpu/tensor/pad.wgsl.template
onnxruntime/test/providers/cpu/tensor/pad_test.cc
ep:WebGPU
👤 guschmue📅 Created: 05/29/2026
🤖 AI 摘要

本 PR 标题为"checks to handle oob writes based on seqlens_k",主要修改了 8 个文件,涉及 onnxruntime 等模块。代码变更包括 50 行新增和 23 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (8 files, 73 changes: +50/-23)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/flash_attention.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_qkt.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_split_vx.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/flash_attention_decode_vx_reduce.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
👤 guschmue📅 Created: 05/28/2026
🤖 AI 摘要

本 PR 标题为"fix bound check on webgpu/slice",主要修改了 2 个文件,涉及 onnxruntime 等模块。代码变更包括 34 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (2 files, 35 changes: +34/-1)
onnxruntime/core/providers/webgpu/tensor/slice.cc
onnxruntime/test/providers/cpu/tensor/slice_op.test.cc
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 135 changes: +36/-99)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 3043 changes: +3033/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/python/tools/quantization/turboquant_kv/__init__.py
onnxruntime/python/tools/quantization/turboquant_kv/__main__.py
onnxruntime/python/tools/quantization/turboquant_kv/benchmark.py
onnxruntime/python/tools/quantization/turboquant_kv/centroids.py
onnxruntime/python/tools/quantization/turboquant_kv/hadamard.py
onnxruntime/python/tools/quantization/turboquant_kv/last_token_logits.py
onnxruntime/python/tools/quantization/turboquant_kv/onnx_rewriter.py
onnxruntime/python/tools/quantization/turboquant_kv/packing.py
onnxruntime/python/tools/quantization/turboquant_kv/quantizer.py
onnxruntime/python/tools/quantization/turboquant_kv/validate.py
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 2041 changes: +2014/-27)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.cc
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_decode.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/turboquant_encode.wgsl.template
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
ep:WebGPU