ONNX Runtime WebGPU PR Monitor

Last Updated: 06/20/2026, 07:30 PM | Total: 296 PRs

Showing 1-10 of 56 PRs
Page 1 of 6
👤 tianleiwu📅 Created: 06/20/2026
🤖 AI 摘要

本 PR 标题为"[CUDA] Enable CUDA GQA QK-Norm and XQA decode",主要修改了 20 个文件,涉及 docs、onnxruntime 等模块。代码变更包括 1119 行新增和 244 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 1363 changes: +1119/-244)
docs/ContribOperators.md
docs/contrib_ops/cuda/gqa.md
docs/contrib_ops/gqa.md
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/attention_data.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/group_query_attention.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_impl.cu
onnxruntime/contrib_ops/cuda/bert/group_query_attention_impl.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_qkv.cuh
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/group_query_attention_pre_norm_fusion.h
onnxruntime/test/contrib_ops/group_query_attention_op_test.cc
onnxruntime/test/optimizer/group_query_attention_pre_norm_fusion_test.cc
onnxruntime/test/python/transformers/gqa_test_helper.py
onnxruntime/test/python/transformers/profile_gqa.py
onnxruntime/test/python/transformers/profile_gqa.sh
onnxruntime/test/python/transformers/test_gqa.py
👤 tianleiwu📅 Created: 06/20/2026
🤖 AI 摘要

本 PR 标题为"[CUDA] Fuse GPT-OSS router bias into MatMulNBits GEMV",主要修改了 9 个文件,涉及 docs、onnxruntime 等模块。代码变更包括 628 行新增和 18 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (9 files, 646 changes: +628/-18)
docs/contrib_ops/cuda/qmoe_gemv_experiments.md
onnxruntime/contrib_ops/cuda/quantization/matmul_4bits.cu
onnxruntime/contrib_ops/cuda/quantization/matmul_nbits.cc
onnxruntime/contrib_ops/cuda/quantization/matmul_nbits.cuh
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/matmul_nbits_fusion.cc
onnxruntime/test/contrib_ops/cuda_kernels/fpA_intB_gemm_kernel_test.cc
onnxruntime/test/contrib_ops/matmul_4bits_test.cc
onnxruntime/test/optimizer/graph_transform_test.cc
👤 fanchenkong1📅 Created: 06/18/2026
🤖 AI 摘要

本 PR 标题为"Recover Conv/ConvTranspose rank from weight when input shape is unknown",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 11 行新增和 4 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (1 files, 15 changes: +11/-4)
onnxruntime/core/optimizer/layout_transformation/layout_transformation.cc
👤 Shivani767📅 Created: 06/16/2026
🤖 AI 摘要

本 PR 标题为"Add 2-bit quantization support to WebGPU GatherBlockQuantized operator",主要修改了 2 个文件,涉及 onnxruntime 等模块。代码变更包括 13 行新增和 4 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (2 files, 17 changes: +13/-4)
onnxruntime/contrib_ops/webgpu/moe/qmoe.h
onnxruntime/contrib_ops/webgpu/quantization/gather_block_quantized.cc
ep:WebGPU
👤 edgchen1📅 Created: 06/15/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU plugin EP] Update release and packaging-related docs",主要修改了 8 个文件,涉及 tools、plugin-ep-webgpu 等模块。代码变更包括 143 行新增和 57 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (8 files, 200 changes: +143/-57)
plugin-ep-webgpu/README.md
plugin-ep-webgpu/RELEASE.md
plugin-ep-webgpu/csharp/Microsoft.ML.OnnxRuntime.EP.WebGpu/README.md
plugin-ep-webgpu/csharp/README.md
plugin-ep-webgpu/python/README.md
plugin-ep-webgpu/python/onnxruntime_ep_webgpu/README.md
tools/ci_build/github/azure-pipelines/stages/plugin-webgpu-nuget-packaging-stage.yml
tools/ci_build/github/azure-pipelines/stages/plugin-webgpu-packaging-stage.yml
👤 adrastogi📅 Created: 06/12/2026
🤖 AI 摘要

本 PR 标题为"Plugin WebGPU EP Branch: Update protobufjs versions",主要修改了 2 个文件,涉及 js 等模块。代码变更包括 120 行新增和 106 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (2 files, 226 changes: +120/-106)
js/node/package-lock.json
js/web/package-lock.json
👤 daijh📅 Created: 06/12/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU] Fix profiling timestamp alignment with ORT profiler",主要修改了 5 个文件,涉及 onnxruntime 等模块。代码变更包括 24 行新增和 7 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 45 changes: +40/-5)
onnxruntime/core/providers/webgpu/webgpu_context.cc
onnxruntime/core/providers/webgpu/webgpu_context.h
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
onnxruntime/core/providers/webgpu/webgpu_profiler.cc
ep:WebGPU
👤 ssam18📅 Created: 06/11/2026
🤖 AI 摘要

本 PR 标题为"[js/web] Forward WebGPU EP buffer cache mode options from JS",主要修改了 6 个文件,涉及 onnxruntime、js 等模块。代码变更包括 67 行新增和 7 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (6 files, 74 changes: +67/-7)
js/common/lib/inference-session.ts
js/web/lib/wasm/session-options.ts
onnxruntime/core/providers/webgpu/buffer_manager.cc
onnxruntime/core/providers/webgpu/buffer_manager.h
onnxruntime/core/providers/webgpu/webgpu_context.cc
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
👤 qjia7📅 Created: 06/11/2026
🤖 AI 摘要

本 PR 标题为"webgpu: fix GQA batched right-padded prefill with do_rotary",主要修改了 6 个文件,涉及 onnxruntime 等模块。代码变更包括 205 行新增和 7 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (7 files, 321 changes: +272/-49)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/rotary_embedding.cc
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
onnxruntime/test/contrib_ops/group_query_attention_op_test.cc
ep:WebGPU
👤 feich-ms📅 Created: 06/11/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU] Graph capture support for KV-shared decoder models",主要修改了 5 个文件,涉及 onnxruntime 等模块。代码变更包括 204 行新增和 5 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (5 files, 209 changes: +204/-5)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/core/providers/webgpu/generator/constant_of_shape.cc
onnxruntime/core/providers/webgpu/generator/constant_of_shape.h
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
ep:WebGPU