ONNX Runtime WebGPU PR Monitor

Last Updated: 05/20/2026, 08:18 PM | Total: 248 PRs

Showing 1-10 of 49 PRs
Page 1 of 5
👤 adrastogi📅 Created: 05/20/2026
🤖 AI 摘要

本 PR 标题为"Add component governance manifest for WebGPU EP",主要修改了 4 个文件,涉及 tools、cgmanifests 等模块。代码变更包括 1324 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 1325 changes: +1324/-1)
cgmanifests/README.md
cgmanifests/webgpu/README.md
cgmanifests/webgpu/cgmanifest.json
tools/python/validate_webgpu_cgmanifest.py
🤖 AI 摘要

本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (1 files, 26 changes: +14/-12)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 3043 changes: +3033/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/python/tools/quantization/turboquant_kv/__init__.py
onnxruntime/python/tools/quantization/turboquant_kv/__main__.py
onnxruntime/python/tools/quantization/turboquant_kv/benchmark.py
onnxruntime/python/tools/quantization/turboquant_kv/centroids.py
onnxruntime/python/tools/quantization/turboquant_kv/hadamard.py
onnxruntime/python/tools/quantization/turboquant_kv/last_token_logits.py
onnxruntime/python/tools/quantization/turboquant_kv/onnx_rewriter.py
onnxruntime/python/tools/quantization/turboquant_kv/packing.py
onnxruntime/python/tools/quantization/turboquant_kv/quantizer.py
onnxruntime/python/tools/quantization/turboquant_kv/validate.py
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 2041 changes: +2014/-27)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.cc
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_decode.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/turboquant_encode.wgsl.template
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (2/4): CUDA kernels",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3353 行新增和 28 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 3381 changes: +3353/-28)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/cuda/bert/attention_data.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/group_query_attention.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant.cuh
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.cu
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (1/4): graph rewrite + schema (foundation)",主要修改了 10 个文件,涉及 onnxruntime、include 等模块。代码变更包括 972 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (10 files, 982 changes: +972/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 edgchen1📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"[docs] Add WebGPU EP docs",主要修改了 3 个文件,涉及 docs 等模块。代码变更包括 250 行新增和 2 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 252 changes: +250/-2)
docs/execution-providers/WebGPU-ExecutionProvider.md
docs/execution-providers/index.md
docs/tutorials/web/ep-webgpu.md
👤 Lingavasan📅 Created: 05/17/2026
🤖 AI 摘要

本 PR 标题为"Reserve WebGPU program vector capacity",主要修改了 5 个文件,涉及 onnxruntime 等模块。代码变更包括 48 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (5 files, 49 changes: +48/-1)
onnxruntime/core/providers/webgpu/nn/conv.cc
onnxruntime/core/providers/webgpu/nn/conv2d_mm.cc
onnxruntime/core/providers/webgpu/program.cc
onnxruntime/core/providers/webgpu/program.h
onnxruntime/core/providers/webgpu/program_test.cc
👤 HectorSVC📅 Created: 05/16/2026
🤖 AI 摘要

本 PR 标题为"Update GatherBlockQuantized to support 2-bits",主要修改了 6 个文件,涉及 onnxruntime、docs 等模块。代码变更包括 253 行新增和 22 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (6 files, 401 changes: +375/-26)
docs/ContribOperators.md
onnxruntime/contrib_ops/cpu/quantization/gather_block_quantized.cc
onnxruntime/contrib_ops/webgpu/quantization/gather_block_quantized.cc
onnxruntime/contrib_ops/webgpu/quantization/gather_block_quantized.h
onnxruntime/core/graph/contrib_ops/contrib_defs.cc
onnxruntime/test/contrib_ops/gather_block_quantized_op_test.cc
ep:WebGPU
👤 edgchen1📅 Created: 05/15/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU plugin EP] Add Win ARM64 Python package",主要修改了 5 个文件,涉及 tools 等模块。代码变更包括 74 行新增和 60 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (6 files, 208 changes: +90/-118)
tools/ci_build/github/azure-pipelines/plugin-webgpu-pipeline.yml
tools/ci_build/github/azure-pipelines/plugin-webgpu-test-pipeline.yml
tools/ci_build/github/azure-pipelines/stages/plugin-mac-webgpu-stage.yml
tools/ci_build/github/azure-pipelines/stages/plugin-win-webgpu-stage.yml
tools/ci_build/github/azure-pipelines/stages/plugin-win-webgpu-test-stage.yml
tools/ci_build/github/linux/build_webgpu_plugin_package.sh
plugin-ep-webgpu/release:0.1.0