ONNX Runtime WebGPU PR Monitor

Last Updated: 05/21/2026, 07:56 PM | Total: 249 PRs

Showing 1-10 of 49 PRs
Page 1 of 5
🤖 AI 摘要

本 PR 标题为"fix(partitioning_utils): include Loop/If/Scan implicit inputs in MetaDef",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 19 行新增和 0 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (1 files, 19 changes: +19/-0)
onnxruntime/core/providers/partitioning_utils.cc
👤 adrastogi📅 Created: 05/20/2026
🤖 AI 摘要

本 PR 标题为"Add component governance manifest for WebGPU EP",主要修改了 4 个文件,涉及 tools、cgmanifests 等模块。代码变更包括 1324 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 1327 changes: +1326/-1)
cgmanifests/README.md
cgmanifests/webgpu/README.md
cgmanifests/webgpu/cgmanifest.webgpu.json
cgmanifests/webgpu/validate_webgpu_cgmanifest.py
plugin-ep-webgpu/release:0.1.0
🤖 AI 摘要

本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 135 changes: +36/-99)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 3043 changes: +3033/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/python/tools/quantization/turboquant_kv/__init__.py
onnxruntime/python/tools/quantization/turboquant_kv/__main__.py
onnxruntime/python/tools/quantization/turboquant_kv/benchmark.py
onnxruntime/python/tools/quantization/turboquant_kv/centroids.py
onnxruntime/python/tools/quantization/turboquant_kv/hadamard.py
onnxruntime/python/tools/quantization/turboquant_kv/last_token_logits.py
onnxruntime/python/tools/quantization/turboquant_kv/onnx_rewriter.py
onnxruntime/python/tools/quantization/turboquant_kv/packing.py
onnxruntime/python/tools/quantization/turboquant_kv/quantizer.py
onnxruntime/python/tools/quantization/turboquant_kv/validate.py
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 2041 changes: +2014/-27)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.cc
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_decode.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/turboquant_encode.wgsl.template
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (2/4): CUDA kernels",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3353 行新增和 28 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 3381 changes: +3353/-28)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/cuda/bert/attention_data.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/group_query_attention.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant.cuh
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.cu
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (1/4): graph rewrite + schema (foundation)",主要修改了 10 个文件,涉及 onnxruntime、include 等模块。代码变更包括 972 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (10 files, 982 changes: +972/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 edgchen1📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"[docs] Add WebGPU EP docs",主要修改了 3 个文件,涉及 docs 等模块。代码变更包括 250 行新增和 2 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 261 changes: +255/-6)
docs/execution-providers/WebGPU-ExecutionProvider.md
docs/execution-providers/index.md
docs/execution-providers/plugin-ep-libraries/usage.md
docs/tutorials/web/ep-webgpu.md
👤 Lingavasan📅 Created: 05/17/2026
🤖 AI 摘要

本 PR 标题为"Reserve WebGPU program vector capacity",主要修改了 5 个文件,涉及 onnxruntime 等模块。代码变更包括 48 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (5 files, 49 changes: +48/-1)
onnxruntime/core/providers/webgpu/nn/conv.cc
onnxruntime/core/providers/webgpu/nn/conv2d_mm.cc
onnxruntime/core/providers/webgpu/program.cc
onnxruntime/core/providers/webgpu/program.h
onnxruntime/core/providers/webgpu/program_test.cc
👤 HectorSVC📅 Created: 05/16/2026
🤖 AI 摘要

本 PR 标题为"Update GatherBlockQuantized to support 2-bits",主要修改了 6 个文件,涉及 onnxruntime、docs 等模块。代码变更包括 253 行新增和 22 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (6 files, 401 changes: +375/-26)
docs/ContribOperators.md
onnxruntime/contrib_ops/cpu/quantization/gather_block_quantized.cc
onnxruntime/contrib_ops/webgpu/quantization/gather_block_quantized.cc
onnxruntime/contrib_ops/webgpu/quantization/gather_block_quantized.h
onnxruntime/core/graph/contrib_ops/contrib_defs.cc
onnxruntime/test/contrib_ops/gather_block_quantized_op_test.cc
ep:WebGPU