ONNX Runtime WebGPU PR Monitor

Last Updated: 05/27/2026, 08:18 PM | Total: 255 PRs

Showing 1-10 of 47 PRs
Page 1 of 5
👤 tianleiwu📅 Created: 05/27/2026
🤖 AI 摘要

本 PR 标题为"Honor disable_synchronize_execution_providers for CUDA graph replay",主要修改了 17 个文件,涉及 include、onnxruntime 等模块。代码变更包括 36 行新增和 25 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (17 files, 61 changes: +36/-25)
include/onnxruntime/core/framework/execution_provider.h
onnxruntime/core/providers/cuda/cuda_execution_provider.cc
onnxruntime/core/providers/cuda/cuda_execution_provider.h
onnxruntime/core/providers/cuda/plugin/cuda_ep.cc
onnxruntime/core/providers/dml/DmlExecutionProvider/src/ExecutionProvider.h
onnxruntime/core/providers/js/js_execution_provider.cc
onnxruntime/core/providers/js/js_execution_provider.h
onnxruntime/core/providers/nv_tensorrt_rtx/nv_execution_provider.cc
onnxruntime/core/providers/nv_tensorrt_rtx/nv_execution_provider.h
onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.cc
onnxruntime/core/providers/tensorrt/tensorrt_execution_provider.h
onnxruntime/core/providers/webgpu/webgpu_execution_provider.cc
onnxruntime/core/providers/webgpu/webgpu_execution_provider.h
onnxruntime/core/session/inference_session.cc
onnxruntime/core/session/inference_session.h
onnxruntime/core/session/plugin_ep/ep_plugin_provider_interfaces.cc
onnxruntime/core/session/plugin_ep/ep_plugin_provider_interfaces.h
👤 hariharans29📅 Created: 05/26/2026
🤖 AI 摘要

本 PR 标题为"[WebGPU] Proposal: Default non-debug validation mode set to disabled",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 19 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 20 changes: +19/-1)
onnxruntime/core/providers/webgpu/webgpu_context.cc
onnxruntime/core/providers/webgpu/webgpu_context.h
onnxruntime/core/providers/webgpu/webgpu_provider_factory.cc
🤖 AI 摘要

本 PR 标题为"[WebGPU EP] Add environment variable to dump shader code to a file",主要修改了 4 个文件,涉及 onnxruntime、.github 等模块。代码变更包括 114 行新增和 18 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 132 changes: +114/-18)
.github/workflows/nightly_webgpu.yml
onnxruntime/core/providers/webgpu/program_manager.cc
onnxruntime/core/providers/webgpu/program_manager.h
onnxruntime/core/providers/webgpu/webgpu_context.cc
🤖 AI 摘要

本 PR 标题为"fix(partitioning_utils): include Loop/If/Scan implicit inputs in MetaDef",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 19 行新增和 0 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (1 files, 19 changes: +19/-0)
onnxruntime/core/providers/partitioning_utils.cc
🤖 AI 摘要

本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (3 files, 135 changes: +36/-99)
onnxruntime/contrib_ops/webgpu/bert/flash_attention.cc
onnxruntime/contrib_ops/webgpu/bert/flash_attention.h
onnxruntime/contrib_ops/webgpu/bert/split_packed_qkv_with_rotary_embedding_and_copykv.wgsl.template
ep:WebGPU
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (20 files, 3043 changes: +3033/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/python/tools/quantization/turboquant_kv/__init__.py
onnxruntime/python/tools/quantization/turboquant_kv/__main__.py
onnxruntime/python/tools/quantization/turboquant_kv/benchmark.py
onnxruntime/python/tools/quantization/turboquant_kv/centroids.py
onnxruntime/python/tools/quantization/turboquant_kv/hadamard.py
onnxruntime/python/tools/quantization/turboquant_kv/last_token_logits.py
onnxruntime/python/tools/quantization/turboquant_kv/onnx_rewriter.py
onnxruntime/python/tools/quantization/turboquant_kv/packing.py
onnxruntime/python/tools/quantization/turboquant_kv/quantizer.py
onnxruntime/python/tools/quantization/turboquant_kv/validate.py
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 2041 changes: +2014/-27)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.cc
onnxruntime/contrib_ops/webgpu/bert/turboquant_attention.h
onnxruntime/contrib_ops/webgpu/bert/turboquant_decode.wgsl.template
onnxruntime/contrib_ops/webgpu/bert/turboquant_encode.wgsl.template
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
ep:WebGPU
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (2/4): CUDA kernels",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3353 行新增和 28 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (16 files, 3381 changes: +3353/-28)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/contrib_ops/cuda/bert/attention_data.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention.cc
onnxruntime/contrib_ops/cuda/bert/group_query_attention.h
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant.cuh
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.cu
onnxruntime/contrib_ops/cuda/bert/group_query_attention_turboquant_impl.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 TimPietrusky📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"TurboQuant KV cache (1/4): graph rewrite + schema (foundation)",主要修改了 10 个文件,涉及 onnxruntime、include 等模块。代码变更包括 972 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (10 files, 982 changes: +972/-10)
include/onnxruntime/core/framework/int3.h
include/onnxruntime/core/session/onnxruntime_session_options_config_keys.h
onnxruntime/contrib_ops/cpu/bert/attention_common.h
onnxruntime/contrib_ops/cpu/bert/attention_parameters.h
onnxruntime/contrib_ops/cpu/bert/group_query_attention_helper.h
onnxruntime/core/graph/contrib_ops/bert_defs.cc
onnxruntime/core/optimizer/graph_transformer_utils.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.cc
onnxruntime/core/optimizer/turboquant_kv_fusion.h
onnxruntime/test/contrib_ops/turboquant_kv_test.cc
👤 edgchen1📅 Created: 05/19/2026
🤖 AI 摘要

本 PR 标题为"[docs] Add WebGPU EP docs",主要修改了 3 个文件,涉及 docs 等模块。代码变更包括 250 行新增和 2 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。

📁 Changed Files (4 files, 261 changes: +255/-6)
docs/execution-providers/WebGPU-ExecutionProvider.md
docs/execution-providers/index.md
docs/execution-providers/plugin-ep-libraries/usage.md
docs/tutorials/web/ep-webgpu.md