## PR 主要改动总结 ### 核心功能 此 PR 为 CUDA 插件式执行提供器(Plugin EP)添加了 Python wheel 打包支持,创建了 `onnxruntime-ep-cuda` Python 包,使 CUDA EP 可以作为独立插件进行分发和安装。 ### 解决的问题 参照 WebGPU 插件 EP 的打包模式(#28226),建立了完整的 CUDA 插件打包流程,包括 Linux 和 Windows x64 平台的 CI/CD 管道,实现了插件化部署,降低了主包体积并提高了灵活性。 ### 与 WebGPU 的关联 虽然 PR 标题提到 WebGPU,但实际内容是**复用 WebGPU 插件 EP 的打包架构和设计模式**,将相同的插件化方案应用到 CUDA EP 上,形成统一的插件打包范式。 ### 技术要点 - 新增了插件定位和注册的辅助 API - 扩展了版本管理以支持 PEP 440 兼容的版本号 - 使用 manylinux CUDA Docker 镜像构建 Linux wheel 包 - 目前仅支持 x64 架构,与现有构建流程保持一致
## PR 主要改动总结 **注意:此 PR 实际上与 WebGPU 无关,而是关于 CoreML EP 的改进** ### 核心改动 为 CoreML EP 添加了对 `com.microsoft:FusedConv` 算子的支持,覆盖 MLProgram 和 NeuralNetwork 两种执行路径。 ### 解决的问题 解决了预优化模型(通过 CPU EP 或 WebGPU 等 EP 优化并保存的模型)在 CoreML EP 上加载时的分区碎片化问题。之前当模型包含 `FusedConv` 节点时,CoreML EP 无法识别这些节点,导致无法有效执行。 ### WebGPU 关联 虽然 PR 针对 CoreML EP,但与 WebGPU 相关:当使用 WebGPU EP 优化模型并保存后,生成的 `FusedConv` 节点现在可以被 CoreML EP 正确处理,改善了跨平台模型部署的兼容性。 ### 技术要点 `FusedConv` 是 Conv+Activation 融合算子,由 ORT 的 `ConvActivationFusion` 优化 pass 生成。此改动主要影响移动端部署和 ORT 格式模型的使用场景,新增 132 行测试代码和 107 行实现代码。
## ONNX Runtime WebGPU PR 改动总结 ### 主要改动 此 PR 将 `gemm-subgroup` 优化扩展到 Conv(卷积)算子,并根据工作组(workgroup)数量动态决定是否启用 gemm-subgroup 优化。 ### 解决的问题 为 WebGPU 后端的卷积操作引入了 subgroup 级别的 GEMM 优化,增强了英特尔硬件上的性能表现,同时添加了基于工作组数量的智能启用机制,避免在不适合的场景下使用该优化。 ### 技术要点 - 修改了 matmul 相关代码,增加工作组数量参数传递(添加参数到函数接口) - 在 conv.cc 中集成了 gemm-subgroup 支持 - 优化决策逻辑更加智能化,根据实际计算规模动态选择是否使用 subgroup 优化 ### 影响范围 代码改动较小(22 行新增,10 行删除),主要集中在英特尔厂商特定的数学运算优化模块,对 WebGPU 的卷积性能有积极影响。
## PR 主要改动总结 **核心改动:** 为 ONNX Runtime WebGPU 实现了基于图标注 ID 的独立缓冲区管理器(per-graph buffer manager),替换原有的全局共享缓冲区管理器。这使得多个使用不同提示词的生成器可以各自拥有隔离的缓冲区缓存。 **解决的问题:** 修复了在启用图捕获(graph capture)时,多个生成器之间可能发生的缓冲区数据污染问题。通过为每个图分配独立的缓冲区管理器,确保不同生成器的执行互不干扰。 **技术要点:** 1. 引入 `per_graph_buffer_mgrs_` 映射表,以图标注 ID 为键存储各自的缓冲区管理器 2. 重构 `GpuBufferAllocator`,将固定的 `const BufferManager&` 改为支持动态路由的指针和 `SetBufferManager()` 方法 3. 新增 `ReleaseGraph` API 贯穿整个调用栈(从 EP 基类到 C API),允许在生成器销毁时释放已捕获的图资源,包括命令、缓冲区管理器和跟踪状态
## ONNX Runtime GQA 形状验证放宽以兼容旧模型 ### 核心改动 该PR放宽了 Group Query Attention (GQA) 算子中 `seqlens_k` 参数的形状验证规则,以保持与旧模型(如 qwen3-0.6b、qwen3-1.7b)的向后兼容性。这些模型生成的 `seqlens_k` 形状为 `[1,1]` 而非标准的 `[1]`。 ### 解决的问题 修复了 PR #28031 引入的回归问题——该PR通过修正 `&&` 为 `||` 修复了安全漏洞,但严格的形状验证导致一些合法模型无法运行。新的验证规则在保持安全性的同时,接受带有单位维度的形状(如 `[B]`、`[B,1]`、`[1,B]`),只要总元素数等于 batch_size。 ### WebGPU 影响 同步修复了 WebGPU EP (Execution Provider) 中相同的 `&&`/`||` 逻辑错误,并在 JS/WebGPU 代码路径中应用了相同的放宽验证规则,确保跨平台的一致性和兼容性。 ### 技术要点 验证规则变更为:(1) 拒绝标量;(2) 总元素数必须等于 batch_size;(3) 每个维度必须为 1 或 batch_size。重要的是,Compute() 中的元素值边界检查保持不变,完全保留了原有的 OOB 安全修复。
## PR 主要改动总结 **主要功能改动:** 针对 WebGPU 的 ReduceMean 算子优化了计算策略选择逻辑。当输出尺寸远大于归约维度大小时,改用朴素归约(naive reduction)方法替代共享内存归约方法。 **解决的问题:** 解决了共享内存归约方法在特定场景下的性能问题。当输出维度较大时,共享归约可能需要对输入进行转置操作,这会带来显著的时间开销,影响整体性能。 **对 WebGPU 支持的影响:** 通过根据数据维度特征智能选择归约算法,提升了 WebGPU 后端在处理大输出尺寸归约操作时的执行效率。 **技术要点:** 代码改动量很小(仅 3 行新增,1 行删除),通过添加条件判断实现算法切换,属于性能优化类改动。
## PR 主要改动总结 ### 核心功能 为 ONNX Runtime WebGPU 实现了 **TurboQuant 量化加速技术**,这是一个正在开发中的实验性功能,用于优化大语言模型的推理性能。 ### 技术实现 - 采用 **Hadamard 矩阵进行旋转变换**替代论文中的常规矩阵方法,实现了自定义的 TurboQuant 变体 - 主要集成在 Flash Attention 和 Group Query Attention (GQA) 模块中,新增了旋转量化 (rotate_quantize) 的 WebGPU shader 实现 - 基准测试显示在 Phi-4 模型上获得了显著性能提升:**prompt 处理速度达到 1790 tokens/s,token 生成速度为 99.8 tokens/s** ### 代码结构 新增了完整的 TurboQuant 基础设施,包括 Hadamard 变换核心逻辑、WGSL shader 模板、GQA 测试用例和详细的实现计划文档(646 行),共计 2700+ 行新代码,为后续优化奠定基础。
## PR 主要改动总结 **1. 主要功能:** 此 PR 为 ONNX Runtime 的 WebGPU 后端实现了 DeformConv(可变形卷积)算子,新增了约 370 行实现代码和相应的头文件。 **2. 解决的问题:** 添加 DeformConv 算子支持是为了运行 BiRefNet 模型,填补了 WebGPU 后端在该算子上的功能空缺。 **3. 对 WebGPU 的影响:** 增强了 WebGPU 执行提供程序的算子覆盖范围,使其能够支持更多依赖可变形卷积的深度学习模型,特别是图像分割类模型。 **4. 技术要点:** 在 `webgpu_execution_provider.cc` 中注册了新算子,实现遵循 ONNX 标准的 DeformConv 规范,同时更新了版本检查相关配置。
## PR 主要改动总结 **核心改动:** 修复了 ONNX Runtime JavaScript 实现中的两个关键性 bug,涉及轴向归一化和 WebGPU Slice 算子。 **解决的问题:** 1. 修复了 `normalizeAxis()` 函数中的逻辑错误,将不可能为真的条件 `axis < -tensorRank && axis >= tensorRank` 中的 `&&` 改为 `||`,使其能够正确检测和拒绝超出有效范围的轴参数,避免潜在的数组越界访问 2. 为 WebGPU Slice 算子补充了 `step == 0` 的验证逻辑,与 CPU 实现保持一致,防止除零错误导致的未定义行为(`ceil((end-start)/step)` 计算会产生无穷大并导致类型转换异常) **技术影响:** 提升了 WebGPU 后端的健壮性和安全性,确保恶意或错误输入不会导致运行时崩溃或未定义行为,同时修复了 onnxjs 和 jsep 两个 JavaScript 实现路径中的共同缺陷。
## PR 主要改动总结 **1. 主要功能改动:** 修复了 Windows WebGPU CI 构建超时问题,通过优化测试执行策略减少资源消耗。 **2. 解决的问题:** - 移除了冗余的 `onnxruntime_test_all.exe` 测试执行(该测试已在 CTest 阶段覆盖) - 将 `onnxruntime_provider_test.exe` 拆分为 4 个 GTest 分片并行执行,解决了数百个测试共享单个 WebGPU 上下文导致的 GPU 资源耗尽问题 **3. 对 WebGPU 支持的影响:** 显著提升了 WebGPU Windows CI 的稳定性,避免了测试运行器在执行过程中无响应或崩溃,确保持续集成流程能够正常完成。 **4. 技术要点:** 通过 GTest 的 `GTEST_TOTAL_SHARDS` 和 `GTEST_SHARD_INDEX` 参数实现测试分片,避免 Dawn/WebGPU 在长时间运行大量测试时的资源耗尽问题。