本 PR 标题为"WebGPU Pad kernel int64 / int32 truncation can read to oob read",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 45 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"[MLAS][KleidiAI] Apply fp16 split independent fixes",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 38 行新增和 31 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"checks to handle oob writes based on seqlens_k",主要修改了 8 个文件,涉及 onnxruntime 等模块。代码变更包括 50 行新增和 23 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"fix bound check on webgpu/slice",主要修改了 2 个文件,涉及 onnxruntime 等模块。代码变更包括 34 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"Honor disable_synchronize_execution_providers for CUDA graph replay",主要修改了 17 个文件,涉及 include、onnxruntime 等模块。代码变更包括 36 行新增和 25 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"[WebGPU] Proposal: Default non-debug validation mode set to disabled",主要修改了 3 个文件,涉及 onnxruntime 等模块。代码变更包括 19 行新增和 1 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"[WebGPU] Avoid indirect dispatch in FlashAttention decode to fix perf issues with Vulkan backend + GraphCapture/GraphReplay",主要修改了 1 个文件,涉及 onnxruntime 等模块。代码变更包括 14 行新增和 12 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"TurboQuant KV cache (4/4): Python reference impl + last_token_logits patcher",主要修改了 20 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3033 行新增和 10 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"TurboQuant KV cache (3/4): WebGPU kernels + Safari/Firefox fallback",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 2014 行新增和 27 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。
本 PR 标题为"TurboQuant KV cache (2/4): CUDA kernels",主要修改了 16 个文件,涉及 onnxruntime、include 等模块。代码变更包括 3353 行新增和 28 行删除。 这是一个与 ONNX Runtime WebGPU 相关的改动,具体功能需要查看代码详情。