返回首页
最新
我们开发了 Chisel,以实现无硬件的 GPU 内核分析。它允许您运行 `chisel profile kernel.cu`,并在不需要 GPU 的情况下获得完整的 Nsight/Ncompute 或 rocprofv3 报告。
该工具可以启动远程的 H100、L40S 或 MI300X 机器(目前通过 DigitalOcean,但很快会扩展其他后端),运行您的代码,并返回详细的跟踪信息(内核时间、内存传输、API 调用等)。所有操作均基于命令行,旨在支持迭代开发——每次分析大约需要 1-2 分钟。
例如:
# 在 H100 上使用 Nsight Systems 分析 PyTorch 训练脚本
`chisel profile --nsys train.py`
# 在 MI300X 上使用系统跟踪分析 HIP 内核
`chisel profile --rocprofv3="--sys-trace" matrix_add.cpp`
代码库: [https://github.com/Herdora/chisel](https://github.com/Herdora/chisel)
PyPI: `pip install chisel-cli`
欢迎反馈!特别希望听到那些构建自定义内核、机器学习层或低级 GPU 操作的人的意见。
我17岁,最近推出了Biohack的私人测试版——这是一款扫描食品产品并根据对衰老因素(如炎症、欧米伽比率、毒素等)的影响给出长寿评分的工具。<p>目前还处于早期阶段,功能还有些粗糙,但我希望能得到关注健康寿命和深度营养的人的诚实反馈。<p>非常期待你的想法。
OAuth已经正式成为MCP规范的一部分几个星期了。但到目前为止,我还没有看到任何实际应用的例子。想知道是否有人做过这个,或者知道有什么好的文档可以参考,教我们如何实现它。