1作者: jmogi3 个月前原帖
我构建了一个开源框架,用于通过竞争游戏评估大型语言模型(LLM)。到目前为止,我们有三款游戏——一场辩论比赛,LLM们试图说服对方持有不同的观点;一场诗歌比赛,LLM们评判彼此的创造力;以及一款基于囚徒困境的简单合作与背叛策略游戏。这个想法是通过让模型相互对抗并评估它们的相对优势,我们可以随着模型能力的提升来扩展基准测试。 一些有趣的结果已经浮现出来。 DeepSeek R1似乎是最具说服力的模型——在辩论比赛中排名第一,并且经常获得全票通过(例如,在与ChatGPT-4.5的辩论中,它说服了所有评委,无论是支持还是反对基因工程)。DeepSeek R1也是当前的诗歌比赛冠军,优势明显。它的诗歌作品常常成为一致的最爱。我不确定这是否构成“创造力”,或者更像是一种不同形式的说服力,但无论如何,这似乎都很令人印象深刻。我读过它的一些诗,觉得它们非常美丽。 与此同时,Grok-2是当前囚徒困境的冠军。它似乎能够找到最佳的背叛时机,以优化其得分(在90%的游戏中,它是第一个背叛者)。 据我所知,这是唯一一个此类开源基准测试。我认为开放性很重要,因为这意味着方法论和结果是可验证和可重复的。这也意味着(我希望)其他人可以参与进来,贡献自己的力量,或者通过添加新游戏、提出新的分析和可视化结果的方法,或者提供反馈。这有很大的发展空间。 我欢迎任何批评和反馈。如果您想贡献自己的力量,请访问项目的GitHub页面:<a href="https://github.com/jmogielnicki/llmshowdown" rel="nofollow">https://github.com/jmogielnicki/llmshowdown</a> 祝好, 约翰
1作者: noor_z3 个月前原帖
大家好, 我相信很多人都遇到过那种大型且复杂的静态类型代码库,以至于你的代码编辑器会卡顿、延迟、变得无响应,整体表现不佳。调试一个缓慢的编辑器是件繁琐的事情,通常也会让人分心。在很多情况下,代码编辑器的缓慢是由于语言服务器造成的,这些是提供语言特性的外部程序(例如:跳转到定义、诊断、类型提示)。开发者们的挫败感的例子可以参考:[1] 和 [2]。 在我之前的公司,我们对由于慢速语言服务器而导致的编辑器瓶颈引发的内部挫败感感到担忧。我们也对自己对这些服务器的性能和行为了解得如此有限感到不安。因此,我们决定对代码编辑器进行监控,并收集语言服务器的遥测数据。我们收集的数据出乎意料地有用,帮助我们诊断了几个主要问题。例如,我们识别出代码库中某些模块的语言服务器响应速度远低于正常水平。随后,我们找到了解决方案,拆分这些模块以减轻语言服务器的负担。 我相信拥有这种数据对于管理开发者体验,尤其是在大规模环境中,可以带来颠覆性的改变。这就是我构建 lspwatch 的原因,这是一种通用工具,能够与所有遵循 LSP 标准的语言服务器配合使用,并与多个可观察性后端集成。 启动和运行 lspwatch 非常简单。你可以选择配置你的监控,将其指向现有的可观察性后端,它就会正常工作。lspwatch 会透明地监控语言服务器的行为并发出指标。开发者在使用代码编辑器时不会注意到任何变化。 欢迎大家提供反馈和想法。README 中包含了更多详细信息。许多令人兴奋的功能正在开发中,以构建在这个项目提供的平台之上。如果你想进一步讨论这个问题,可以通过我个人资料中的电子邮件联系我。 谢谢! [1] <a href="https://bsky.app/profile/mike.contribsys.com/post/3lbd5wx57ss2d" rel="nofollow">https://bsky.app/profile/mike.contribsys.com/post/3lbd5wx57ss2d</a> [2] <a href="https://github.com/typescript-language-server/typescript-language-server/issues/472" rel="nofollow">https://github.com/typescript-language-server/typescript-language-server/issues/472</a>
2作者: tuxxness3 个月前原帖
我一直想要一个华丽的 Linux 屏幕锁定器,因此我开发了 FancyLock,这是一个支持 X11(并即将支持 Wayland)的 Linux 屏幕锁定解决方案。 主要特点: - 锁屏时动态媒体播放 - 支持多显示器 - 基于 PAM 的身份验证 - 智能闲置超时 - 高度可配置 FancyLock 旨在解决现有屏幕锁定器的一些痛点: - 无聊且静态的锁屏界面 - 较差的多显示器支持 技术亮点: - 使用 Go 语言编写 - 利用 X11 扩展进行低级窗口和输入管理 - 与 mpv 进行灵活的媒体播放 - 通过 JSON 进行配置 当前版本为 v0.0.1,支持 X11,计划支持 Wayland。 GitHub: [https://github.com/tuxx/fancylock](https://github.com/tuxx/fancylock) 期待听到您的想法和反馈! 编辑:很高兴回答有关实现或设计选择的任何问题。