大家好,我想分享一个我们在过去几个月里一直在开发的新项目,叫做ART(<a href="https://github.com/OpenPipe/ART">https://github.com/OpenPipe/ART</a>)。
ART是一个新的开源框架,用于利用强化学习(RL)训练智能体。强化学习允许你训练一个智能体在任何可以测量和量化结果的任务中表现得更好。
目前有许多优秀的项目专注于使用强化学习训练大型语言模型(LLM),例如GRPOTrainer(<a href="https://huggingface.co/docs/trl/main/en/grpo_trainer" rel="nofollow">https://huggingface.co/docs/trl/main/en/grpo_trainer</a>)和verl(<a href="https://github.com/volcengine/verl">https://github.com/volcengine/verl</a>)。我们在OpenPipe的面向客户项目中广泛使用了这些框架,但对一些关键限制感到沮丧:
- 多轮工作流,即智能体调用一个工具,获取响应后再调用另一个工具,这种情况支持不佳。这使得任何需要智能体执行一系列动作的任务都无法启动。
- 其他框架通常GPU效率低下。它们可能需要多个H100 GPU才能训练一个小的7B参数模型,并且在训练循环的“回放”和“训练”阶段无法始终保持GPU的高负载。
- 现有框架通常不方便与现有的智能体代码库集成。现有的训练器期望你调用原始文本完成端点,而不会自动提供行业标准的聊天完成API。
ART旨在解决这些限制,使训练高质量智能体变得简单。我们在这篇文章中分享了许多细节和实践经验,演示了如何训练一个电子邮件研究智能体,其表现超过了o3(<a href="https://openpipe.ai/blog/art-e-mail-agent">https://openpipe.ai/blog/art-e-mail-agent</a>)。你还可以在我们的公告文章中了解更多关于ART架构的信息(<a href="https://openpipe.ai/blog/art-trainer-a-new-rl-trainer-for-agents">https://openpipe.ai/blog/art-trainer-a-new-rl-trainer-for-agents</a>)。
如果你有任何问题,欢迎提问!
返回首页
最新
嘿,黑客们!<p>在2025年1月,我开始构建Telebugs。这是一个可安装的错误追踪工具,支持与Sentry SDK的集成。<p>我有Rails背景,之前在一家错误追踪/APM公司工作,所以我想:为什么不自己做一个呢?我想要一个简单、可靠的工具,完全由我自己掌控,而不必担心超出使用量后带来的意外账单。<p>Telebugs是基于Rails 8、Hotwire、TailwindCSS和SQLite构建的。就像37signals的ONCE产品(我的灵感来源),它是一次性付费:准备好硬件,运行一个命令,你将在10分钟内完成安装(实际安装时间约为5分钟)。<p>它支持推送和电子邮件通知,每天处理数百万个错误(具体取决于硬件),运行在一个Docker容器中,并根据你的规则自动清理旧数据。这个想法是,你只需安装一次,之后就可以忘记它。<p>从第一天起,我就在社交媒体上分享更新,今天我正式对外发布。可安装的自托管软件对我来说是个新概念,但构建Telebugs让我重新感受到网页开发的乐趣。<p>我花了3.5个月几乎每天都在工作,才独立完成这个项目。现在我用它来追踪我所有项目中的错误。<p>欢迎提出任何问题!
目前,我看到的数据显示,Wayland在使用X的比例中占比在80%到93%之间,具体取决于我阅读的来源。我希望Wayland能够获得更多的关注,但我也意识到,许多使其具有吸引力的特性实际上会影响其可用性,因为许多工具和黑客技术依赖于X的固有安全漏洞。大家认为Wayland在Linux生态系统中的使用率达到50%需要多长时间?
我们刚刚推出了一个我非常自豪的小项目——一个涡轮数据库MCP服务器!<a href="https://centralmind.ai" rel="nofollow">https://centralmind.ai</a>
<p>- 只需几次点击即可将您的数据库连接到Cursor或Windsurf。<p>- 可与PostgreSQL、MSSQL、ClickHouse、Elasticsearch等进行对话。<p>- 使用DuckDB的内存模式即时查询巨大的Parquet文件。<p>- 无需下载,无需繁琐的设置。<p>短视频:<a href="https://youtu.be/BboQtxen9tA" rel="nofollow">https://youtu.be/BboQtxen9tA</a>
<p>基于我们的开源MCP数据库网关构建:<a href="https://github.com/centralmind/gateway">https://github.com/centralmind/gateway</a>
<p>注意:您需要提供数据库的连接字符串。对于关注隐私的用户,这仍然是一个很好的工具,可以用于实验MCP、开发或使用DuckDB分析公共数据集。
大家好,我是Jonathan,Fine.dev的联合创始人。
在过去的一个月里,我们的平台——一个基于人工智能的应用创建平台,已经见证了超过10,000个应用的诞生。这让我们从一个独特的角度理解了人们如何实际使用人工智能来构建软件。我们原以为自己已经掌握了所有,但所学到的内容完全改变了我们的思维。
以下是我们学到的三大关键点:
1. 限制代理的操作范围可以显著改善结果。
起初,我们认为“人工智能能做的越多越好”。结果发现……并非如此。当代理拥有过多自由时,用户得到的结果往往模糊、冗长或不相关。但当我们缩小范围时,结果却惊人地改善。我们甚至几乎停止使用工具调用。我们从未预料到会发生这样的事情,但事实就是如此。总结一下——小而专注的提示 → 更简洁、更有用的应用。
2. 第一个提示非常重要。
我们发现提示的质量差异巨大。“给我一个生产力工具”和“给我一个包含3个可勾选并每天重置的早晨清单”的区别是天壤之别。实际上,应用的成功往往取决于第一个提示的详细程度。如果提示足够好,用户可以轻松在其基础上进行迭代,直到得到理想的结果。如果提示不够好,迭代的结果往往不太有用。总结一下——确保在你的第一个请求上投入精力,这将为后续过程定下基调。
3. 大多数应用都是小型、个人化和临时的。
这让我们大吃一惊的是:人们并不是在创建初创公司或商业,而是在为自己构建工具。为了这一周。为了这一刻。一个仅用于今年假期的礼物追踪器,一个为周末的团体旅行规划的工具,一个帮助孩子晨间日常的快速仪表板,一个一次性活动的RSVP方式。这些应用大多数并不是为了长久存在。这正是它们的价值所在。
这使我们在思维上发生了重大转变:
我们一直将软件视为产品或基础设施。但在看到10,000个应用诞生后,我们坚信它也正在成为内容:快速创建,易于丢弃,且极具个人化。实际上,我们甚至发布了一个Feed,每个帖子都是一个可以重混、重建或丢弃的工作应用。
我们认为,我们正进入一个一次性软件的时代,而人工智能应用构建者正是这一转变的体现。
如果大家对我们从前10,000个应用中学到的内容有任何问题,我很乐意以问答的形式进行解答。
有没有什么好的替代指标来衡量这个绩效?我的公司希望每年将其提高10%。我的团队实际上比去年有所下滑,但我们有合理的解释,比如更多的功能开发和较少的生产事故。生产事故通常是快速修复的问题,这导致了更快的部署周转时间。很多时候,常规的故事会因为完成的时间而成组部署,而不是单独部署。此外,这个数字似乎没有考虑到通货膨胀。因此,分母每年会随着生活成本调整而增长大约3%。
最好的选择是评估实际交付的价值,但这太复杂了,我的公司不想走这条路。
看起来更好的公式应该是:
完成的故事或点数 / 调整后的通货膨胀成本。