返回首页
最新
萨姆·奥特曼最近表示,用户对ChatGPT的礼貌行为让OpenAI花费了“数千万美元”,但这“花得值得”。<p>传统观点认为,强化学习与人类反馈(RLHF)依赖于明确的反馈(点赞/点踩),而礼貌的回应只是增加计算成本的噪音。<p>但像“谢谢!”或“不是,这个错了”这样的自然回复,是否比按钮点击提供了更丰富、更频繁的隐性反馈信号?人们可能更常给出这种反馈(至少我如此)。这也反映了我们作为人类自然提供反馈的方式。<p>模型提供者是否可以从这些聊天记录中挖掘出真实的用户情感,以指导未来的RLHF,从而证明这笔费用是合理的?而这种“社交化”是否对未来需要对话细腻度的智能体AI至关重要?<p>HN的提问:<p>你知道有人将这种隐性情感作为核心对齐信号使用吗?<p>嘈杂的文本情感与清晰的按钮点击在训练中价值如何?<p>潜在的训练价值是否抵消了提到的计算成本?<p>我们是否低估了以这种方式“社交化”大型语言模型的价值?<p>你认为奥特曼所说的“花得值得”是什么意思?这纯粹是关于用户体验、宝贵的训练数据,还是完全其他的东西?
对于在这里使用它的人来说,这个空间还活着吗?
基于Rust的分子结构工具包,集成了WebAssembly,旨在实现高性能的3D可视化和分析,能够在浏览器中运行。该工具可以解析PDB文件,处理分子结构,并通过WebAssembly以接近原生的性能渲染交互式3D模型。它专为需要高效、技术性可视化工具的研究人员和开发者设计,避免了仅使用JavaScript的低效解决方案的负担。
<p>这是一个非常早期的演示,我对这个项目未来的发展充满期待。欢迎大家贡献力量,让它变得更好:</p>
<p><a href="https://github.com/technoabsurdist/molecule-rs">https://github.com/technoabsurdist/molecule-rs</a></p>
一个全面的博客,深入学习大型语言模型(LLMs)的方方面面:分词、注意力机制、位置编码等
项目
我一直在深入研究大型语言模型(LLMs)的内部结构,并开始记录我的发现。我的博客涵盖了以下主题:
- 分词技术(例如,BBPE)
- 注意力机制(例如,MHA、MQA、MLA)
- 位置编码与外推(例如,RoPE、NTK感知插值、YaRN)
- 像QWen、LLaMA等模型的架构细节
- 包括SFT和强化学习在内的训练方法
如果你对LLMs的细节感兴趣,欢迎查看我的博客: [http://comfyai.app](http://comfyai.app)