返回首页
最新
我构建了一个骑行训练生成器,采用了两阶段的语言模型(LLM)架构。
第一阶段:草稿生成器接收用户输入,并创建高层次的训练结构,包括各个环节。
第二阶段:专业处理器(热身专家、间歇专家等)将每个环节转换为精确的功率目标和时间安排。
关键见解:
- 使用模式时,语言模型在生成结构化的JSON方面表现出色。
- 将复杂任务拆分为更小、更专注的语言模型调用,比使用单一的提示更有效。
- 每个专业处理器都有独立的上下文,强制生成自包含的输出。
结果:“4x4分钟阈值间歇”变成了与Wahoo Element自行车电脑直接同步的精确功率区间和持续时间。
还有其他人发现结构化输出在复杂数据生成方面出奇可靠吗?
除了显而易见的聊天机器人和编码助手之外,我很好奇人们实际上在使用大型语言模型(LLMs)开发什么。内部工具?面向客户的功能?有没有在实际应用中具有经济价值的智能代理?
几周前,我产生了一个愚蠢的想法:在任天堂游戏机Game Boy上进行神经网络推理。我选择了MNIST手写数字数据集,研究了int8量化,并开始着手实现。
结果是一个可玩的ROM,能够适应单个ROM内存库(16 KB),其中包含一个训练好的神经网络和推理代码。在Game Boy上运行的神经网络在MNIST测试集上的准确率达到了93.86%;虽然对于MNIST来说这个结果并不算好(因为这是一个相对简单的分类任务),但对于在Game Boy上运行的模型来说,这个成绩相当不错。
你可以在发布页面找到编译好的ROM(<a href="https://github.com/jongoiko/gb-nn/releases">https://github.com/jongoiko/gb-nn/releases</a>),欢迎尝试!