返回首页
最新
耶!<p>只需添加一行代码,它将快速加载(使用Bunny CDN),不会影响您网站的速度。<p>为您的网站访客提供闪烁的光标移动轨迹。<p>必备哦 :)
大家好,我们正在开发InferX,这是一种原生AI运行时,可以快速捕捉大型语言模型(LLM)的完整GPU执行状态(包括权重、KV缓存、CUDA上下文),并在2秒内恢复。这使得我们能够像线程一样热插拔模型,无需重新加载,也没有冷启动的时间。
我们将每个模型视为一个轻量级、可恢复的进程,类似于LLM推理的操作系统。
为什么这很重要:
- 每个GPU可以运行超过50个LLM(范围在7B到13B之间)
- GPU利用率达到90%(而传统设置大约为30-40%)
- 通过直接在GPU上快照和恢复,避免了冷启动
- 设计用于自主工作流、工具链和多租户使用场景
- 对于Codex CLI风格的编排或突发性多模型应用非常有帮助
虽然还处于早期阶段,但我们已经看到构建者和基础设施人员表现出强烈的兴趣。欢迎分享您的想法、反馈或希望看到测试的边缘案例。
演示链接: [https://inferx.net](https://inferx.net)
推特:@InferXai
这个ASK HN的灵感来源于 https://news.ycombinator.com/item?id=43716006
> 是的,这是一个由单独开发者维护的30年历史的软件。它是互联网历史上的一件了不起的作品。
> WinRAR也将在几天后迎来30岁生日。
你还知道其他类似的东西吗?
我们在SaaS领域已经摸索了几年——构建、发布和发展小型产品——我不禁感到,行业格局正在以一种令人担忧的方式发生变化。
价格普遍上涨。曾经对独立创始人或早期团队来说负担得起的工具,如今却突然变得只适合企业预算。 “免费增值”模式正在让位于激进的试用、基于使用的定价以及核心功能的付费墙。似乎,进入门槛不仅在增加客户的负担,也在增加开发者的压力。
与此同时,竞争比以往任何时候都要激烈。人工智能加速了开发,但也让市场瞬间充斥着各种产品。数以百计的克隆品、微小的修改和“先发布后迭代”的产品涌入同一个细分市场。发现机制已经崩溃,差异化变得比以往任何时候都更加困难。
或许最糟糕的是,信任正在丧失。用户厌倦了虚假宣传、意外的功能弃用和数据锁定。人们感到,太多的SaaS企业更关注于不惜一切代价的增长,而非产品质量、用户体验和长期价值。
我们是否正朝着SaaS寒冬的方向飞驰?还是这仅仅是一个变化中的生态系统中的不良时期?
我很想知道你的感受,特别是其他独立创始人和自筹资金的团队。你们是充满希望,还是在质疑自己在SaaS中的角色?
你是否希望为特定受众(如初创企业创始人、开发者或投资者)定制内容?
我想知道您更喜欢如何合并分支和拉取请求(PR)/合并请求(MR)。