TokenDagger 是 OpenAI 的 Tiktoken(Llama 3、Mistral、GPT-3.* 等背后的分词器)的替代品。它使用 C++ 17 编写,并具有轻量级的 Python 绑定,保持完全相同的 BPE 词汇/特殊标记规则,专注于原始速度。
我通过从基本原理重新实现整个堆栈来学习大型语言模型的内部机制。对 TikToken 的 Python/Rust 实现进行性能分析显示,很多时间花在了正则表达式匹配上。我的性能提升主要来自于:a) 使用更快的 JIT 编译正则表达式引擎;b) 简化算法,完全不进行特殊标记的正则表达式匹配。
基准测试代码已包含在内。显著结果显示:
- 在单线程下,代码样本的分词速度提高了 4 倍。
- 在 1GB 自然语言文本文件的测试中,吞吐量提高了 2-3 倍。
返回首页
最新
我刚刚完成了即将在 MIST 中使用的 MySQL 解析器。<p>背后的故事是,TiDB 的 MySQL 解析器是迄今为止最兼容 MySQL 的解析器,但它依赖于一些称为“parser_driver”的类型。<p>Parser Driver 包含来自 TiDB 的类型,但不幸的是,TiDB 并不打算将与 TiDB 深度耦合的 MySQL 类型移出,作为一个独立的 Go 包。GitHub 问题:16381<p>在我看来,TiDB 本身将所有开源模块混合在一起,形成了一个非常有主见的单体架构。<p>我正在将 MIST 移植到 WASM 二进制文件,而 TiDB 的系统调用会愚蠢地被包含、编译,并在针对 WASM 时导致静态链接失败。<p>因此,我花了几天时间提取现有的解析器包和解析器驱动,并将耦合的 TiDB 类型重新导出为一个真正可用的 MySQL 解析器 Go 包,这个包是真正跨平台的,并准备移植到 WASM。<p>代码库: <a href="https://github.com/abbychau/mysql-parser">https://github.com/abbychau/mysql-parser</a>
交互式解析器演示: <a href="https://abbychau.github.io/mysql-parser/" rel="nofollow">https://abbychau.github.io/mysql-parser/</a>
Twins Finder是一款应用程序,利用PerchEye面部识别技术来识别团体照片中最相似的人。<p>下载链接 - <a href="https://play.google.com/store/apps/details?id=com.app.twinsfinder&pcampaignid=web_share">https://play.google.com/store/apps/details?id=com.app.twinsf...</a>
简单的问题。你在哪里以及如何托管你的 Go 应用?我觉得要么你需要运行一个虚拟机,要么就得为 Google Cloud 的复杂性付费。
我相信现在会有人提到 Fly 或 Railway,但我还是想知道你们的亲身经历。
就我个人而言,我仍在使用 DigitalOcean,我通过 git pull 获取代码,从源代码编译并运行 Go 二进制文件,偶尔会用到一个 shell 脚本。前面是 nginx 和 certbot/letsencrypt。就这样。出于某种原因,我希望这能成为一个简单的解决方案,而不是市面上各种各样的托管服务。我总是担心 Fly、Railway 或其他公司会倒闭。我觉得其他工具真的很复杂,而专用的应用托管又太贵。使用虚拟机加上一些开源工具效果很好。但我想,当你把托管工作交给别人时,你就开始期待各种各样的工具。也许如果有一个专门的基于 CLI 的工具就好了。谁知道呢。
经过六年的每日写作和两百万字的积累,我觉得自己已经学到了足够的知识,可以让Ensō变得更简单、更易于接触。
相关讨论: [https://news.ycombinator.com/item?id=38025073](https://news.ycombinator.com/item?id=38025073)
SCANOSS刚刚在其命令行工具(scanoss-py)中新增了一项功能:高精度文件夹匹配(HPFM)。<p>与逐个匹配每个文件不同,HPFM分析扫描文件夹的完整结构——包括文件名、目录布局、扩展名和内容——以快速确定它最有可能代表哪个开源组件。<p>可以把它想象成扫描一辆车:传统扫描列出所有部件;而HPFM则告诉你“这是一辆标致2008。”<p>它的优势在于:
– 在高流量环境中加快扫描速度
– 通过聚焦于主要组件来减少噪音
– 通过提供“提示”来提高后续扫描的准确性
– 帮助检测已更改或不完整的组件<p>现在在scanoss-py中可用。
文档/GitHub: https://github.com/scanoss/scanoss.py
命令行:scanoss-py scan --folder-hashing <路径><p>期待听到您的反馈、建议或可能的应用案例。