返回首页
最新
我制作这个主要是为了加快内容创作的速度。<p>在录制YouTube视频或播客时,往往会有很多空闲时间(沉默),比如查看脚本或寻找正确的展示物品。因此,我制作了一个网络应用程序,可以自动剪辑和拼接视频,然后我可以在达芬奇调色软件中进一步编辑。<p>但我最近发现,这对于重看讲座或会议录音非常有效,完全不需要渲染,只需将视频放入即可立即观看。<p>30分钟的讲座可以在12分钟内观看!<p>我甚至添加了自动生成字幕的功能,以便更好地学习讲座或会议内容。<p>最棒的是,所有操作都在本地进行,连AI也在本地模型上运行。<p>希望HN的朋友们能像我一样觉得这个工具有用!
Chessophone将国际象棋游戏的PGN字符串表示转换为音乐——在棋盘的每一行中,每个棋子在每一步棋中都会添加C大调音阶的音符。<p>使用相同开局进行的游戏在偏离书面走法之前听起来是相同的。随着棋子的被吃掉,音乐的节奏感会加快。请享受!<p>Web Audio API有点麻烦,如果使用实际的<audio>标签会更好,但遗憾的是,周六早晨的时间总是有限。<p>该项目使用python-chess和tone.js创建。<p>源代码在这里:<a href="https://github.com/charliemeyer/chessophone">https://github.com/charliemeyer/chessophone</a>
十多年前,“人工智能”可能主要指的是强化学习、进化算法/遗传算法等领域。如今,大多数关注点似乎集中在大语言模型(LLMs)、卷积神经网络(CNNs)以及其他依赖于人工标注或至少依赖于人类创建数据的方法上,并且在“学习”和“推理”之间存在静态的分隔。
我知道目前在强化学习和其他领域仍然有非大语言模型、非卷积神经网络、非以人为中心的人工智能发展主题。您认为今天哪些是最突出或最有前景的,或者最有可能实现的?
幻觉仍然是部署可靠的检索增强生成(RAG)系统的主要障碍,尤其是在医疗或法律等复杂领域。<p>目前大多数现有的幻觉检测器依赖于完整的LLM推理(成本高、速度慢),或者在处理长上下文输入时面临困难。<p>我开发了LettuceDetect——一个开源的仅编码器框架,它基于检索到的上下文检测LLM生成答案中的幻觉片段。无需使用LLM,且效率更高。<p>亮点:<p>- 令牌级幻觉检测(根据检索证据标记不支持的片段)<p>- 基于ModernBERT构建——处理最多4K令牌的上下文<p>- 在RAGTruth基准上获得79.22%的F1分数(超越之前的编码器模型,与LLM具有竞争力)<p>- MIT许可证<p>— 包含Python包、预训练模型和Hugging Face演示<p>GitHub: <a href="https://github.com/KRLabsOrg/LettuceDetect">https://github.com/KRLabsOrg/LettuceDetect</a><p>博客: <a href="https://huggingface.co/blog/adaamko/lettucedetect" rel="nofollow">https://huggingface.co/blog/adaamko/lettucedetect</a><p>预印本: <a href="https://arxiv.org/abs/2502.17125" rel="nofollow">https://arxiv.org/abs/2502.17125</a><p>模型/演示: <a href="https://huggingface.co/KRLabsOrg" rel="nofollow">https://huggingface.co/KRLabsOrg</a><p>希望能收到任何在RAG、幻觉检测或高效LLM评估方面工作的人的反馈。同时也在探索实时幻觉检测(与仅生成后检测相比)——欢迎对此的想法或合作。