返回首页
最新
我们需要结束在网络、应用等场合中,只有“是”和“现在不”的选项可供选择的现象。这对自主权和同意权是一种攻击。<p>当然,在某些情况下这是合理的,但显然在一般情况下并没有得到良好的使用。<p>我这一周过得很奇怪,也许这算是过度反应,但这是我愿意为之奋斗的事情。还有,如果我可以在线注册账户,我就应该能够在线关闭我的账户(我在说你,Planet Fitness……可恶)。<p>请帮我找到推动变革的方法。<p>补充:我是美国公民,但我希望看到全球的变革。
该项目解决了传统基于Dockerfile的容器构建中的低效问题。在这种方法中,每个自定义层通过重复的apt-get install命令产生存储膨胀,导致重复依赖;不同镜像之间的冗余软件包下载造成网络低效;而慢速的迭代周期则需要对所有先前步骤进行完全重建。我们的解决方案利用debootstrap从头构建最小基础镜像,精确地仅包含初始构建所需的组件,同时允许从这些共同基础创建专门的变体(如Java、Kafka等)——与标准的Docker层叠加方法相比,这种方法生成的镜像显著更精简,构建速度更快,资源利用效率更高。
我厌倦了每次签署重要文件时都要翻阅一大堆法律文本,因此我开发了一个Chrome扩展程序,利用人工智能来:
- 识别红旗和可疑条款——它会在你在线阅读合同时,实时自动高亮显示风险区域。
- 评估合同的安全性——基于行业标准的风险参数,它会给出一个一目了然的评分,让你了解文件的风险程度。
- 简化行话——它会生成关键点的快速总结,免去你逐段详细阅读的麻烦。
再也不用凭直觉或运气签字了!
目前,这个扩展程序处于测试阶段,任何加入候补名单的人在发布当天都能享受50%的折扣。对于我个人的心理健康来说,这个工具非常有帮助——尤其是那些看起来设计得让你无休止滚动的多页电子合同。
我非常欢迎任何反馈或想法,以便让我能使其更有价值。
简而言之:我开发了一个变换器模型和一个包装库,可以将文本分割成有意义的语义块。
目前的文本分割方法依赖于启发式规则(尽管可以使用神经嵌入器将语义相关的句子进行分组)。
我提出了一种完全基于神经网络的语义分块方法。
我使用基础的DistilBERT模型,并在书籍语料库上进行了训练,以将连接在一起的文本段落分割成原始段落。基本上,这是一项标记分类任务。模型的微调在两块1080ti显卡上花费了一天半的时间。
这个库可以用作RAG系统中的文本分割模块,或者用于分割转录文本等。
我设想的使用模式如下:去除所有标记标签以生成纯文本,然后将该文本输入模型。
问题是,尽管理论上这应该提高整体RAG管道的性能,但我未能准确测量其效果。其他限制包括:该模型目前仅支持英语,并且输出文本为小写。
请试用一下,我会很感激您的反馈。
Python库链接: [https://github.com/mirth/chonky](https://github.com/mirth/chonky)
变换器模型链接: [https://huggingface.co/mirth/chonky_distilbert_base_uncased_1](https://huggingface.co/mirth/chonky_distilbert_base_uncased_1)
我和我的同事们撰写了一篇论文,并将其整合到变换器(transformers)中。<p>与NF4相比,它在准确性和速度上都有所提升。<p>我们已经压缩了hf模型,供大家试用:<a href="https://huggingface.co/collections/ISTA-DASLab/higgs-675308e432fd56b7f6dab94e" rel="nofollow">https://huggingface.co/collections/ISTA-DASLab/higgs-675308e...</a>