Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了|字节|鲁棒性|meta|tokenizer

文章编号：503时间：2024-12-17人气：

用微信扫码二维码

meta最" loading="lazy">

分享至好友和朋友圈

BLT 在许多基准测试中超越了基于 token 的架构。

最近几天，来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了，在 Hacker News 上受到广泛讨论。

有人表示，非常期待这项研究取得成功，这样就可以和 tokenizer 拜拜了！

还有人担心的表示，「现在 tokenization 是大多数模型的基础，这项研究被采用的可能性究竟有多大？」

总结而言，该研究提出了一种新的 LLM 思想。传统的语言模型依赖于 tokenizer 来预处理数据，但 tokenization 有其固有的局限性，包括固定的词汇表、处理多语言或噪声数据的效率低下，以及由压缩启发式方法引入的偏见。

该研究提出字节潜在 Transformer（Byte Latent Transformer，简称 BLT）挑战了这种常规做法。BLT 通过直接建模原始字节流，将它们根据熵动态分组为 patch 以实现高效计算。

具体而言，BLT 不需要 tokenizer 架构，可以直接从原始字节数据中学习，避免了静态词汇表的限制，并能更好地处理多样化和带噪声的输入。

基于熵的 Patch：根据信息复杂度动态地将字节分组为 Patch，对高熵区域（复杂输入）分配更多的计算资源，在低熵区域节省资源。

高效扩展：通过优化 patch 大小并利用轻量级局部模型，BLT 实现了与基于 token 模型（如 LLaMA）相当或更好的性能，并在推理过程中节省高达 50% 的计算资源。

鲁棒性与灵活性：BLT 在需要字符级理解、噪声输入或长尾泛化的任务中表现出色，在许多基准测试中超越了基于 token 的架构。

此外，该研究首次提出了对字节级模型进行 flop 控制的扩展研究，参数规模高达 8B，训练字节高达 4T，从而展示了在没有固定词汇表 tokenization 的情况下，从字节级别端到端地大规模训练模型。

总体而言，BLT 在训练时的 flop 控制性能与 Llama 3 相当，同时在推理时使用的 flop 减少了高达 50%。该研究还进行了 inference-flop 控制的扩展实验（图 1），并观察到与基于 tokenization 架构相比，BLT 扩展趋势明显更好。

这篇论文贡献如下：

这种无需 tokenizer 的方法代表了语言建模的重大转变，为更高效、可扩展和鲁棒的人工智能系统铺平了道路。

对此，有研究者表示：「Meta 刚刚杀死了 TOKENIZATION，他们发布的 BLT 是一种无 tokenizer 的架构，可以动态地将字节编码为 patch，并实现更好的推理效率和稳健性！」

「2025 年可能是我们告别 tokenization 的一年。」

BLT 由一个对 patch 表征进行操作的大型全局自回归语言模型以及两个较小的局部模型组成，两个较小的局部模型将字节序列编码为 patch 并将 patch 表征解码回字节（图 2）。

潜在全局 Transformer 是一个具有 l_G 层的自回归 transformer 模型 G，它将一系列潜在输入 patch 表征 p_j 映射到一系列输出 patch 表征 o_j。

论文使用下标 j 表示 patch，使用下标 i 表示字节。全局模型使用块因果注意力掩码（Dubey et al., 2024）。

该研究展示了字节级模型扩展趋势的整体图景，可以为 BLT 模型的进一步扩展提供信息，旨在通过以下方式解决先前字节级模型研究的局限性：

参数匹配计算最优扩展趋势

使用 Llama 2 数据集，该研究训练了四种不同大小（参数范围从 1B 到 8B）的各种计算最优 bpe 和 BLT 模型。然后在训练数据混合物的代表性子集上根据语言建模性能绘制训练 flops 图。BPE 模型使用 Llama 3 确定的模型参数与训练数据的最佳比率进行训练（Dubey et al., 2024）。这种计算最优设置理论上旨在在给定的训练预算内实现训练数据集的最佳性能（Hoffmann et al., 2022），为模型提供鲁棒的基线。对于每个 bpe 模型，该研究还使用与相应 bpe Transformer 的大小和架构相匹配的潜在 Transformer 在相同数据上训练相应的 BLT 模型。

如图 6（右）所示，BLT 模型要么相当，要么优于 BPE 模型，并且随着扩展模型大小和 flops，这种趋势仍然存在。

为了进一步评估扩展特性，该研究在更大的高质量数据集 BLT-1T 上训练了一个 8B 参数规模的 BLT 模型。表 1 比较了在 BLT-1T 数据集上训练的三个模型，基于 tokenizer 的 BPE Llama 3 模型和 BLT 模型的两个变体（一个采用空间 - patch 方案 (BLT-Space)，另一个采用基于熵的 patch 方案 (BLT-Entropy)）。

结果显示，BLT-Entropy 模型在 7 项任务中的 4 项上的表现优于 Llama 3 模型。这种改进是由于 (1) 通过动态 patch 更好地利用了训练计算，以及 (2) 直接对字节级信息进行建模，而不是对 token 进行建模。

此外，论文还介绍了 Patch 比 Token 更容易扩展。

总结来说，对 patch 长度扩展研究表明，BLT 这种基于 patch 的架构可以通过同时增加 patch 和模型的大小来实现更好的扩展趋势。这样的趋势似乎在更大规模的模型中持续存在，甚至有所改善。

字节建模提高鲁棒性

在对带噪声的 HellaSwag 测试结果发现，BLT 确实在鲁棒性方面全面超越了基于 tokenizer 的模型，平均优势达到 8 个百分点，甚至超过了在更大数据集上训练的 Llama 3.1 模型。

图 7 展示了 Llama 3 tokenizer 模型表现不佳，但 BLT 模型表现良好的几个场景。

表 4 表明，BLT 的表现超过了使用 Llama 3 tokenizer 训练的模型。在流行的语言对中，BLT 的表现与 Llama 3 相当或略好。然而，在资源较少的语言对上，BLT 的表现超过了 Llama 3，这强调了字节建模在泛化到长尾字节序列上的有效性。

很明显，经过 Llama 3.1 初始化的 BLT 显著优于 Llama 3 和 BLT 基线，这些基线是用相同数量的 flop 训练的。

相关标签：字节、鲁棒性、 meta、 tokenizer、

下一篇：讯飞AI录音笔旗舰新品S8离线版发布AI降噪高

内容声明：

1、本站收录的内容来源于大数据收集，版权归原网站所有！
2、本站收录的内容若侵害到您的利益，请联系我们进行删除处理！
3、本站不接受违法信息，如您发现违法内容，请联系我们进行举报处理！
4、本文地址：https://2um.baiwanlian.cn/article/9697f0cb70449df245e2.html，复制请保留版权链接！

温馨小提示：在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位！

随机文章

推动提升金融服务质效,中国人保APP等获评“金融科技创新应用典型案例”

推动提升金融服务质效中国人保等获评金融科技创新应用典型案例推动提升金融服务质效中国人保等获评中国银行研究院报告显示截至年我国数字金融市场规模达到万亿元占全球数字金融市场规模的居全球第一位在数字经济时代大力发展数字金融推进数字化转型是顺应数字经济发展实现自身高质量发展的必然举措已成为金融业的重点发展方向保险业作为数字金融...

互联网资讯 2024-12-17 12:48:37

因“找不到商业模式”，沃尔玛宣布关闭旗下51家健康中心

据沃尔玛官方新闻稿，由于“找不到可持续的商业模式”，沃尔玛已于4月30日起陆续关闭旗下51家WalmartHealth健康中心。沃尔玛声称“近年来各项成本高涨，在经过商业评估后，不得不关闭相关线下健康业务”。

互联网资讯 2024-12-17 12:33:21

npm软件包网站被滥用，开发者上传超700个《武林外传》切片视频

npm是一个Node.js包管理和分发工具，于2020年被Github收购，开发者可在该仓库上传托管或下载软件包。近日，Sonatype安全研究团队发现npm注册表中充斥着748个奇特的“软件包”，每个包的大小约为54.5MB，并以“wlwz”前缀命名。

互联网资讯 2024-12-17 12:24:42

夏一平：公司遇到困难需要立即调整，极越汽车进入创业2.0阶段

极越CEO夏一平发布内部信。信中称，极越汽车进入创业2.0阶段，将做好四个方面事情。

最新资讯 2024-12-17 12:23:39

谷歌建新社区邀用户共塑GoogleTV未来，每月抽奖送出5张50美元礼券

谷歌公司为了收集更多用户反馈，加深和用户的互动，最新推出GoogleTVAdvisors社区，邀请用户共同塑造GoogleTV的未来。

最新资讯 2024-12-17 12:21:50

王化辟谣小米相机部大佬离职：缺乏常识大概率没上过班-手机中国

科技消息近日小米相机部大佬离职的消息在网上流传对此小米集团公关部总经理王化进行了辟谣表示这样的言论缺乏常识还称造谣的人大概率没上过班王化辟谣小米相机部大佬离职缺乏常识大概率没根据王化放出的传言截图有网友发文表示小道消息某大厂相机部大佬离职昨晚体验了一下某机型效果差点意思白平衡翻车影像做得不太好原来是相机部大佬离职有点可...

互联网资讯 2024-12-17 00:38:20

三星S25系列将带来更多AI功能新Bixby将接入大模型-手机中国

科技新闻按照惯例三星将在明年月带来最新一代的系列手机根据爆料来看今年三星也将带来三款产品分别为三星三星以及三星三星系列将带来更多功能新在今年年初三星便为系列带来了诸多功能而在系列亮相后三星也将带来更多的新功能满足更多用户的期待同时三星的语音助手也有望接入大模型这也能显著提升三星手机的语音对话能力让用户体验更加符合用户直...

互联网资讯 2024-12-17 00:38:01

马斯克称效率部最后一步是删除自己项目2026年截止-手机中国

科技消息月日和马斯克一起组建政府效率部的维韦克拉马斯瓦米在上称大多数政府项目都应该有明确的截止日期这就是为什么我们为政府效率部也设定了一个年月日马斯克转发这条帖文并说道政府效率部的最后一步是删除自己本身马斯克称效率部最后一步是删除自己项目当地时间月日美国企业家埃隆马斯克与维韦克拉马斯瓦米在华尔街日报的一篇专栏文章中详细...

互联网资讯 2024-12-17 00:36:55

苹果CEO库克公开回应多项质疑包括iPhone16设计-手机中国

科技消息近日苹果公司首席执行官蒂姆库克接受了连线杂志的采访就公司近期的一系列重要议题发表了深入见解其中关于上新增的物理相机按钮设计所引发的争议成为了媒体和消费者关注的焦点苹果库克公开回应多项质疑包括这一设计变革与苹果前史蒂夫乔布斯所倡导的极简按钮理念有所不同因此引发了不少质疑对此库克表示虽然无法确切预测乔布斯会如何看待...

互联网资讯 2024-12-16 23:10:30

欧盟2035禁燃令或生变数电车需求放缓传统车企转型难-手机中国

科技消息在欧洲汽车行业与政府多次批评欧盟过于仓促地推动燃油车禁令之后政界也出现了反对声音欧洲议会最大党团欧洲人民党近日敦促布鲁塞尔决策者重新审视这一禁令欧盟禁燃令或生变数电车需求放缓传统车据路透社报道一份内部草案表明建议推翻原定于年的燃油车禁令并允许使用替代燃料的燃油车辆继续存在在草案中提到未来应允许搭载替代燃料的燃油...

互联网资讯 2024-12-16 22:41:43

传蔚来和小鹏已经去极越招人提供大量岗位全国可投-手机中国

科技消息月日极越汽车发布了内部信透露了公司目前所遭遇的困难其表示将会合并职能重复的部门与岗位变革低效的内部工作流程消息公布后其他车企似乎开始了行动传蔚来和小鹏已经去极越招人提供大量岗位全国可有博主透露在极越宣布上述变革后不久蔚来和小鹏已经去极越招人了从曝光的截图中可以看到有疑似是蔚来的人在群里发送了蔚来和乐道的内推码表...

互联网资讯 2024-12-16 22:40:52

王化辟谣：小米空调没有专利侵权行为并未赔偿50万-手机中国

科技消息近日在珍知酌见栏目里格力电器董事长董明珠表示小米空调最近因为专利侵权赔了格力万月日小米公关部门王化发文辟谣今日相关新闻经过再次核查信息不实第一小米空调没有专利侵权行为第二小米没有因为专利侵权赔偿万的情况王化辟谣小米空调没有专利侵权行为并未赔偿董明珠称小米赔偿格力万小米空调没有专利侵权行为值得注意的是这并非是小米...

互联网资讯 2024-12-16 22:40:43

更换肤色

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了|字节|鲁棒性|meta|tokenizer