
陈丹琦团队又带着他们的降本大法来了——万博manbext体育官网娱乐网
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预历练的同期,也不加多单独的诡计支拨。

在不同模子范畴(600M - 8B)和历练数据起首的情况下,均能杀青性能方面的进步。
固然之前元数据道过好多,但一作高天宇示意,他们是第一个展示它如何影响下流性能,以及具体如何推行以确保推理中具备无数实用性。

来望望具体是如何作念到的吧?
元数据加速大模子预历练
言语模子预历练语料库中存在着述风、领域和质地水平的稠密各异,这关于引诱通用模子智商至关攻击,然而高效地学习和部署这些异构数据源中每一种数据源的正确动作却极具挑战性。
在这一配景下,他们冷落了一种新的预历练步地,称为元数据协调然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个历练阶段。
预历练阶段(90%),将元数据(如文档 URL 的足够域名 c)与文档拼接(如 " URL: en.wikipedia.orgnn [ document ] ")进行历练。
(举例,如若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的足够域名 c 即是 en.wikipedia.org;这种 URL 信息在许多预历练语料库中王人很容易取得,它们大多来自 CommonCrawl2(一个洞开的采集捏取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。
他们只诡计文档鲜艳的交叉熵蚀本,而不商量模板或元数据中的鲜艳,因为在初步实验中发现,对这些鲜艳进行历练会稍稍损伤下流性能。
临了 10% 的历练体式为冷却阶段,使用圭臬数据历练,领受元数据协调阶段的学习率和优化器景象,即从上一阶段的临了一个查抄点开动化学习率、模子参数和优化器景象,并不息把柄预备调整学习率:
1)禁用跨文档 Attention,这既加速了历练速率(1.6B 模子的历练速率提高了 25%),又提高了下流性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档出手,而不是从一个文档的中间出手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实解说这故意于提凹凸游性能。
本次实验使用了 Llama Transformer 架构和 Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及干系优化引诱。
铁心通晓,MeCo 的剖析彰着优于圭臬预历练,其平均性能与 240B 鲜艳的基线终点,而使用的数据却减少了 33%。

临了纪念,他们主要完成了这三项孝敬。
1、 MeCo 大幅加速了预历练。
实考解说,MeCo 使一个 1.6B 的模子在少用 33% 的历练数据的情况下,达到了与圭臬预历练模子换取的平均下流性能。在不同的模子范畴(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 通晓出一致的收益。


2、MeCo 开启了率领言语模子的新步地。
举例,使用 factquizmaster.com(非真确 URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中足够提高了 6%),而使用 wikipedia.org 与圭臬的无条目推理比较,毒性生成的可能性镌汰了数倍。


3、消解了 MeCo 的想象遴选,并解说 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起首将文档归类。因此,即使莫得 URL,MeCo 也能有用地整合不同类型的元数据,包括更雅致的选项。

陈丹琦团队
论文作家来自普林斯顿 NLP 小组(附庸于普林斯顿言语与智能 PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi 以及陈丹琦。
一作高天宇,本科毕业于清华,是 2019 年清华特奖得主,当今普林斯顿五年事博士生,展望本年毕业,不息在学界搞接头,接头领域包括当然言语经管和机器学习的交叉领域,终点温雅大言语模子(LLM),包括构建利用设施、提高 LLM 功能和铁心。

Luxi He 当今是普林斯顿诡计机专科二年事博士生,当今接头要点是通晓言语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong 当今在谷歌从事机器学习接头和工程使命万博manbext体育官网娱乐网,专注于结构化数据的示意学习、自动化特征工程和多模态示意学习,本科毕业于普林斯顿。