拼搏《自然》封面:以AI生成数据训练AI,模型变傻?—新闻—科学网
发布时间:2024-08-29 作者:开云

年夜模子有很多“崩”的时辰,但有一种瓦解叫做“自毁出息”——

近日,《天然》揭晓于封面的一篇论文指出,用AI天生的数据集练习将来几代呆板进修模子,可能会“污染”它们的输出。这项由英国牛津年夜学、剑桥年夜学、帝国理工学院、加拿年夜多伦多年夜学等多所高校结合开展的研究显示,原始内容会于数代内酿成不相干的“胡说八道”,彰显出使用靠得住数据练习AI模子的主要性。

该论文被放于《天然》封面先容,配图为“Garbage Out”(垃圾出)。图源:Nature

?

研究团队给出一个例子。他们测试了Meta的OPT-125m模子,扣问了关在中世纪修建的相干信息,而且每一一次微调都是由上一次天生的数据来练习。成果,前面几轮的回覆还算过关,但跟着天生内容的迭代,模子逐渐语无伦次;到第九次,模子竟然最先“乱说八道”,回覆从会商修建跳跃到一串“野兔”的名字……

该论文重要作者暗示,他们曾经思量过合成数据可能对于年夜模子形成偏差,但不曾意料到模子的恶化速率会云云迅速。

对于此,研究团队专门界说了“模子瓦解”:模子瓦解是一个退化历程,模子天生的内容会污染下一代的练习数据集。而于被污染的数据上练习以后,新一代模子就轻易曲解实际。同时,研究团队还阐发了致使年夜模子同原始模子发生偏离的三个偏差缘故原由。

颠末理论阐发,研究职员指出,对于在使用前几代天生的练习数据集的AI模子来讲,模子瓦解好像是一个不成防止的终局。作者团队以为,用AI天生数据练习一个模子并不是不成能,但必需对于数据举行严酷过滤。与此同时,依靠人类天生内容的科技公司也许能比竞争敌手练习出更高效的AI模子。

这一研究给AI练习敲响了警钟。当下,年夜言语模子等天生式AI东西愈来愈受接待,这些模子东西重要使用人类天生的数据举行练习。然而,跟着这些AI模子东西被年夜量使用,它们天生的内容会逐渐满盈在互联网,将来计较机天生内容可能会以递归轮回的情势被用在练习其他AI模子或者其自身。

不外,也有业内子士以为,这项研究的逻辑有些问题,究竟“练习一个掉败的模子要比练习乐成一个模子要轻易患上多”。该不雅点指出,练习AI模子历程中除了了对于数据的选择以外,另有强化进修、模子精调等须要要领;即即是使用AI合成数据,基本上也都有各类天生体式格局的设计以及严酷的筛选。

“要练习好AI不易,但要让它瓦解,那我有一万种措施。”该不雅点指出。

无独占偶,美国斯坦福年夜学也有人工智能研究职员揭晓论文中研究了模子瓦解的问题。于这项事情的研究者看来,将合成数据增添到实际世界数据中而不是替代它,其实不会惹起任何庞大问题。但该作者增补道:“所有关在模子瓦解的研究都患上出一个结论,那就是高品质且多样化的练习数据至关主要。”

相干论文信息:

https://www.nature.com/articles/s41586-024-07566-y

版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,消息网转载,请于正文上方注明来历以及作者,且不患上对于内容作本色性改动;微信公家号、头条号等新媒体平台,转载请接洽授权。邮箱:shouquan@stimes.cn。/拼搏