用AI生成数据训练AI，最终只会“模型崩溃”

2023-06-20 13:55:56 来源：站长之家

声明:本文来自微信公众号“DoNews”（ID:ilovedonews），作者:李熙，编辑:杨博丞，授权站长之家转载发布。

尽皆知: 过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。然而科幻文学家们的预言中，其实应验的乌鸦嘴不比正面成就少，比如 DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。

(资料图片)

2023年2月，美国华裔科幻文学家特德·姜发表文章称:ChatGPT等大语言模型，实质是对互联网语料库的有损模糊压缩，如同JPEG格式之于原始高清图片。

按特德·姜的观点，用大语言模型生成的文本来训练新的模型，如同反复以JPEG格式存储同一图像，每次都会丢失更多的信息，最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多，信息网络本身就变得越发模糊、难以获取有效真实信息。

2023年6月中，牛津、剑桥、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者发布的论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言:用AI生成数据训练新的AI，最终会让新的AI模型退化以至崩溃。

01.“粪口循环”9次，就能让大语言模型崩溃

这些研究者们发现，在训练新的神经网络AI模型时，使用大语言模型生成的内容作为训练数据集，会导致训练出的模型出现不可逆转的缺陷，即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一新模型的退化过程与结果称为“模型崩溃”。

按论文所述，不管受训的新模型功能是以文字生成文字还是以图片生成图片，只要使用其他模型生成的内容来训练，这个过程是不可避免的，即使模型处在近乎理想状态的长时间学习条件亦如此。

论文一作伊利亚·苏玛利沃夫（Ilia Shumailov）称，AI生成数据中的错误会极快沉淀，最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期与晚期两种。在早期时，被喂生成数据的AI模型会开始失去原初数据分布的信息;在晚期，被喂生成数据的AI模型会吐出完全不符合现实、不相关原初底层数据的结果。

而且与症状类似的“灾难性遗忘”不同，“模型崩溃”的AI一直保有对之前学习过的原初底层数据的记忆，但极其固执，错误会千篇一律且难以矫正，模型将持续甚至强化将错误结果认为是正确的结论。

论文中“模型崩溃”过程的示意图

研究者们先用小模型试验起，用相同模型生成的数据训练同一模型。以此方法在高斯混合模型（GMM）上实验，拿AI分辨人工生成的不同正态分布。结果是在如此训练50次后模型开始出错到无法分辨原初底层数据。训练到两千次后，模型的错误结果收敛到每次基本雷同毫无变化。

以同样方法训练变分自编码器（VAE）模型，训练5次后模型开始出错，10次后模型的错误结果开始与原初底层数据无关，20次后错误结果就开始收敛至基本雷同。

以上的小模型的原初数据量小，或许易于迷惑。研究者再用现在商用广泛的OPT-125m文本生成模型实验，此模型由Meta 公司开发，参数量1.25亿。研究者先用有1亿词元的“维基文本库2”数据集喂给模型，跑出同样词元量的生成结果数据集。再用生成结果数据集反复训练OPT-125m模型。

结果是，在研究者输入提示词之后，起初的OPT-125m模型吐出的是带有乱码但大体成文的语句。被如此训练1次的大模型吐出的是带有瞎编内容的幻觉性文本，但仍然成文。被如此训练7次的大模型吐出的是完全与初始提示词无关的文本，9次后大模型的生成文本就是完全不知所云的车轱辘话。

02.“模型崩溃”，是因为AI与生俱来的的统计特性

“模型崩溃”的原因其实并不难懂。概言之，与特德·姜、马斯克这些名人们嘲笑生成式AI的说辞很相近:这些大模型本质上是高端统计学应用，离“智能”的实质还差得远。

用AI生成内容来训练AI的话，无可避免就会踩进“统计近似值偏差”的坑里。实质是高端统计程序的神经网络模型们，天然会高估、过于重视大概率的通常值，也会低估、过于忽视小概率的非常值。

这些模型生成的结果无法规避以上缺陷，持续用来再训练新模型，数据的多样性会越来越小、符合真实的正确度会越来越有限、“近似值拟合”会越来越严重。用研究者的话来说，用AI生成数据来训练新的AI，是在毒化模型对真实世界的认知。

论文中“模型崩溃”成因的示意图

用论文作者之一罗斯·安德森（Ross Anderson）的话说，这就如同用莫扎特作品来训练AI，结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品训练新的模型，如此反复五六次后，最终模型的音乐作品既不会有莫扎特的风格也不会有莫扎特的灵光。

除了这一主因外，“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质都算是有限的通用函数近似器，但总会出现函数近似值过度表达或不充分表达带来的结果不精确。

理论上来说，“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果，有少许可能，这些偏差恰好会消除真实数据中的噪音值，让AI模型的生成结果更符合真实数据分布。然而更大的可能是，这些误差会放大、加乘数据噪音。

在罗斯·安德森的个人博客中，有人评论这是热力学中的熵、生物学中的近亲繁殖退化，在AI界的复现。

03.模型生成内容充斥网络后，真人数据将成AI维生必需

对于业界，此发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称，在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后，互联网以后也会被大语言模型生成的低质量结果污染。反过来说，真实人类创造的数据如同洁净的空气与饮水，是日后生成式AI必须依赖的维生补给。

在如此背景下，不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源，马斯克们是绝不愿继续免费让OpenAI们拿去用的。

数据饥渴的AI公司们，现在两种继续发掘高质量数据的办法都在用。

一是扒完当代互联网数据后，继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”，在5月底称网站之前短暂崩溃，是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求，导致网站无法承载。

二是老实花钱买。北京时间6月17日0点，《金融时报》独家报道，称最近数月内，谷歌、OpenAI、微软等公司在与新闻业界的大企业，如新闻集团（News Corp）、纽约时报和卫报在内的出版商接触，寻求AI训练数据材料的持续来源并避免未来的版权纠纷。

虽然商洽还在早期阶段，但信源透露出的信息是AI巨头企业们愿意为作为AI 模型训练数据的新闻内容向媒体巨头们支付定期订阅费用，媒体巨头们开出的价位是年均500-2000万美元。

用AI生成数据训练AI，最终只会“模型崩溃”

01.“粪口循环”9次，就能让大语言模型崩溃

02.“模型崩溃”，是因为AI与生俱来的的统计特性

03.模型生成内容充斥网络后，真人数据将成AI维生必需

用AI生成数据训练AI，最终只会“模型崩溃”

用AI生成数据训练AI，最终只会“模型崩溃”

城发环境收深交所关注函：城发投资为何短期内转让北京新易 股权收购及偿债的资金来自哪-世界球精选

北京新易未来年营业收入约2200万元，年净利润不超过50万，年净现金流量

腾势 N7 用了云辇以后的表现怎么样？

Y车评yautoshow｜把事实带走将观点留下｜本期节目时长20分48秒，建议Wi

两改善大盘500余套房源取得预售！主城改善大宅对决一触即发

2023年年中，大连主城区改善楼盘动作频频，东港板块的保利东港天汇、绿

当前焦点!中南建设：南通海门柳岸春风项目预计9月底完成交付

中南建设(000961)6月20日在互动平台表示，南通海门柳岸春风项目目前已

资金流向（6月19日）丨昆仑万维、中科曙光、中际旭创融资资金买入排名前三 昆仑万维获买入13.51亿元居首

一、证券市场回顾同花顺数据显示，6月19日上证综指日内下跌0 54%，收于

“618”剧透小家电消费新趋势 企业打造多元化产品矩阵

“618”剧透小家电消费新趋势企业打造多元化产品矩阵

小鹏汽车在广州成立销售新公司，注册资本5000万元

每经AI快讯，启信宝显示，近日，小鹏新能源汽车销售（广州）有限公司成

全球新动态：大兴调查研究丨提高经济“含金量”！一条苏河科技金融秀带点亮普陀金融发展画卷……

在位于苏州河北岸、东面长风公园的普熙金融广场，一条苏河科技金融秀带

年内首降！一年期、五年期LPR利率分别下调至3.55%、4.20%

年内首降！一年期、五年期LPR利率分别下调至3 55%、4 20%-9月20日消息

统联精密（688210）144.73万股限售股将于6月20日解禁上市，占总股本0.92%

根据市场公开信息整理统联精密688210于6月20日将有14473万股限售股份解

全球资讯：防治校园欺凌，校方该承担什么角色？

调查动机近日，一段视频引起社会广泛关注。视频中，北京某学校一名女生

7月起广州将严查电动自行车非法改装行为

羊城晚报讯记者郭思琦、通讯员交宣报道：超速、遮挡视线、自燃……非法

精选！迪马：米兰有意荷兰国脚中场赖恩德斯，上赛季打进8球助攻11次

直播吧6月20日讯据转会专家迪马济奥透露，米兰有意荷兰新晋国脚中场赖

今日热闻!震安科技（300767）：6月19日北向资金增持23.46万股

6月19日北向资金增持23 46万股震安科技。近5个交易日中，获北向资金增

市场消息：由于瑞士信贷此前对Archegos Capital的不当操作，瑞银将面临数亿美元的罚款。

市场消息：由于瑞士信贷此前对ArchegosCapital的不当操作，瑞银将面临

迹部景吾的父亲_迹部景吾的妹妹 全球观察

1、网王之漫漫樱花网王之暖樱穿越网球王子—希。本文到此分享完毕，希

环球热讯:ps放字体的文件夹（ps字体文件夹在）

导读1、photoshopcs和office一样，它自己并没有独立的字体库，而是使用

腾讯云入场行业大模型

经济观察网记者任晓宁6月19日下午，腾讯云在北京发布行业大模型，主要

宏华数科：拟收购控股子公司晶丽数码剩余股权|世界观速讯

宏华数科：拟收购控股子公司晶丽数码剩余股权,股权,宏华数科,晶丽数码,

【中国有约】漳州1567-2023：海丝四百年，传奇未央 快报

月港古镇：大航海时代成就白银帝国月港是漳州九龙江上的一个小渔村，僻

有味网_对于有味网简单介绍_全球热门

1、有味网是由苏州有味网自主研发运营的网络生活服务平台。2、作为典型

美国底特律民众集会 抗议枪支暴力事件频发

面对持续不断的枪击事件，在刚刚过去的周末，美国密歇根州底特律民众举

电力设备行业：可观的IRR弹性将激发中国“中储能”需求倍增 微速讯

电力设备行业：可观的IRR弹性将激发中国“中储能”需求倍增

快讯：ST宏达：6月21日起撤销其他风险警示

南方财经6月19日电，ST宏达公告，公司股票6月20日停牌一天，自6月21日

怎么在京东上面解绑银行卡 在京东上面解绑银行卡方法 京东上面怎样解绑银行卡_环球报道

有些伙伴还不熟悉怎么在京东上面解绑银行卡，今日IT百科小编就给大家介

下载微信到桌面并安装_婴儿被吓到了怎么办

1、孩子年龄比较小，大脑皮层不成熟。被吓到之后很容易被吓到。应该是

AI+云工业软件「三维家」完成数亿元D轮融资

6月19日消息，AI+云工业软件企业三维家近日完成D轮数亿元融资，投资方

“618”期间，重庆海关验放跨境电商货值预计超5亿元

人民网北京6月19日电（记者王震）据海关总署消息，一年一度的跨境电商

2023年芜湖文旅惠民消费券在哪里领?

6月20日上午10点整，总额100万元的“爱在鸠兹”2023年芜湖文旅惠民消费

水利部针对江苏等南方10省区启动水旱灾害防御Ⅳ级应急响应

水利部针对江苏等南方10省区启动水旱灾害防御Ⅳ级应急响应

四川成都：打造一流科技高中 把科学种子埋进学生心田

科创日活动现场。成都二中供图科创日对外开放，不少周边学校家长学生也

【热闻】青岛职业技术学院中外合作办学专业有哪些？

青岛职业技术学院中外合作办学专业有机电一体化技术、电气自动化技术、

热点！国六a切换到国六b，汽车为什么没有大甩卖？

“几个月前汽车价格战的时候，网上很多消息说是已经接到通知，5月底15

南向资金净买入超30亿港元_焦点快播

上证报中国证券网讯据Choice金融终端数据，6月19日13时49分，南向资金

【当前独家】民事诉讼法 关于民事诉讼法介绍

1、《民事诉讼法》是2004年高等教育出版社出版的图书。2、作者是江伟。

当前报道:宏信建发(09930)：稳定价格期结束、无稳定价格行动及超额配股权失效

智通财经APP讯，宏信建发(09930)发布公告，公司宣布，有关全球发售的稳

热讯：广东省东莞市2023-06-14 21:36发布暴雨橙色预警

一、广东省东莞市天气预报【东莞分镇暴雨黄色预警扩展】预计未来3小时

城发环境收深交所关注函：城发投资为何短期内转让北京新易股权收购及偿债的资金来自哪-世界球精选

资金流向（6月19日）丨昆仑万维、中科曙光、中际旭创融资资金买入排名前三昆仑万维获买入13.51亿元居首

“618”剧透小家电消费新趋势企业打造多元化产品矩阵

迹部景吾的父亲_迹部景吾的妹妹全球观察

【中国有约】漳州1567-2023：海丝四百年，传奇未央快报

美国底特律民众集会抗议枪支暴力事件频发

电力设备行业：可观的IRR弹性将激发中国“中储能”需求倍增微速讯

怎么在京东上面解绑银行卡在京东上面解绑银行卡方法京东上面怎样解绑银行卡_环球报道

四川成都：打造一流科技高中把科学种子埋进学生心田

【当前独家】民事诉讼法关于民事诉讼法介绍

蓝色协议汉化方法好用的汉化方法分享_热门看点

“天津旅游业高质量发展正逢天时地利人和” ──天津日报记者专访中国旅游研究院院长戴斌

世界快资讯：吉林国乐文化艺术节开幕名家汇聚展现国乐之美

王者新装备怎么购买不了_王者荣耀新装备怎么买不了新装备买不了怎么办世界热闻

世界热门:澳华内镜(688212)：旗舰产品快速放量国产软镜龙头加速进口替代

“汛”速行动筑牢防汛“安全墙”

麻阳帮代办再升级助力审批服务加速度-环球时讯

为期3天！酒博会在四川德阳开幕，家门口品鉴60多个国家和地区的美酒环球热点

一身的科技与狠活儿静态体验保时捷911 GT3 RS（992）|世界焦点

1、问了也没用,打了也不接。本文就为大家分享到这里，希望小伙伴们会

建筑节能应用技术环球微速讯

菲律宾马荣火山活动持续流出岩浆达1.5公里-每日简讯

阿拉伯人位置阿拉伯人对坐体位