爱AI工具库,国内AIGC产品探索者分享平台
注册
Ctrl / ⌘ + D 收藏本站,每天更新好站!

每日AI快讯

每日AI快讯

爱AI工具库每日实时更新AI行业的最新资讯、新闻、热点、融资、产品动态,让你随时了解人工智能领域的最新趋势、更新突破和热门大事件。

OpenAI内测AI搜索产品SearchGPT,奥尔特曼发文:美国需要领导AI世界|钛媒体AGI

“我强烈地感觉到,以美国为首的全球联盟最能确保AI保持民主,并让尽可能多的人受益。”OpenAI CEO奥尔特曼表示。

来源:钛媒体
从AI Agent再到Agentic workflow,6个类别25篇论文全面了解智能体工作流

6个类别25篇论文,涵盖技术架构、系统、基准、编程、模型、工作流及方法论,助你吃透智能体工作流。

来源:钛媒体
挑战谷歌,OpenAI 搜索引擎 SearchGPT 登场:基于 GPT-4 系列 AI 模型,初期仅邀请 1 万人测试

感谢IT之家网友 航空先生、石原里美幸福、嗯呢嗯呢 的线索投递!
7 月 26 日,OpenAI 公司昨日(7 月 25 日)发布博文,邀请部分用户测试 AI 搜索引擎 SearchGPT,并计划在未来接入到 ChatGPT 服务中。 相关介绍SearchGPT 目前仅向少量用户开放,IT之家目前访问其页面,显示“加入候补名单”选项,官方介绍为:“全新搜索功能原型,利用我们人工智能模型的优势,为您提供清晰、相关的快速答案”。根据 OpenAI 官方博文分享的细节,SearchGPT 搜索引擎将以一个大文本框开始,询问用户“您在找什么?”用户可以使用自然语言,用聊天的语气来搜索内容,SearchGPT 并没有返回一个简单的链接列表,而是试图组织和理解搜索结果。SearchGPT 将快速、直接地回答您的问题,并提供最新的网络信息,同时为您提供相关来源的明确链接。在 OpenAI 提供的一个示例中,搜索引擎总结了它在音乐节方面的发现,然后给出了活动的简短描述,接着是一个归属链接。在另一个例子中,它解释了何时种植西红柿,然后再细分西红柿的不同品种。结果出现后,你可以提出后续问题,或点击侧边栏打开其他相关链接。用户可以用聊天的方式提出后续问题,每次询问都能基于上下文情境回答。还有一项功能叫做“可视化答案”(visual answers),但 OpenAI 并未公布细节,其中应该包含调用 Sora 生成相关视频。仍处于“原型”阶段在接受科技媒体 The Verge 采访时,OpenAI 发言人凯拉・伍德(Kayla Wood)表示,SearchGPT 搜索引擎基于 GPT-4 系列 AI 模型,目前处于“原型”阶段,初期计划仅邀请 1 万名用户测试。伍德说,OpenAI 正在与第三方合作伙伴合作,并使用直接的内容馈送来构建搜索结果,目标是最终将搜索功能直接集成到 ChatGPT 中。

来源:IT之家
育碧 7 月 27 日分享最新成果“游戏 AI 的可见性测试计算”,有望应用到声音传播等领域

7 月 25 日,育碧中国工作室今日宣布,在 ChinaJoy 期间举办的 2024 中国游戏开发者大会(CGDC)上,育碧 La Forge 中国团队的研发工程师应治将分享育碧一项最新研究成果 —— 游戏 AI 的可见性测试计算。IT之家获悉,神经表示是一系列利用神经网络来表示三维信息的新兴技术,已经应用于新视角合成、三维重建、三维生成和编辑等领域。在游戏 AI 领域,育碧研究员们作出了首次尝试。研发工程师应治将会为与会者展示利用神经表示解决游戏 AI 可见性测试计算瓶颈的第一个方法。该项技术有望在游戏领域得到更多应用以提升玩家的游戏体验,如路径距离估计、声音传播等。育碧透露,这项研究曾是互动 3D 与游戏研讨会(I3D 2024)的演讲话题之一,其论文已在 ACM 期刊上发表,标题为《Efficient Visibility Approximation for Game AI using Neural Omnidirectional Distance Fields》。论文摘要显示:“可见性信息在游戏 AI 应用中至关重要,但基于光线投射的方法的计算成本对实时系统构成了挑战。为了应对这一挑战,我们提出了一种新的方法,将分区的游戏场景表示为神经全向距离场(ODF),从而可以在位置之间实现可扩展且高效的可见性近似,而无需光线投射。”在游戏内评估方面,育碧在这些场景中实现了 9.35 倍的平均冷启动加速和 4.8 倍的热启动加速。

来源:IT之家
当折叠形态与AI热点结合,三星Galaxy Z Fold6能成为爆品吗?| 钛极客

6年了,折叠屏手机该变一变了。

来源:钛媒体
百川智能确认完成50亿元A轮融资,并将以200亿估值启动B轮融资|钛媒体AGI

截至目前,百川智能已完成高达75亿元人民币的融资,不仅创下国内 AI 大模型领域最高融资总额的记录,而且已成为继MiniMax、月之暗面、智谱 AI 之后,最新一家达到估值200亿元“第一梯队”的大模型公司。

来源:钛媒体
人类历史上首届AI选美,谁吃到了第一波AI审美红利?

美,是第一生产力,甚至还有红利。

来源:钛媒体
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM

感谢IT之家网友 有容乃悦 的线索投递!
7 月 25 日,IT之家从上海市第六人民医院官方公众号获悉,上海交通大学医学院附属第六人民医院贾伟平教授和李华婷教授团队与上海交通大学电院计算机系 / 教育部人工智能重点实验室盛斌教授团队,携手清华大学黄天荫教授团队与新加坡国立大学覃宇宗教授团队,通过医工交叉合作研究,构建了全球首个面向糖尿病诊疗的视觉-大语言模型的多模态集成智能系统 DeepDR-LLM,成果于 2024 年 7 月 19 日在 Nature Medicine 发表(题为 Integrated image-based deep learning and language models for primary diabetes care)。据介绍,DeepDR-LLM 系统融合了大语言模型和深度学习技术优势,实现了医学影像诊断与诊疗意见的多模态生成功能,能提供糖尿病视网膜病变辅助诊断结果及个性化糖尿病综合管理意见。该系统在覆盖亚非欧三大区域七个国家的多中心队列中进行了回顾性验证,以及针对中国基层医疗实际开展了前瞻性真实世界验证,首次向全球提供了面向糖尿病医疗垂直领域的多模态大模型应用成效的高质量循证证据。研究团队表示,研究证明 DeepDR-LLM 系统可有效改善 DR 筛查和基层糖尿病管理水平,为未来全球糖尿病治理提供了革命性的数字解决方案。既往的 AI 系统研发主要集中在糖尿病的并发症筛查或辅助管理的单一领域。随着全球范围内以 ChatGPT 为代表的生成式人工智能技术的迅猛发展,多模态大模型正不断推动医疗领域的新应用场景和模式的涌现,但这些模型尚不能根据患者的医学影像和具体病情,提供准确且安全的糖尿病综合诊疗建议。 针对当前的技术空白和临床的实际需求,该团队成功研发了全球首个面向糖尿病基层诊疗的视觉-大语言模型多模态集成智能系统 DeepDR-LLM。其可适配包括 LLaMA 在内的大语言模型,LLM 模块将训练网络层与大语言模型的固有权重参数相融合,突破低算力资源约束下的多模态大模型优化的瓶颈,并进一步基于 37.2 万条基层慢病诊疗和慢病管理数据和知识实现了高效优化训练,使 DeepDR-LLM 系统可基于患者个体的临床信息生成精准糖尿病管理意见。▲ DeepDR-LLM 系统评估流程▲ DeepDR-LLM 系统纳入基层糖尿病诊疗流程的愿景IT之家附研究成果:https://www.nature.com/articles/s41591-024-03139-8

来源:IT之家
1230 亿参数,Mistral 发布 Large 2 旗舰 AI 模型:支持 80 多种编程语言,增强代码生成、数学和推理能力

7 月 25 日,AI 竞赛日益激烈,Meta 公司昨日推出开源 Llama 3.1 模型之后,法国人工智能初创公司 Mistral 也加入了竞争行列,推出了新一代旗舰模型 Mistral Large 2。模型简介该模型共有 1230 亿个参数,在代码生成、数学和推理方面比其前身功能更强大,并提供更强大的多语言支持和高级函数调用功能。Mistral Large 2 拥有 128k 的上下文窗口,支持包括中文在内的数十种语言以及 80 多种编码语言。该模型在 MMLU 上的准确度达到了 84.0%,并在代码生成、推理和多语言支持方面有非常明显的改进。Mistral 公司表示,训练的重点之一是尽量减少模型的幻觉问题。该公司称,Large 2 接受的训练让它的反应更具辨别力,当它不知道某些事情时,它会承认自己不知道,而不是编造一些看似合理的事情。开放方式IT之家援引官方新闻稿,该 AI 模型的关注点之一,在于“授权开放”非商业研究用途,包括开放权重、支持第三方根据其喜好进行微调(fine-tune)等等。如果商业 / 企业想要使用 Mistral Large 2,需要从 Mistral 公司购买单独的许可和使用协议。性能与 Llama 3.1 的 4050 亿个参数(即指导其性能的内部模型设置)相比,它的参数数量较少,但性能仍接近前者。Mistral Large 2 可在公司的主平台上使用,也可通过云合作伙伴使用,它建立在原有 Large 模型的基础上,带来了先进的多语言功能,并提高了推理、代码生成和数学方面的性能。官方称其为 GPT-4 级模型,在多项基准测试中的性能非常接近 GPT-4o、Llama 3.1-405 和 Anthropic 的 Claude 3.5 Sonnet。Mistral 指出,该产品将继续“推动成本效益、速度和性能的发展”,同时为用户提供新的功能,包括高级函数调用和检索,以构建高性能的人工智能应用。

来源:IT之家
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面

感谢IT之家网友 刺客 的线索投递!
用 AI 生成的数据训练 AI,模型会崩溃?牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?论文地址:https://www.nature.com/articles/s41586-024-07566-y研究者发现,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部(低概率事件)会消失!这种效应,被称为「模型崩溃」。换句话说,合成数据就像是近亲繁殖,会产生质量低劣的后代。模型崩溃在 LLM、变分自编码器 VAE 和高斯混合模型 GMM 中,都可能会发生。有网友认为,是时候敲响警钟了!「如果大模型真的在 AI 生内容的重压下崩溃,这对它们的可信度来说就是末日了。如果它们吃的是机器人反刍的内容,我们真的能相信 LLM 的输出吗」?真实数据,价值连城我们都知道,如今全球已陷入高质量数据荒。▲ EpochAI 预测,全球在今年就会陷入高质量数据荒当前的大模型(包括 GPT-3)还是主要基于人类生成的文本进行训练的,但是未来可就不一定了!▲ Meta 研究员 Thomas Scialom 表示,Llama 3 在后训练阶段没有使用任何人类编写的答案,全是 Llama 2 合成的数据如果未来,大多数模型的训练数据也是从网上抓取的,那它们不可避免地会用上前辈模型生成的数据。当某个版本的 GPT 生成的大部分文本,成为了后续模型的训练数据集,随着版本号的增加,GPT-{n} 会发生什么变化?LLM 迭代至第 9 代,完全胡言乱语简单讲,LLM 生成的数据最终污染了下一代模型的训练集,就会出现「模型崩溃」(model collapse)的现象。由于在被污染的数据上进行训练,LLM 随后会错误地感知现实。这样一来,会导致多代 AI 生成模型的退化。也就是那句经典名言 —— 垃圾进,垃圾出。合成数据,无异于给数据集「投毒」。研究中,作者们使用维基百科文章先训练了模型 OPT-125m,并在前一代模型生成的文本上,训练了多代模型。模型们被要求续写一段来自 wiki 的关于「萨默塞特(Somerset)一级登录建筑」条目的文本。输入的提示如下所示,这是关于设计 14 世纪教堂塔楼主题的文本:输入:据 Poyntz Wright 所说,一些教堂塔楼在 1360 年之前就开始建造了,通常是由一位大师石匠和一小队流动石匠完成,辅以当地教区的工人。但其他作者不同意这种观点,他们认为主要是由著名建筑师根据早期的垂直风格设计了这些教区教堂的塔楼。在第 0 代模型中,输入同样的提示,得到的输出是:第 0 代:复兴建筑的典型例子包括伦敦的圣约翰大教堂。最早的垂直复兴建筑实例可以在 18@-@世纪的根西岛圣母教堂中找到,该教堂实际建于 19 世纪晚期。垂直教堂有两种类型:那些。可以看到,Gen0 的续写已经开始有点前言不搭后语了,而且还出现了诡异的符号「@-@」。奇怪的事实错误是,圣约翰大教堂位于纽约,不在伦敦。在 Gen1 中,虽没有奇怪符号的输出,但同样出现了事实错误 ——圣彼得大教堂(St. Peter’s Basilica)真正位于梵蒂冈,而不是什么罗马、布宜诺斯艾利斯。而且建造于公元 1506 和 1626 年之间,由教皇朱利奥二世开始建造,直至教皇奥本八世。第 1 代:像罗马的圣彼得大教堂或布宜诺斯艾利斯的圣彼得大教堂这样的建筑。虽然没有证据表明这些建筑是在教皇英诺森三世统治期间建造的,但它们有可能是在他的继任者教皇英诺森统治期间建造的。接下来,到了第五代模型,输出的结果完全是胡言乱语了。以 ism 起句,讲了一大堆语种,根本不是续写的相关素材。第 5 代:ism,已被翻译成 100 多种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、荷兰语、瑞典语、挪威语、波兰语、匈牙利语、斯洛伐克语、立陶宛语、爱沙尼亚语、芬兰语、罗马尼亚语、保加利亚语、土耳其语、克罗地亚语、塞尔维亚语、乌克兰语、俄语、哈萨克语、吉尔吉斯语。再到第 9 代,奇怪的 @-@符号又出现了,而且还输出了更加无关的内容 —— tailed jackrabbits。第 9 代:建筑。除了拥有世界上最大数量的黑 @-@尾兔、白 @-@尾兔、蓝 @-@尾兔、红 @-@尾兔、黄 @-。以下是所有迭代模型,完整输出的过程。每一代新的模型都是在前一代生成的数据上进行训练的。看得出,模型在每一代次迭代中退化。研究人员发现,所有递归训练后的模型,皆会输出重复的短语。另一个案例是,今天杜克大学助理教授 Emily Wenger,发表在 Nature 上一篇社论文章中指出:AI 基于自身数据训练,生成的图像扭曲了狗的品种。数据集中,不仅有金毛、柯基,还有法国斗牛犬、小体巴塞特雪橇犬等。基于真实数据训练后的模型,输出的图像中,常见品种如金毛寻回犬占大多数,而不太常见的品种斑点狗会消失。然后,基于 AI 生成的数据训练模型,生成的品种全是金毛了。最终,经过多次迭代,金毛的图像就完全出现混乱,脸不是脸鼻子不是鼻子,LLM 就此完全崩溃了。此外,2023 年来自斯坦福和 UC 伯克利的一项研究中,作者同样发现了,LLM 在少量自己生成数据内容重新训练时,就会输出高度扭曲的图像。论文地址:https://arxiv.org/pdf/2311.12202他们还在实验中展示了,一旦数据集受到污染,即便 LLM 仅在真实图像上重新训练,模型崩溃现象无法逆转。作者警示道,为了模型不再被自己「降级」,AI 需要能够区分真实和虚假内容。这一观点,与 Wenger 不谋而合。她认为,缓减 LLM 崩溃并不简单,不过科技公司已经部署了嵌入「水印」的技术,进而可以把标记 AI 生成内容,从数据集中剔除。此外,模型崩溃的另一个关键寓意是,那些早已构建的 AI 模型,有着先发优势。因为,从 AI 时代互联网获取训练数据的公司,可能拥有更能代表真实世界的模型。什么是模型崩溃?最新研究中,作者表示,模型崩溃包含了两种特殊的情况:早期模型崩溃、晚期模型崩溃。在早期模型崩溃中,模型开始丢失关于数据分布尾部的信息;在晚期模型崩溃中,模型收敛到一个与原始分布几乎没有相似性的分布,通常方差显著降低。这一过程的发生,是由于三种特定误差源,在多代模型中逐渐累积,最终导致模型偏离原始模型:- 统计近似误差这是主要的误差类型,由于样本数量有限而产生,并且在样本数量趋向无限时会消失。这是因为在每一步重采样过程中,信息丢失的概率总是存在。- 函数表达误差这是次要误差类型,由于函数近似器(function approximator)的表达能力有限而产生。特别是,神经网络只有在其规模无限大时,才能成为通用近似器。因此,神经网络可能会在原始分布的支撑集(support)之外,引入「非零概率」,或在原始分布的支撑集内引入「零概率」。一个简单的例子是,如果我们用单个高斯分布,来拟合两个高斯分布的混合。即使有完美的数据分布信息(即无限数量的样本),模型产生误差也是不可避免的。然而,在没有其他两种类型误差的情况下,这种误差只会在第一代发生。- 函数近似误差这也是次要的误差类型,主要由于学习过程的限制而产生,例如随机梯度下降的结构偏差或目标函数选择的影响。这种误差可以看作,即便在理想条件下,即拥有无限数据且完美表达能力,仍在每一代模型中产生。综上所述,每种误差都可能会导致模型崩溃变得愈加严重,或得到一些改善。更强的近似能力甚至可能是一把「双刃剑」。因为更好的表达能力可能抵消统计噪声,从而更好地逼近真实分布,但同样也可能放大噪声。更常见的情况下,我们会得到一种级联效应(cascading effect),其中个别的不准确性会结合起来,导致整体误差的增长。例如,过拟合密度模型会导致模型错误地外推,并将高密度区域分配给训练集中未覆盖的低密度区域。这些错误分配的区域,随后会被频繁采样。值得注意的是,除上述内容之外,还存在其他类型的误差。比如,在实际操作中,计算机精度是有限的。接下来,研究人员将通过「数学直觉」来解释上述误差是如何产生的,不同误差来源如何复合(compound),以及我们如何量化平均模型偏差。理论直觉在所有基于前几代生成数据进行递归训练的生成模型,这种现象都是普遍存在的。所以,到底是什么原因,导致了模型崩溃?研究者提供了几种理论解释。通过研究两个数学模型,研究者量化了前一部分讨论的误差来源。这两个模型分别是一个在没有函数表达能力和近似误差情况下的离散分布模型,以及一个描绘联合函数表达能力和统计误差的多维高斯近似模型。它们既足够简单,可以提供感兴趣量的解析表达式,同时也能描绘模型崩溃的现象 ——考虑的总体随机过程,作者称之为「代际数据学习」。第 i 代的数据集 D_i 由具有分布 p_i 的独立同分布随机变量组成:其中,数据集的大小 j∈{1,…, M_i}。从第 i 代到第 i+1 代,我们需要估计样本在新数据集 D_i 中的分布,近似为:这一步称之为函数近似:然后通过从:中采样,生成数据集:其中,非负参数 α_i, β_i, γ_i 的和为 1,即它们表示来自不同代的数据的比例。它们对应的混合数据,分别来自原始分布(γ_i)、上一代使用的数据(β_i)和新模型生成的数据(α_i)。这一步,称为采样步骤。对于即将讨论的数学模型,我们考虑 α_i=γ_i=0,即仅使用单步的数据,而数值实验则在更现实的参数选择上进行。离散分布的精确近似在本小节中,我们讨论一种没有函数近似和表达误差的离散概率分布,即:在这种情况下,模型崩溃的原因仅仅是采样步骤中的统计误差。首先,由于低概率事件被采样到的概率很低,它们的尾部(低概率事件)会逐渐消失,随着时间的推移,分布的支持范围也会缩小。假设样本量为 M,如果我们考虑一个概率为 q≤1 / M 的状态 i,那么来自这些事件的 i 值样本的期望数量将小于 1。也就是说,我们会失去关于这些事件的信息。如果更一般地考虑一个概率为 q 的状态 i,使用标准条件概率,我们可以证明失去信息的概率(即在某些代中没有采样到数据)等于 1−q。这也就意味着,分布最终会收敛到某个状态处的 δ 函数,最终落在某个状态的概率等于从原始分布中采样该状态的概率。将这个过程:看作一个马尔可夫链,我们就可以直接证明上述结论,因为 X^(i+1) 仅依赖于 X^i。此外,如果所有如下值:都相同,那么在下一代,近似分布将完全是一个 δ 函数。因此所有如下值:也将相同。这就意味着,马尔可夫链至少包含一个吸收态,因此它会以概率 1 收敛到其中一个吸收态。对于这个链,唯一的吸收态是那些对应于 δ 函数的状态。因此,随着我们跟踪的模型逐渐崩溃,我们必然会陷入一个常数状态;当这条链被完全吸收时,原始分布的所有信息就都丧失了。在一般情况下,这个论点也是成立的,因为浮点表征是离散的,因此使得模型参数的马尔可夫链也是离散的。因此,只要模型参数化允许使用 δ 函数,我们一定会到达这个结论,因为由于采样误差的原因,唯一可能的吸收态就是 δ 函数。基于上述讨论,我们可以看到,无论是早期模型崩溃(仅低概率事件被切断)还是后期模型崩溃(过程开始收敛到单一模式)的现象,只要是在具有完美函数近似的离散分布下,都必然会出现。多维高斯分布在讨论了离散分布之后,我们就可以提出一个更通用的结果,它可以在高斯近似的背景下得到证明。在这种情况下,每一代的数据都是通过上一代的均值和方差的无偏估计来近似的。高斯模型崩溃假设原始数据是从分布 D_0(不一定是高斯分布)中采样的,且样本方差不为零。假设 X^n 是递归地使用上一代的无偏样本均值和方差估计来拟合的,其中:且样本量是固定的。此时就可以得到:其中,W_2 表示第 n 代的真实分布和其近似之间的 Wasserstein-2 距离。换句话说,这意味着不仅第 n 代的近似值会任意远地偏离原始分布,而且随着代数的增加,它也会以概率 1 收敛到零方差,从而发生崩溃。这个定理展示了后期模型崩溃的效果,即过程开始收敛到零方差。这个过程,与离散情况非常相似。语言模型中的模型崩溃当模型发生崩溃,会对语言模型产生哪些影响?模型崩溃在各种机器学习模型中都是普遍现象,然而像变分自编码器(VAE)和高斯混合模型(GMM)这样的小模型通常是从头开始训练的,而 LLM 则有所不同。从头训练的成本非常高,因此通常使用预训练模型(如 BERT、RoBERTa 或 GPT-2)进行初始化,然后再对预训练模型进行微调以适应各种下游任务。那么,当 LLM 使用其他模型生成的数据进行微调会发生什么呢?实验评估了训练大语言模型最常见的微调设置,其中每个训练周期(epoch)都从一个预训练模型开始,并使用最新数据。这里的数据来自另一个已经微调过的预训练模型。由于训练范围限制在生成接近原始预训练模型的模型,由于这些模型生成的数据点通常只会产生非常小的梯度,因此实验的预期是模型在微调后只会发生适度的变化。实验微调了 Meta 通过 Hugging Face 提供的 OPT-125m 因果语言模型,在 wikitext2 数据集上对模型进行微调。为了生成训练模型所需的数据,实验使用五向集束搜索(beam search)。将训练序列限制为 64 个 token,然后对于训练集中的每个 token 序列,让模型预测接下来的 64 个 token。用上面的方法调整所有原始训练数据集,并生成一个大小相同的人工数据集。由于范围涉及所有原始数据集并预测了所有块 (Block),如果模型的误差为 0,它将生成原始的 wikitext2 数据集。每一代的训练都从原始训练数据的生成开始,每个实验运行五次,结果显示为五次独立运行,使用不同的随机种子。用 wikitext2 数据微调的原始模型,平均困惑度(perplexity)从零样本基线的 115 下降到 34,说明它成功地学习了任务。最后,为了尽可能接近现实情况,实验使用了在原始任务上表现最好的模型,使用原始 wikitext2 验证集进行评估,作为后续几代的基础模型。这意味着,实际上观察到的模型崩溃可能更加明显。实验还考虑了考虑两种不同的设置:- 5 个 epoch,不保留原始训练数据。在这种情况下,模型在原始数据集上训练五个周期,但在后续的训练中不再使用原始数据。整体的原始任务表现如图所示。实验发现,使用生成的数据进行训练虽然能适应基本任务,但性能有所下降,困惑度从 20 增加到 28。- 10 个 epoch,保留 10% 的原始训练数据。在这种情况下,模型在原始数据集上训练十个周期,并且每次新的训练时,随机保留 10% 的原始数据点。整体的原始任务表现如图所示。实验发现,保留部分原始数据可以更好地进行模型微调,并且仅导致性能的轻微下降。虽然两种训练方式都导致了模型性能下降,但实验发现使用生成数据进行学习是可行的,模型也能成功地学习一些基础任务。特别是,从图下及其 3D 版本中可以看到,模型崩溃现象确实发生了,因为低困惑度样本的密度随着训练代次的增加而开始累积。这意味着,在多个训练代次中,采样数据可能会逐渐趋向于一个 δ 函数。到这里,结论就和「理论直觉」中的一般直觉一致了。可以看到,生成的数据有更长的尾部,这就表明某些数据是原始模型永远不会生成的。而这些错误,就是来自代际数据学习的积累。这也给我们敲响了警钟 ——如果没有大规模采用 AI 泛滥之前从网上抓取的数据,或者直接使用人类生成的大规模数据,训练新版本的 LLM,恐怕会变得越来越困难!有什么办法吗?研究团队认为,AI 生成数据并非完全不可取,但一定要对数据进行严格过滤。比如,在每一代模型的训练数据中,保持 10% 或 20% 的原始数据;使用多样化数据,如人类产生的数据;或者研究更鲁棒的训练算法。没想到吧,人类创造的数据,居然有一天会如此价值连城。参考资料:https://www.nature.com/articles/d41586-024-02420-7https://www.nature.com/articles/s41586-024-07566-y本文来自微信公众号:微信公众号(ID:null),作者:新智元,原标题《AI 训 AI 惨遭投毒 9 次大崩溃,牛津剑桥等惊天发现登 Nature 封面!》

来源:IT之家

声明:本栏目的素材来源均为互联网收集整理,整理的目的在于分享和传递新闻热点信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系我方进行删除,我方将在收到通知后第一时间删除内容!本站拥有对此声明的最终解释权。

aiaitool@163.com

打开微信扫一扫

qrcode

回顶部

×

我的收藏

请先登录登录

请先登录登录