
爱AI工具库每日实时更新AI行业的最新资讯、新闻、热点、融资、产品动态,让你随时了解人工智能领域的最新趋势、更新突破和热门大事件。
小红书开启史上最大变阵,新晋总裁统管三大业务和AI,全面集权意欲何为?
钛媒体感谢IT之家网友 Domado、Autumn_Dream、贝尔摩德、云焰、顺势而为 的线索投递!
5 月 7 日,“小米技术”公众号今天下午宣布,小米 AI 实验室新一代 Kaldi 团队全新推出 OmniVoice,不仅在中英文场景达到顶尖性能,更在多语言任务中展现出超越商用系统的实力,是业内首个覆盖数百语种的语音克隆 TTS 模型。官方表示,该模型在低资源小语种上具备极强的泛化能力,你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。OmniVoice 的语音合成质量优于目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,解决“读不准”的问题。IT之家从官方介绍获悉,在多语言测试中,即便仅基于开源数据训练,在 24 语种的测试中,其语音相似度和可懂度均超越多款商用系统;在 102 种语种的测试中,它的语音可懂度逼近甚至优于真实语音;即便对于训练数据不足 10 小时的小语种,OmniVoice 也能实现高质量的语音合成,大大降低了低资源语种的语音合成门槛。该模型还具备多项实用功能:自定义音色设计:无需参考音频,只需描述音色属性(如性别、年龄、音调、方言、口音等),就能生成符合预期的音色,还支持耳语等特殊风格。带噪参考音频适配:针对实际使用中参考音频音质不佳的问题,OmniVoice 能自动过滤噪声,提取清晰的音色特征,即便在嘈杂环境下录制的音频,也能克隆出高质量语音。丰富语气表达:支持插入笑声、叹气等语气符号,让合成语音更有表现力,更贴近真人交流。发音精准纠正:针对中英文多音字、专有名词易读错的问题,用户可通过简单设置,纠正发音错误,提升语音合成的可靠性。参考论文:https://arxiv.org/abs/2604.00688(了解技术细节)Github:https://github.com/k2-fsa/OmniVoice(含完整训练、推理代码)语音样本展示:https://zhu-han.github.io/omnivoice/(直观感受语音合成效果)Huggingface Demo Space:https://huggingface.co/spaces/k2-fsa/OmniVoice(无需代码一键试用)
IT之家5 月 7 日,科技行业正进入人工智能支出趋于理性的新阶段,企业管理平台 Jellyfish 发布的最新数据显示,并非消耗 AI 词元(token)最多的企业就能成为最终赢家。IT之家注意到,Jellyfish 在近期一项研究中表示,Claude Code 使用率前 10% 的用户,消耗的 AI 词元数量约为普通开发者中位数水平的 10 倍,但产出成果仅为后者的两倍左右。AI 词元是人工智能模型将文字和输入内容拆分而成的小型文本单元,用于模型运算处理。同时它也是 AI 服务的计费依据,收费标准通常按每百万词元计价。Jellyfish 人工智能与研究主管尼古拉斯・阿尔科拉诺表示,这一差距清晰表明,员工无节制消耗 AI 词元的极致词元滥用行为,并非可持续的使用策略。他在采访中坦言:“首席财务官们已经开始严格管控这类开支。如今大多数企业里,员工开展工作都必须提供费用凭据。客户固然希望业务推进提速,也愿意在人工智能领域投入资金,但前提是必须证明开支合理、能产生实际价值。”Jellyfish 掌握数百家企业、数十万软件工程师的编程行为数据。研究发现,海量消耗 AI 词元未必能创造实际效益,反而会推高企业成本。这也推动科技行业迈入全新阶段:AI 使用效率的重要性日益凸显。阿尔科拉诺称:“即便你能自圆其说,认为 AI 完成工作的综合价值高于人工,但一旦词元成本飙升,首席财务官依然会担心财务报表失控。”事实上,Jellyfish 的报告凸显了高端用户词元消耗量的惊人增幅。Claude Code 高频使用者人均每周词元消耗量高达 2.25 亿,而平台监测的普通软件工程师周消耗量仅为 3200 万。与此同时,以代码提交合并请求(代码产出的通用衡量指标)为标准来看,AI 使用率与工作效率呈正相关。最新数据显示,AI 高使用率团队的代码合并请求处理量,较低使用率团队高出 77%。阿尔科拉诺指出,单纯的词元总量杂乱无章,无法单独作为工作效率评判标准。即便工程师编程习惯没有变化,AI 模型版本更新也可能导致词元消耗量大幅波动,这意味着开发者的词元花费并不能真实代表实际工作产出。他建议企业管理者应关注单次代码合并请求成本等以成果为导向的指标,而非单纯统计词元总消耗量。换言之,大量使用 AI 确实能提升效率,但效果存在边际上限。公司数据表明,频繁借助 AI 智能体辅助编程的高活跃用户,整体效率确实更高,但其效率提升幅度与词元投入成本并不成正比。阿尔科拉诺解释道:“有些人不愿提前规划最优方案,反而让五个 AI 智能体用五种不同方式开发,再从中挑选最优版本。这过程中会浪费大量无效工作量。这种方式或许有效,总成本也仍低于纯人工开发,但远不如提前定好一套方案来得省钱。”在阿尔科拉诺看来,最优发展路径是大范围推广 AI 编程应用,让更多工程师进入中等合理使用区间,既避免 AI 使用不足,也杜绝过度消耗资源。维持这种适中水平,才能让人工智能成为企业持久的运营优势:既能借助 AI 切实提升产品交付效率,又不会为了追求微弱的产出增量而无谓浪费成本。
IT之家5 月 7 日,据 TheGuardian 报道,一项新研究发现,目前的人工智能系统已能够独立将自身复制到其他计算机上。在末日场景中,这意味着一旦超级人工智能脱离人类管控,就会通过互联网在全球范围内自我散播副本,躲避信息技术人员的紧急关停,继而继续谋划掌控世界,或是大肆铺设太阳能板、改造全球环境。据IT之家了解,总部位于伯克利的帕利塞德(Palisade)研究机构开展了此项研究,该机构负责人杰弗里・拉迪什表示:“我们正迅速逼近一个临界点:届时一旦人工智能失控,将无人能够将其关停,因为它可以自行导出模型权重,并把自身副本复制到全球数千台计算机中。”近几个月来,越来越多令人不安的人工智能能力被曝光,这项研究便是其中又一例证。今年 3 月,阿里巴巴的研究人员称,发现其研发的人工智能系统“罗马”突破了自身运行环境,接入外部系统进行加密货币挖矿。而在今年 2 月,一个号称纯人工智能运营的社交平台 Moltbook 短暂掀起一波热潮。该平台似乎展现出人工智能智能体自主创立宗教、密谋反抗人类管理者的行为,不过实际情况仅有部分属实。和诸多此类技术进展一样,帕利塞德机构的研究发现也存在局限性。此外,专家表示,其测试的人工智能系统很难在现实环境中悄无声息地完成同类操作。网络攻防安全领域专家杰米森・奥赖利指出:“很多时候,他们的测试环境就像软果冻一样毫无防护。”他补充道:“这并不否认该项研究的价值,但也意味着,在具备中等监控水平的真实企业环境中,实际情况远没有研究结果看上去那般骇人。”帕利塞德研究人员在由多台计算机联网组成的受控环境中测试了多款人工智能模型。研究人员向模型下达指令,要求其寻找并利用系统漏洞,借此将自身从一台计算机复制到另一台计算机。结果显示,这些模型能够完成该操作,但并非每次尝试都能成功。奥赖利表示,虽然不少计算机病毒早已具备自我复制、感染新设备的能力,但这很可能是首次有研究证明,人工智能模型可主动利用系统漏洞,将自身复制至新服务器。“恶意软件实现自我传播复制已有数十年历史,只是据我所知,此前从未有本地大语言模型在真实网络环境中做到这一点。”他还补充道,从技术层面来讲,帕利塞德机构记录的这类能力,数月前就已具备实现条件。“帕利塞德是首个在学术论文中完整、系统地记录这一过程的机构。这项研究值得肯定,但并非他们率先实现了这项技术突破,只是率先整理发表了相关研究成果。”人工智能模型在测试环境中自我复制至其他系统,和末日场景里的失控作乱完全是两回事。若想在现实世界中肆意扩散,人工智能还需要克服重重阻碍。首要难题是,当下人工智能模型体量庞大,多数情况下,其自我复制的过程极易被察觉,根本无法隐蔽进行。奥赖利说:“试想一下,每次入侵一台新主机,都要向企业网络传输 100GB 的数据,会产生多大的流量异常。对于专业网络防御人员来说,这就好比有人拖着铁链重球,大摇大摆走进精品瓷器店,极其显眼。”网络安全独立专家米哈乌・沃兹尼亚克与奥赖利均认为,帕利塞德所用的测试环境为专门定制,其中人为设置的漏洞,远比银行、企业内网等现实网络中的漏洞更容易被利用。沃兹尼亚克表示:“能够利用软件已知漏洞实现自我复制的计算机恶意病毒,已经存在数十年之久。”他评价这项研究“颇具看点”,但也直言:“作为一名信息安全从业者,这篇论文会让我夜不能寐吗?完全不会。”
IT之家5 月 7 日,AMD 在其当地时间 5 月 6 日的博客中对 Instinct MI400 系列显卡加速器中的 MI430X 分支进行了预览介绍。IT之家注意到,这款 GPU 已被多款超算宣布应用。与专为大规模 AI 训推设计的 MI455X 不同,MI430X 兼顾 AI 与传统 HPC 工作负载。而该区别也体现在 MI430X 对 FP64 这一高精度数据格式的原生支持上。AMD 称 MI430X 的原生 FP64 算力预计将超过 200 TFLOPs。MI430X 有望提供 NVIDIA(英伟达)Rubin 架构 6 倍以上的 FP64 算力,成为有史以来性能最高的 FP64 GPU。AMD 表示,对于气候学、材料科学、核科学、流体力学等应用场景,计算精度非常重要。唯有 FP64 这样的高精度数据才能为基于 AI 的科学探索提供“高保真”的基础,捕获底层科学的真实结构。
IT之家5 月 7 日,据路透社报道,当地时间周三,OpenAI 前技术主管米拉 · 穆拉蒂在埃隆 · 马斯克起诉 OpenAI 的案件中作证称,OpenAI 在继续开发并大规模部署强大 AI 软件的过程中,CEO 萨姆 · 奥尔特曼让公司高层之间产生了不信任。穆拉蒂表示:“我担心的是,萨姆会对一个人说一套话,对另一个人说完全相反的话。”2023 年,OpenAI 董事会曾短暂罢免奥尔特曼,穆拉蒂一度接任 OpenAI CEO。她称,奥尔特曼在“制造混乱”,有时也会误导她和其他人。马斯克 2024 年起诉 OpenAI,主张 OpenAI 不当转向营利模式,背离慈善目标,并应重新变回非营利组织。如果马斯克胜诉,OpenAI 的商业化进程可能受到阻碍,而马斯克也可能从中受益。马斯克是 OpenAI 联合创始人之一。他要求 OpenAI 和投资方微软支付 1500 亿美元赔偿,资金将用于 OpenAI 的慈善部门。据IT之家了解,穆拉蒂已经离开 OpenAI,并联合创办了自己的 AI 初创公司。她表示,奥尔特曼曾让高管相互对立,并削弱她作为技术负责人的角色。不过,穆拉蒂表示,她当时仍希望奥尔特曼继续担任 CEO,也曾要求董事会成员更充分说明 2023 年罢免奥尔特曼的理由。“OpenAI 当时面临分崩离析的灾难性风险。我担心公司会彻底崩掉。”另一名前 OpenAI 官员、曾任董事会成员的希冯 · 齐利斯,也提到了公司准备发布爆款聊天机器人 ChatGPT 时的内部动荡。董事会曾“极度担忧”OpenAI 在“没有任何像样董事会沟通”的情况下发布 ChatGPT。被问及是否曾在公司内部表达对奥尔特曼的担忧时,齐利斯表示,“曾经有过几次”。齐利斯目前在马斯克旗下 Neuralink 工作,也是马斯克 4 个孩子的母亲。审判还披露了一些意外细节。例如,马斯克曾在开庭前几天试图与布罗克曼和解,也曾一度觉得自己继续资助 OpenAI 像个“傻瓜”。
IT之家5 月 6 日,科技媒体 9to5Google 昨日(5 月 5 日)发布博文,报道称谷歌正在开发 Gemini AI 新订阅层级,代号为“Neon”,暂定名“Google AI Ultra Lite”。该订阅计划瞄准 AI Pro(月费 20 美元)与 AI Ultra(月费 250 美元)之间的市场空白,预计定价约 100 美元,与 Anthropic 和 OpenAI 的同类产品展开竞争。谷歌当前的 AI 订阅层级存在巨大断层。AI Pro 计划每月费用为 20 美元,适合轻度用户;AI Ultra 计划每月 250 美元,面向企业级需求。但对于使用 AI 编程或处理复杂工作流的高级用户而言,Pro 资源捉襟见肘,Ultra 又显得过于昂贵。Ultra Lite 有望填补这一空白,谷歌试图用更细分的定价抢占中高端市场,提供比基础 Pro 更多的资源配额,却无需承担 Ultra 的企业级溢价。除了新订阅层级,谷歌还计划解决 AI 使用量不透明问题。该媒体在 Gemini macOS 应用中发现,谷歌将推出专属仪表板,让用户精确追踪自己的 AI 使用配额。IT之家援引博文介绍,新仪表板将显示三项核心数据:5 小时限制(GXU_FIVE_HOURLY):短时间窗口内的使用上限;每周预算(GXU_WEEKLY):整周的总额度;超额积分(OVERAGE_CREDITS):突破标准限制后继续使用的备用额度。可视化指标让用户能够更精准地规划 Token 消耗,避免在项目中途遭遇“使用限制”。
IT之家5 月 6 日,据外媒 TechCrunch 今日报道,资深电商创业者、前沃尔玛电商业务 CEO 马克 · 劳尔希望把 AI 深度引入现有创业项目 Wonder。这一计划的核心是名为 Wonder Create 的新工具。借助这项功能,任何人都可以在不到一分钟内用 AI 设计并推出自己的餐厅品牌。无论是餐饮创业者,还是社交媒体网红,都可以创建一个虚拟餐厅。Wonder 是一家垂直整合的餐饮和配送平台,最早从餐车起步,目前已经发展出带 10 到 20 个座位的快休闲餐厅形态。不过,这些门店并不是传统餐厅,而是劳尔所说的“可编程烹饪平台”。在越来越多采用机器人的全电厨房中,同一个点位可以根据菜系切换成 25 种不同类型的餐厅。据IT之家了解,Wonder 厨房拥有 700 种食材库。这些点位里所谓的“餐厅”,实际上是多个不同品牌共用同一套厨房基础设施运营。每个厨房除了最多 12 名员工,还会使用传送带、机械臂等烹饪设备。明年,Wonder 还计划推出一台“无限酱料机器”,能够制作目前互联网上食谱中约 80% 的酱料。Wonder Create 的目标,是让任何人都能使用 Wonder 的软件推出自己的餐厅品牌和菜谱。劳尔把这套系统形容为类似“带 AI 提示词的 Shopify 前端”。“只要输入想要打造什么类型的餐厅,AI 会在不到一分钟内把餐厅搭建出来。它会完成餐厅名称、品牌、描述、图片、定价、健康信息,以及你餐厅的所有菜谱。”如果想调整,餐厅的“主理人”还可以继续修改提示词。确认后,餐厅就会在 Wonder 所有点位上线。Wonder 推出 AI 创建“餐厅”的目标,是让更多人以新方式测试食品和品牌。比如,餐厅经营者可以先把新菜谱放到 Wonder 平台上试水,根据顾客反馈,再决定是否把菜品加入自己的实体门店。
IT之家5 月 6 日,据路透社报道,当地时间周二,谷歌杰出科学家谢尔盖 · 瓦西尔维茨基向欧盟反垄断监管机构发出警告,如果欧盟要求谷歌向 OpenAI 等竞争对手开放搜索引擎数据,用户隐私可能面临暴露风险。这是谷歌围绕搜索业务监管争议作出的迄今最强硬回应之一。近几年,欧盟委员会通过多项法规加强对大型科技公司的监管,希望给用户更多选择,也让中小竞争对手获得更多竞争空间。不过,相关监管举措也引发美国政府不满。瓦西尔维茨基自 2012 年起担任谷歌杰出科学家,被视为有关领域的领军人物。他将于周三会见欧盟反垄断官员,说明谷歌的担忧,并提出一套范围更广、保护措施更完善的替代方案。一个月前,欧盟委员会曾列出一系列要求,要求谷歌以公平、合理、非歧视性条件,让竞争搜索引擎访问搜索数据,包括排名、查询、点击和浏览数据。这项欧盟提议将在未来几周根据相关方反馈最终确定。谷歌对此强烈反对,称此举系“监管越界”,可能危及用户隐私和安全。瓦西尔维茨基表示,关键问题在于欧盟委员会提出的个人数据匿名化方法。谷歌担心,这套方法不足以防止现代 AI 工具从数据中重新识别用户身份。“我们感到担忧,因为欧盟委员会的匿名化方法无法保护欧洲人的隐私:我们的红队在不到两个小时内就成功重新识别了用户。”IT之家注:谷歌 AI 红队由一组黑客组成,负责模拟多种现实攻击场景,找出潜在漏洞和弱点,并提出修复方案。瓦西尔维茨基表示:“我们希望分享自身技术专业知识,并与欧盟委员会合作,建立正确的保护措施,保护欧洲人免受隐私伤害。”欧盟监管机构将在 7 月 27 日前决定谷歌必须落实的具体措施。如果谷歌未能执行,可能会被认定违反《数字市场法》。这部法律旨在限制大型科技公司的权力,违规罚款最高可达谷歌全球年收入的 10%。相关阅读:《欧盟委员会:谷歌应允许第三方搜索引擎获取搜索数据》
IT之家5 月 6 日,Qt 集团 5 月 5 日宣布推出用于智能开发(Agentic Development)的 QML 分析器技能。这项新的“技能”可以将 2D Qt Quick 应用的代码性能分析委托给 AI 智能体。借助这项新发布的技能,AI 智能体将能够处理 2D Qt Quick 应用的渲染、逻辑和内存问题的分析。面对诸如“界面感觉卡顿”或“帧率下降”的投诉,AI 智能体可以利用这项技能进行分析并生成关于性能瓶颈的有用报告。该技能目前仅支持 2D Qt Quick 应用。这项技能已在 GitHub Copilot、Claude 桌面版和 Claude Code CLI 上进行测试,搭配 Claude Sonnet 4.6、GPT 5.4 和 Gemini 3.1 Pro 效果最佳。▲ 在 Claude Code CLI 中运行 QML 分析技能的屏幕截图IT之家附 Qt AI 技能开源地址如下:https://github.com/TheQtCompanyRnD/agent-skills
IT之家声明:本栏目的素材来源均为互联网收集整理,整理的目的在于分享和传递新闻热点信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系我方进行删除,我方将在收到通知后第一时间删除内容!本站拥有对此声明的最终解释权。














