爱AI工具库每日实时更新AI行业的最新资讯、新闻、热点、融资、产品动态,让你随时了解人工智能领域的最新趋势、更新突破和热门大事件。
全面解析国内AI应用市场。


5 月 13 日,科技媒体 marktechpost 昨日(5 月 12 日)发布博文,报道称英伟达携手麻省理工学院(MIT),推出了 Audio-SDS,一种基于文本条件的音频扩散模型扩展技术。音频扩散模型近年来在生成高质量音频方面表现卓越,但其局限在于难以优化明确且可解释的参数。英伟达和 MIT 的科研团队首次将 Score Distillation Sampling(SDS)方法应用于音频领域,结合预训练模型的生成能力与参数化音频表示,无需大规模特定数据集,可应用于 FM 合成器参数校准、物理冲击音合成和音源分离三大任务。SDS 技术广泛应用于文本生成 3D 图像和图像编辑中,英伟达融合该技术推出 Audio-SDS,结合预训练模型的生成先验知识,能够直接根据高级文本提示调整 FM 合成参数、冲击音模拟器或分离掩码。研究团队通过基于解码器的 SDS、多步去噪和多尺度频谱图等方法,实验结果表明,Audio-SDS 在主观听觉测试和客观指标(如 CLAP 分数、信号失真比 SDR)上均表现出色。Audio-SDS 的创新在于,它用单一预训练模型支持多种音频任务,消除了对大规模领域特定数据集的依赖。尽管如此,研究团队也指出,模型覆盖范围、潜在编码伪影和优化敏感性等问题仍需解决。IT之家附上参考地址Score Distillation Sampling for Audio: Source Separation, Synthesis, and BeyondAudio-SDS Overview

5 月 13 日,苹果机器学习团队上周在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。据介绍,该模型基于苹果自研 MLX 框架开发并借助 LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行优化。技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计算量比同类模型要少得多。其核心是一个名为 FastViTHD 的混合视觉编码器。苹果团队表示,该编码器“专为在高分辨率图像上实现高效的 VLM 性能而设计”,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。亮点FastViTHD 新型混合视觉编码器:专为高分辨率图像优化设计,可减少令牌输出量并显著缩短编码时间最小模型版本性能对比:较 LLaVA-OneVision-0.5B 模型实现首词元(Token)响应速度提升 85 倍,视觉编码器体积缩小 3.4 倍搭配 Qwen2-7B 大语言模型版本:使用单一图像编码器即超越 Cambrian-1-8B 等近期研究成果,首词元响应速度提升 7.9 倍配套 iOS 演示应用:实机展示移动端模型性能表现苹果技术团队指出:“基于对图像分辨率、视觉延迟、词元数量与 LLM 大小的综合效率分析,我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的 AirPods 设备。FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。IT之家查询获悉,MLX 框架允许开发者在 Apple 设备本地训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。参考资料:https://github.com/apple/ml-fastvlm?tab=readme-ov-file[2412.13303] FastVLM: Efficient Vision Encoding for Vision Language Models

5 月 13 日,在今日举办的 FORCE LINK AI 创新巡展上海站活动中,火山引擎正式发布了一系列 AI 模型升级产品,包括豆包・视频生成模型 Seedance 1.0 lite、豆包 1.5・视觉深度思考模型,并对豆包・音乐模型进行了升级,旨在通过更全面的模型矩阵和更丰富的智能体工具,助力企业打通从业务到智能体的应用链路。据IT之家了解,此次发布的 Seedance 1.0 lite 是豆包视频生成模型系列中的小参数量版本,该模型支持文生视频和图生视频两种生成方式,视频生成时长可选择 5 秒或 10 秒,分辨率提供 480P 和 720P 两种选项。企业用户可以在火山方舟平台使用该模型的 API 接口,而个人用户则可以通过豆包 App 或即梦平台进行体验。据官方称,Seedance 1.0 lite 在技术上实现了两大突破:一是影视级的视频生成质量,二是视频生成速度的大幅提升,兼顾效果、速度和性价比。该模型具备更精准的指令遵循能力,通过强大的语义理解能力,Seedance 1.0 lite 可以精细控制人物的外貌气质、衣着风格、表情动作等细节,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应等方面具有优势。此外,Seedance 1.0 lite 还支持丰富的影视级运镜技术,包括 360 度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,其生成的视频具备细腻高清的基础画质和影视级美感。在运动交互方面,该模型通过分析动作时序与空间关系,提升了人物和物体之间自然流畅的交互动作,使运动轨迹和受力反馈更加符合现实规律。Seedance 1.0 lite 模型的应用范围广泛,涵盖电商广告、娱乐特效、影视创作、动态壁纸等多个领域。例如在电商领域,该模型能够帮助商家快速生成高质量的营销视频素材,精准匹配产品展示和活动推广等场景,从而有效降低制作成本和周期。

5 月 13 日,在今日举办的 FORCE LINK AI 创新巡展・上海站上,火山引擎发布了豆包 1.5・视觉深度思考模型(Doubao-1.5-thinking-vision-pro),该模型激活参数仅 20B,但具备强大的多模态理解和推理能力,在 60 个公开评测基准中,有 38 个达到业界最佳表现(SOTA),在视频理解、视觉推理、GUI Agent 能力等方面均处于第一梯队。在视频理解领域,豆包 1.5・视觉深度思考模型支持动态帧率采样技术,显著增强了视频时序定位能力。结合向量搜索功能,模型能够精准定位视频中与文本描述相对应的片段,为视频内容的深度分析和检索提供支持。此外,该模型新增了视频深度思考能力。通过学习数万亿多模态标记数据,模型积累了广泛的视觉知识,并借助强化学习技术,大幅提升了视觉推理能力。例如,在复杂的图形推理任务中,模型能够自主提出假设、进行推理检验,并在发现与假设不符时,不断反思并提出新的猜测,直至得出正确答案。值得注意的是,豆包 1.5・视觉深度思考模型还新增了 GUI Agent 能力。凭借强大的 GUI 定位性能,该模型能够在 PC 端、手机端等多种不同环境中完成复杂的交互任务。例如,它可对新开发的 App 功能进行自动化检测,目前这一功能已在字节跳动多款 App 产品的开发测试中进行应用。IT之家注:GUI Agent 是一种基于多模态视觉模型驱动的人工智能系统,能够自动推理并执行 UI 交互,模拟人类用户的操作,如点击、输入、拖拽、读取界面信息等,以完成人类要求的工作任务。目前,该模型已正式在火山方舟平台上线。

感谢IT之家网友 软媒新友2314942、Intel牙膏厂、吃饭不用碗 的线索投递!
18:43 更新:DeepSeek 服务状态页面更新称,App、WEB 对话功能恢复正常,对话历史有概率获取失败。 5 月 13 日,据IT之家小伙伴反馈,DeepSeek 今日下午出现服务问题,主要影响网页端、App 对话。deepseek 话题也登上了微博热搜第 9,网友反馈具体表现为账号登录失败、无法对话等。截至IT之家发文,DeepSeek 官方暂未给出回应。

生物学+计算技术,更强、更高效。

5 月 12 日,ChatGPT 推出了一个备受期待的新功能 —— 将深度研究(Deep Research)报告保存为 PDF 格式。ChatGPT 的深度研究功能拥有强大的自动化能力,用户只需输入提示词,ChatGPT 便能够独立完成复杂的多步骤研究任务。它会扫描互联网,阅读数百个网站的内容,并生成一份全面的研究报告。然而,此前用户在使用过程中遇到了一个痛点:虽然可以复制报告内容,但复制后的格式无法保留,导致在将其粘贴到 Word 文档中时格式会出现错误。如今这一问题将得到解决,ChatGPT 新增了“下载为 PDF”的选项,能够完美保留报告的原始布局。这一功能目前正处于网页端的测试阶段,目前尚不清楚该功能何时会全面推向所有用户,也不确定它是否会应用于常规查询。IT之家注意到,除了 PDF 保存功能外,OpenAI 还为 ChatGPT 深度研究功能推出了另一项更新 ——GitHub 连接器。这一新工具将面向拥有团队订阅(Teams subscription)的用户开放,进一步拓展 ChatGPT 在代码管理和协作方面的应用能力。

感谢IT之家网友 Autumn_Dream 的线索投递!
5 月 12 日,“网信中国”公众号今日发文通报,近期,一些网络账号以滥用 AI 技术、嫁接拼凑等方式虚构突发案事件、编造公共政策、捏造社会民生领域谣言,误导网民认知,造成公众恐慌,扰乱社会秩序。网信部门指导网站平台持续加大监测和处置曝光力度,及时溯源并关闭谣言首发账号,累计处置相关违法违规账号 2210 个。IT之家附部分典型案例:“AI 预测彩票号码百分百中奖”谣言。一则“AI 预测彩票号码,百分百中奖”的消息在网络上流传。中国福彩发文提醒,所谓 AI 预测彩票号码均为骗局,请务必警惕。快手平台“落寞人生”、小红书平台“快来带我吃饭”等账号已被依法依约关闭。“广东冰雹比鸡蛋还大”等谣言。近期,有网民借广东冰雹天气,发布“冰雹比鸡蛋还大”“冰雹砸坏汽车”等图片。经广东省互联网举报中心核实,相关图片均为通过 AI 制作生成的虚假图片,画面明显夸大灾情。百度平台“童生在此”、小红书平台“遥遥雪中客”、今日头条平台“小糖热搜”等账号已被依法依约关闭。“杭州滨江发生恶性刑事案件”谣言。网上有消息称“滨江区发生恶性刑事案,嫌疑人已被刑拘”,引发关注。经当地公安机关查证,该信息纯属虚构,系造谣者为博取流量,利用 AI 生成工具捏造虚假案情,经深度编辑后发布于社交平台,已依法对造谣者作出行政处罚。百度平台“小娱游游”、微信平台“憨憨小魔王”等账号已被依法依约关闭。“扫码领取‘五险一金补贴’”谣言。近日,有网民反映收到“扫码领取‘五险一金补贴’”的通知。人力资源和社会保障部表示,通知信息不实且涉嫌诈骗,从未面向普通群众发放过所谓的“五险一金补贴”。微信平台“尼吉特”等账号已被依法依约关闭。“故意捏造并传播虚假‘死亡率’”系列谣言。近期,“截至 2024 年末,80 后死亡率突破 5.2%”“70 后死亡率却低于 80 后”等信息在网上流传。经公安机关查证,上述信息系个别网民为挑拨情绪、售卖保健品而借机编造的谣言,已对造谣者依法予以行政处罚。知乎平台“江南”、哔哩哔哩平台“晶晶说-”等账号已被依法依约关闭。“重庆一工业园区着火 10 人遇难上百人失联”谣言。近日,有网民散播“10 人遇难,16 人受伤,上百人失联,重庆一工业园区着火”的信息,引发关注。经重庆市互联网违法和不良信息举报中心向重庆市应急管理局和重庆市消防救援总队核实,重庆近期未发生此类事故,网传信息系谣言。抖音平台“霞姐”、微博平台“官疯雨”等账号已被依法依约关闭。“云南德宏芒市发生 5.8 级地震”谣言。近日,有网民发布视频称“云南芒市发生 5.8 级地震”。经芒市委网信办核实,相关视频系造谣者为蹭流量,将缅甸地震视频标注为“云南芒市地震废墟”的不实信息。抖音平台“爱一个人要好好的对她”、快手平台“相识是缘 033”等账号已被依法依约关闭。“中国残疾人联合会宣传文化部开展 App 线上试点”谣言。有网络传言称“中国残疾人联合会宣传文化部开展 App 线上试点”,中国残联宣文部严正声明,从未授权任何组织或个人成立所谓“中国残联线上试点线下工作室”,从未组织开展过所谓“App 线上试点精准扶贫助残”等活动。微信平台“然然的”等账号已被依法依约关闭。

声明:本栏目的素材来源均为互联网收集整理,整理的目的在于分享和传递新闻热点信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系我方进行删除,我方将在收到通知后第一时间删除内容!本站拥有对此声明的最终解释权。