爱AI工具库,国内AIGC产品探索者分享平台
注册
99%工具无需特殊网络!
当前位置:首页

谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验

爱AI工具库 2024-12-13
16

感谢IT之家网友 咩咩洋 的线索投递!
12 月 13 日,谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播(Multimodal Live)API,帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 实现了低延迟、双向的文本、音频和视频交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。 该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。IT之家附上演示如下: 该 API 支持集成多种工具,开发者只需一次 API 调用,即可完成复杂的用例。

来源:IT之家

相关推荐

暂无数据

评论 ( 0 )

aiaitool@163.com

打开微信扫一扫

qrcode

回顶部

×

我的收藏

请先登录登录

请先登录登录