谷歌今日发布Gemini Live!实时对话+拍照问答,将挑战GPT-4o?
any
发布于 2024-8-14 18:22:52
阅读 344
查看全部
本帖最后由 any 于 2024-8-14 18:24 编辑
就在今日凌晨,谷歌在 Pixel 9 系列手机发布会上宣布了一项最新的的AI服务——Gemini Live,为 Gemini 高级订阅用户带来了全新的移动人工智能对话体验。这一服务的推出,无疑将给人们带来更加便捷和智能的生活方式。
据说这次 Gemini Live 依旧对标 OpenAI 旗下的 ChatGPT-4o,吸引了不少科技圈人士的目光。
可随时打断对话的人工智能聊天机器人
据谷歌官方博文介绍,Gemini Live 采用了 Gemini Advanced 模型,具有实时对话功能,用户可以随时打断 Gemini Live 的发言,Gemini Live 会实时调整回答,更贴近真人互动,有助于让用户和 Gemini Live 展开更加自由流畅的对话。
值得一提的是,Gemini Live 还提供了10种自然声音供用户选择。这意味着人们可以根据自己的喜好来选择与 Gemini Live 交流的声音,增加了个性化的体验。无论你喜欢温柔的女声还是沉稳的男声,都能在这里找到适合自己的声音。
谷歌博文是这样介绍 Gemini Live 的(翻译来自IT之家):
使用 Gemini 应用,用户可以与 Gemini 对话,并从10 种新的自然声音中选择它可以回应的声音。
用户甚至可以按照自己的节奏说话,或在回答中途打断并提出澄清性问题,就像在人类对话中一样。
然而有一部分用户表示在使用过程中,由于 Gemini Live 的声音和说话方式过于人性化,打断它的发言时会感到尴尬。
插入一则讯息,人工智能发展的过程中往往需要用到大量的GPU算力资源训练AI大模型,目前算力云(suanlix)平台已在全国多所城市部署数据中心,提供GPU云主机和CPU云主机的租用服务,算力云还平台上线了RTX4090、Tesla V100S等热门显卡,近期为感谢新老用户,还推出实名认证享受折上折活动,致力于为企业和个人用户提供人人都“用得起”的高性能、高性价比的算力资源。
拍照问答功能
除了实时对话功能外,Gemini Live 还拥有拍照问答功能。在谷歌官方发布的 demo 中,向大家展示了其拍照问答的功能。视频中,用户使用手机拍摄演唱会的海报,并让 Gemini Live 查看自己的日历,看看行程是否适合参加。这听起来似乎有些神奇,但实际上正是人工智能的魅力所在。
Gemini Live 的拍照问答功能,本意是让用户可以更加直观地获取信息,并作出决策,而无需进行繁琐的查询。然而,在发布会现场的演示环节中,Gemini Live 的拍照问答功能接连两次都没有成功,演示小哥肉眼可见的慌张了,终于第三次在换了手机的情况下成功了,可见 Gemini Live 的拍照问答功能尚不成熟。
毕竟这是一项新技术,我们相信随着谷歌对其不断的改进和完善,它将变得更加智能化和精准化。
相比于 OpenAI 旗下的 GPT-4o,Gemini Live 更加关注于移动设备的语音交互体验,而 GPT-4o 作为多模态交互的领军者,能够无缝处理文本、视频和音频输入,并生成高质量的输出。谷歌也表示,多模态输入尚未实现,将在“今年晚些时候”推出,但拒绝透露具体细节。
以上是算力云今日内容分享,感兴趣的朋友请多多关注吧!小编将为大家带来更多科技领域和AI资讯,感谢阅读。
|
|
|
|
|