OpenAI 再次放大招!在 2024 年 5 月 13 日的春季更新活动中,OpenAI 一口气发布了全新的多模态基础大型语言模型 GPT-4o 和适用于 macOS 的 ChatGPT 桌面应用程序。GPT-4o 的炫酷功能一时间吸引了科技圈的全部目光,其整合文本、视觉和音频的能力,以及实时音频对话、情绪识别和表达等功能,无不令人惊叹。仅仅一天之后,Google 在 I/O 2024 大会上发布了一系列重磅 AI 产品和服务,正式宣告进入 Gemini 时代。如果将 OpenAI 比作 AI 游击队长,以迅雷不及掩耳之势发动突袭,那么 Google 则更像 AI 正规军,在 I/O 大会上举行了一场声势浩大的阅兵式。
加州山景城的海岸线圆形剧场,Google 揭开了 2024 I/O 大会 的序幕。这场科技盛宴的核心,毫无疑问是 AI。Google CEO Sundar Pichai 在开场致辞中宣布,Google 已全面进入 Gemini 时代,AI 将成为未来科技发展的重要驱动力。
Google 的 AI 战略: 多模态、长上下文和 AI 智能体
Google 的 AI 战略不再局限于简单的聊天机器人,而是围绕 Gemini 模型的多模态、长上下文和 AI 智能体三个关键方向展开,构建更强大、更智能的 AI 系统。
多模态是 Gemini 模型的核心特性,它能够理解和处理文本、图像、视频、代码等多种数据类型,并找到它们之间的联系,从而实现更强大的功能。这意味着你可以用文字描述你想要的图片,Gemini 就可以生成相应的图片;你也可以向 Gemini 展示一张照片,并询问照片中的内容, Gemini 就可以用文字描述照片的内容。这种跨越数据类型的能力,让 AI 更接近人类的认知方式。
长上下文是 Gemini 1.5 Pro 的一项突破性功能,它能够处理 100 万个令牌的上下文窗口,这意味着它可以理解和处理更长、更复杂的信息,例如数百页文本、数小时音频或视频、甚至整个代码存储库。想象一下,你正在阅读一篇长篇小说,AI 可以记住所有情节,并回答你关于任何一个角色或事件的问题,这将是多么神奇的体验!
AI 智能体是 Google 正在积极探索和研发的另一项 AI 技术, Google 将其视为能够推理、规划和记忆的智能系统,可以在用户的监督下完成各种任务。例如,你可以让 AI 智能体帮你购物、安排日程、更新信息等。这意味着 AI 将不再是被动地回答问题,而是主动地为我们解决问题,成为我们生活中的得力助手。
Google 搜索: 被 AI 重塑的未来
Google 搜索,这个诞生于 25 年前的产品,正在经历一场由 AI 驱动的革命性变革。Google 的目标是将搜索引擎打造成一个“全知全能”的存在,用户可以用任何方式提出问题,并以最便捷的方式获取答案。
AI Overviews: Google 正在用 AI 重塑搜索体验,推出 AI Overviews 功能,为用户提供 AI 生成的答案,取代传统的搜索结果列表,为用户提供更加直观和便捷的信息获取方式。例如,如果你搜索“雷电的成因”,AI Overviews 会直接提供一段解释,并附上相关链接,让你可以深入了解。
Not every search will get an AI overview, but a lot of them will.
视频搜索: Google Lens 现在支持视频搜索,你可以录制一段视频,并向 Google 提问, AI 会分析视频内容,并给出答案。例如,你可以拍摄一段电唱机故障的视频,并询问 Google 如何修复, AI 会根据视频内容,给出相应的解决方案。
更智能的搜索结果: Google 正在利用 AI 技术,让搜索结果更智能、更个性化。例如,如果你搜索“波士顿的瑜伽馆”, AI 会根据你的位置、偏好等信息,为你推荐最合适的瑜伽馆,并提供详细的信息,例如价格、课程安排、用户评价等。
Google is using AI to both populate and organize your search results page.
AI 产品和服务: 从搜索到日常生活
Google 正在将 AI 技术应用于旗下各种产品和服务,包括搜索、Google Photos、Google Workspace、Android 等,让 AI 融入到我们日常生活的方方面面。
Ask Photos: Google Photos 也加入了 AI 的行列,推出 Ask Photos 功能,让用户可以通过自然语言询问 Photos 各种问题,例如查找特定照片、总结照片内容、甚至识别照片中的物体等。想象一下,你可以问 Photos:“我女儿第一次游泳是什么时候?”,AI 会自动找到相关的照片,并给出答案。
Google Workspace: Gemini 将被整合到 Workspace 套件中,例如 Gmail、Docs、Sheets 等,为用户提供更强大的文档处理、信息检索和任务管理能力。例如,你可以让 Gemini 帮你总结邮件内容、提取关键信息、甚至撰写回复等。这意味着你将拥有一个无所不能的 AI 助理,帮你处理各种工作任务。
Android: Gemini 也将被整合到 Android 系统中,为用户提供更智能的语音助手、实时翻译、图像识别等功能。例如,你可以用语音命令 Gemini 帮你设置闹钟、查找路线、甚至识别植物等。这意味着你的手机将变得更加智能,可以帮助你完成各种任务。
Google I/O 2024 发布的 20 个重磅创新
除了上述产品和服务,Google I/O 2024 还发布了 20 个重磅创新,涵盖了 AI 助手、搜索、图片、视频、音乐、安全、基础设施等多个领域,全方位展示了 Google 在 AI 领域的雄厚实力和雄心壮志。不少创新更是直接提升了与输入输出(I/O)相关的功能和体验。
1、Project Astra AI 助手:这是一个基于 Gemini 模型的全新 AI 助手,它能通过用户的手机摄像头和麦克风,理解用户所处的环境,并提供更智能、更个性化的服务。在 I/O 大会上,Google 展示了 Astra 如何帮助用户解决编码问题,同时追踪用户之前放置眼镜的位置,充分展现了其强大的多模态理解和实时交互能力。
2、Gemini 在 Workspace 中的部署: Google Workspace 将获得多项 AI 增强功能,这些功能由 Gemini 1.5 的长上下文窗口和多模态能力实现。在 I/O 大会上,Google 演示了用户如何要求 Gemini 总结冗长的电子邮件线程或 Google Meet 通话内容,并能在 Gmail 和 Docs 等应用程序之间建立联系,大大提升了 I/O 效率。
3、AI Overviews: 这是搜索生成体验的下一代发展。AI Overviews 将在美国首发,并计划很快扩展到更多国家。这项技术将允许用户通过 AI 生成的答案快速获取信息,而无需亲自搜集和整合数据,为信息获取(I)提供了更直观和便捷的方式。
4、Google Photos 升级: Google Photos 正在借助 Gemini 的强大功能来获得更多相关搜索,包括如何使用名为“Ask Photos with Gemini”的新功能根据上下文响应搜索和选择照片。在 I/O 大会上,Google 展示了用户如何用自然语言询问 Photos 各种问题,例如“我女儿第一次游泳是什么时候?”,AI 会自动找到相关的照片,并给出答案。
5、Gemini 1.5 Pro 升级: 谷歌的大型语言模型 Gemini 1.5 Pro 获得了显著的质量改进,并推出了新版本 Gemini 1.5 Flash,针对低延迟和低成本的任务进行了优化。这些更新包括视频帧提取、并行函数调用和开发人员上下文缓存等新功能,提升了 I/O 效率。此外,特定 Google Cloud 客户的上下文窗口已扩展到 200 万个,这意味着 AI 可以处理更长的输入内容。
6、Gemma 2: 谷歌的小语言模型 Gemma 将经历重大改革,推出具有 27B 参数的 Gemma 2。这个新模型将满足开发人员对更大模型的需求,同时保持足够的小巧,以适应紧凑的项目需求。Gemma 2 将于 6 月上市。此外,谷歌还推出了 PaliGemma,这是一种语言和视觉模型,用于图像字幕和基于图像提问等任务,强化了 I/O 的多模态能力。PaliGemma 现已在 Vertex AI 中可用。
7、Virtual Teammate: 这是一个具有身份、工作空间帐户和目标的人工智能同事。它将能够回答工作相关问题,并保留与团队合作的“集体记忆”。如果 Virtual Teammate 连接到 CRM 应用程序,它可能对企业特别有用,为企业信息管理和交互(I/O)提供了全新的可能性。
8、通过视频搜索询问 Google: Google 的 Rose Yao 演示了如何借助视频搜索来修复损坏的电唱机。她展示了如何录制视频的示例,并询问为什么电唱机无法正常工作。Google 搜索能够逐帧搜索来回答问题,这意味着用户可以通过视频这种更直观的输入方式来获取信息。
9、Gemini 应用程序的语音和视频功能: Gemini 应用程序将在今年晚些时候推出语音和视频功能,允许用户通过实时响应进行更自然的交互。用户将能够创建“Gems”,即定制代理来执行诸如充当个人写作教练之类的事情。这个想法是让 Gemini 成为“真正的助手”,例如可以计划旅行。Gems 将于今年夏天进入 Gemini Advanced,语音和视频功能的加入,大大丰富了 I/O 交互方式。
10、Imagen 3: 谷歌发布了 Imagen 3,这是其图像生成人工智能的下一代产品。Imagen 3 专注于改善文本渲染,解决了以往 AI 图像生成器的主要弱点。Imagine 3 即将面向 Vertex AI 的开发人员推出,为图像生成提供了更强大的工具。
11、Veo 和 Music AI Sandbox: Veo 是 Google 的生成视频模型,它根据提示创建 1080p 视频。它可以在名为 VideoFX 的工具中使用,为视频编辑和创作者提供了一种制作视频的新方式。电影制作人 Donald Glover 使用 Veo 制作了即将推出的视频。说到音乐,Music AI Sandbox 是一款 YouTube 工具,可帮助创作者通过混合不同风格并创作原创内容来创作更多音乐,这两种工具分别为视频和音乐创作提供了更便捷的工具。
12、Trillium GPU: 谷歌介绍了第六代 Google Cloud TPU,称为 Trillium,它将为 Google Cloud 数据中心提供更高的性能(谷歌声称 TPU 比上一代性能提高了 4.7 倍),并与 NVIDIA 的 AI 加速器竞争。Trillium GPU 的推出,意味着 Google 拥有更强大的底层计算能力,可以支持更复杂的 AI 模型和更丰富的 I/O 处理。
13、Gemini 在 Android 上获得新功能: Android 上的 Gemini 具有更强的上下文感知能力,可以提供有用的操作。它还覆盖在用户正在使用的任何应用程序之上,因此用户无需来回切换。还有一个巧妙的功能,可以让用户将图像从 Gemini 应用程序拖放到另一个应用程序中。另一个演示展示了 Gemini 如何分析长 PDF 文档以获得更好的响应,而不是用户搜索整个文档来找到问题的答案。这些新功能,提升了 Android 系统的 I/O 效率和用户体验。
14、智能眼镜: 谷歌在其 Project Astra 演示中展示了一副智能眼镜。这款新的语音助手即将在手机上登陆 Gemini Live,它可以看到你周围的世界,并且可以做从识别地标到帮助解方程等各种事情。智能眼镜的出现,为 I/O 交互提供了全新的可能性,用户可以通过语音和视觉与 AI 进行交互。
15、Circle to Search 数学问题: Android 用户现在可以使用 Circle to Search 功能圈选屏幕上的数学问题, AI 会将问题分解成步骤,帮助用户理解解题思路。这个功能将触摸屏输入与 AI 辅助学习结合在一起,为用户提供了更便捷的学习方式。
16、Android AI 反诈骗: 利用设备端的 Gemini Nano AI, Android 手机将能够识别诈骗电话的常见模式,并向用户发出实时警告。这个功能利用 AI 技术提升了手机的安全性,为用户提供了更安全的 I/O 环境。
17、AI 辅助红队测试: Google 正在开发一种叫做 AI 辅助红队测试 (AI-assisted red teaming) 的尖端技术,该技术利用了 Google DeepMind 在 AlphaGo 等游戏方面的突破以改进 AI 模型的安全性,确保 AI 系统的 I/O 过程更加安全可靠。
18、SynthID: Google 扩展了 SynthID 水印工具的功能,使其可以嵌入到 Veo 生成的视频内容中,并能够检测 AI 生成的视频,帮助用户识别 AI 生成的内容,让 AI 生成的内容更加透明,提升用户对 AI 生成内容的信任度。
19、Gemini Live: Google 推出了 Gemini Live,这是一个新的 Gemini 体验,允许用户使用语音与 Gemini 进行更深入、更自然的对话,用户可以打断 Gemini 的讲话,或要求 Gemini 查看智能手机摄像头并提供实时信息。Gemini Live 的推出,标志着语音交互(I/O)进入了新的阶段,用户可以更加自然地与 AI 进行交流。
20、Gems: Google 推出了 Gems,允许用户自定义 Gemini 的响应方式和专业领域。用户可以根据自己的需求,将 Gemini 训练成一个积极的跑步教练、知识渊博的历史学家,或任何其他角色,为用户提供了更加个性化的 I/O 体验。
Google 的 AI 愿景: 让 AI 助力每个人
Google CEO Sundar Pichai 在大会上强调, Google 的 AI 愿景是让 AI 助力每个人,帮助人们更好地完成任务、获取信息、解决问题,让生活更加便捷、高效、美好。
Google I/O 2024 大会展现了 Google 在 AI 领域的雄厚实力和雄心壮志,也预示着 AI 时代已经到来, AI 将成为未来科技发展的重要驱动力。从搜索到日常生活, AI 正在改变我们与世界互动的方式,而 Google 正在引领这场变革。