Google I/O 2024: AI 时代全面来临，搜索将被颠覆！-文库网

WKNZFB

OpenAI 再次放大招！在 2024 年 5 月 13 日的春季更新活动中，OpenAI 一口气发布了全新的多模态基础大型语言模型 GPT-4o 和适用于 macOS 的 ChatGPT 桌面应用程序。GPT-4o 的炫酷功能一时间吸引了科技圈的全部目光，其整合文本、视觉和音频的能力，以及实时音频对话、情绪识别和表达等功能，无不令人惊叹。仅仅一天之后，Google 在 I/O 2024 大会上发布了一系列重磅 AI 产品和服务，正式宣告进入 Gemini 时代。如果将 OpenAI 比作 AI 游击队长，以迅雷不及掩耳之势发动突袭，那么 Google 则更像 AI 正规军，在 I/O 大会上举行了一场声势浩大的阅兵式。

加州山景城的海岸线圆形剧场，Google 揭开了 2024 I/O 大会的序幕。这场科技盛宴的核心，毫无疑问是 AI。Google CEO Sundar Pichai 在开场致辞中宣布，Google 已全面进入 Gemini 时代，AI 将成为未来科技发展的重要驱动力。

Google 的 AI 战略: 多模态、长上下文和 AI 智能体

Google 的 AI 战略不再局限于简单的聊天机器人，而是围绕 Gemini 模型的多模态、长上下文和 AI 智能体三个关键方向展开，构建更强大、更智能的 AI 系统。

多模态是 Gemini 模型的核心特性，它能够理解和处理文本、图像、视频、代码等多种数据类型，并找到它们之间的联系，从而实现更强大的功能。这意味着你可以用文字描述你想要的图片，Gemini 就可以生成相应的图片；你也可以向 Gemini 展示一张照片，并询问照片中的内容， Gemini 就可以用文字描述照片的内容。这种跨越数据类型的能力，让 AI 更接近人类的认知方式。

长上下文是 Gemini 1.5 Pro 的一项突破性功能，它能够处理 100 万个令牌的上下文窗口，这意味着它可以理解和处理更长、更复杂的信息，例如数百页文本、数小时音频或视频、甚至整个代码存储库。想象一下，你正在阅读一篇长篇小说，AI 可以记住所有情节，并回答你关于任何一个角色或事件的问题，这将是多么神奇的体验！

AI 智能体是 Google 正在积极探索和研发的另一项 AI 技术， Google 将其视为能够推理、规划和记忆的智能系统，可以在用户的监督下完成各种任务。例如，你可以让 AI 智能体帮你购物、安排日程、更新信息等。这意味着 AI 将不再是被动地回答问题，而是主动地为我们解决问题，成为我们生活中的得力助手。

Google 搜索: 被 AI 重塑的未来

Google 搜索，这个诞生于 25 年前的产品，正在经历一场由 AI 驱动的革命性变革。Google 的目标是将搜索引擎打造成一个“全知全能”的存在，用户可以用任何方式提出问题，并以最便捷的方式获取答案。

AI Overviews: Google 正在用 AI 重塑搜索体验，推出 AI Overviews 功能，为用户提供 AI 生成的答案，取代传统的搜索结果列表，为用户提供更加直观和便捷的信息获取方式。例如，如果你搜索“雷电的成因”，AI Overviews 会直接提供一段解释，并附上相关链接，让你可以深入了解。

Not every search will get an AI overview, but a lot of them will.

视频搜索: Google Lens 现在支持视频搜索，你可以录制一段视频，并向 Google 提问， AI 会分析视频内容，并给出答案。例如，你可以拍摄一段电唱机故障的视频，并询问 Google 如何修复， AI 会根据视频内容，给出相应的解决方案。

更智能的搜索结果: Google 正在利用 AI 技术，让搜索结果更智能、更个性化。例如，如果你搜索“波士顿的瑜伽馆”， AI 会根据你的位置、偏好等信息，为你推荐最合适的瑜伽馆，并提供详细的信息，例如价格、课程安排、用户评价等。

Google is using AI to both populate and organize your search results page.

AI 产品和服务: 从搜索到日常生活

Google 正在将 AI 技术应用于旗下各种产品和服务，包括搜索、Google Photos、Google Workspace、Android 等，让 AI 融入到我们日常生活的方方面面。

Ask Photos: Google Photos 也加入了 AI 的行列，推出 Ask Photos 功能，让用户可以通过自然语言询问 Photos 各种问题，例如查找特定照片、总结照片内容、甚至识别照片中的物体等。想象一下，你可以问 Photos：“我女儿第一次游泳是什么时候？”，AI 会自动找到相关的照片，并给出答案。

Google Workspace: Gemini 将被整合到 Workspace 套件中，例如 Gmail、Docs、Sheets 等，为用户提供更强大的文档处理、信息检索和任务管理能力。例如，你可以让 Gemini 帮你总结邮件内容、提取关键信息、甚至撰写回复等。这意味着你将拥有一个无所不能的 AI 助理，帮你处理各种工作任务。

Android: Gemini 也将被整合到 Android 系统中，为用户提供更智能的语音助手、实时翻译、图像识别等功能。例如，你可以用语音命令 Gemini 帮你设置闹钟、查找路线、甚至识别植物等。这意味着你的手机将变得更加智能，可以帮助你完成各种任务。

Google I/O 2024 发布的 20 个重磅创新

除了上述产品和服务，Google I/O 2024 还发布了 20 个重磅创新，涵盖了 AI 助手、搜索、图片、视频、音乐、安全、基础设施等多个领域，全方位展示了 Google 在 AI 领域的雄厚实力和雄心壮志。不少创新更是直接提升了与输入输出（I/O）相关的功能和体验。

1、Project Astra AI 助手:这是一个基于 Gemini 模型的全新 AI 助手，它能通过用户的手机摄像头和麦克风，理解用户所处的环境，并提供更智能、更个性化的服务。在 I/O 大会上，Google 展示了 Astra 如何帮助用户解决编码问题，同时追踪用户之前放置眼镜的位置，充分展现了其强大的多模态理解和实时交互能力。

2、Gemini 在 Workspace 中的部署: Google Workspace 将获得多项 AI 增强功能，这些功能由 Gemini 1.5 的长上下文窗口和多模态能力实现。在 I/O 大会上，Google 演示了用户如何要求 Gemini 总结冗长的电子邮件线程或 Google Meet 通话内容，并能在 Gmail 和 Docs 等应用程序之间建立联系，大大提升了 I/O 效率。

3、AI Overviews: 这是搜索生成体验的下一代发展。AI Overviews 将在美国首发，并计划很快扩展到更多国家。这项技术将允许用户通过 AI 生成的答案快速获取信息，而无需亲自搜集和整合数据，为信息获取（I）提供了更直观和便捷的方式。

4、Google Photos 升级: Google Photos 正在借助 Gemini 的强大功能来获得更多相关搜索，包括如何使用名为“Ask Photos with Gemini”的新功能根据上下文响应搜索和选择照片。在 I/O 大会上，Google 展示了用户如何用自然语言询问 Photos 各种问题，例如“我女儿第一次游泳是什么时候？”，AI 会自动找到相关的照片，并给出答案。

5、Gemini 1.5 Pro 升级: 谷歌的大型语言模型 Gemini 1.5 Pro 获得了显著的质量改进，并推出了新版本 Gemini 1.5 Flash，针对低延迟和低成本的任务进行了优化。这些更新包括视频帧提取、并行函数调用和开发人员上下文缓存等新功能，提升了 I/O 效率。此外，特定 Google Cloud 客户的上下文窗口已扩展到 200 万个，这意味着 AI 可以处理更长的输入内容。

6、Gemma 2: 谷歌的小语言模型 Gemma 将经历重大改革，推出具有 27B 参数的 Gemma 2。这个新模型将满足开发人员对更大模型的需求，同时保持足够的小巧，以适应紧凑的项目需求。Gemma 2 将于 6 月上市。此外，谷歌还推出了 PaliGemma，这是一种语言和视觉模型，用于图像字幕和基于图像提问等任务，强化了 I/O 的多模态能力。PaliGemma 现已在 Vertex AI 中可用。

7、Virtual Teammate: 这是一个具有身份、工作空间帐户和目标的人工智能同事。它将能够回答工作相关问题，并保留与团队合作的“集体记忆”。如果 Virtual Teammate 连接到 CRM 应用程序，它可能对企业特别有用，为企业信息管理和交互（I/O）提供了全新的可能性。

8、通过视频搜索询问 Google: Google 的 Rose Yao 演示了如何借助视频搜索来修复损坏的电唱机。她展示了如何录制视频的示例，并询问为什么电唱机无法正常工作。Google 搜索能够逐帧搜索来回答问题，这意味着用户可以通过视频这种更直观的输入方式来获取信息。

9、Gemini 应用程序的语音和视频功能: Gemini 应用程序将在今年晚些时候推出语音和视频功能，允许用户通过实时响应进行更自然的交互。用户将能够创建“Gems”，即定制代理来执行诸如充当个人写作教练之类的事情。这个想法是让 Gemini 成为“真正的助手”，例如可以计划旅行。Gems 将于今年夏天进入 Gemini Advanced，语音和视频功能的加入，大大丰富了 I/O 交互方式。

10、Imagen 3: 谷歌发布了 Imagen 3，这是其图像生成人工智能的下一代产品。Imagen 3 专注于改善文本渲染，解决了以往 AI 图像生成器的主要弱点。Imagine 3 即将面向 Vertex AI 的开发人员推出，为图像生成提供了更强大的工具。

11、Veo 和 Music AI Sandbox: Veo 是 Google 的生成视频模型，它根据提示创建 1080p 视频。它可以在名为 VideoFX 的工具中使用，为视频编辑和创作者提供了一种制作视频的新方式。电影制作人 Donald Glover 使用 Veo 制作了即将推出的视频。说到音乐，Music AI Sandbox 是一款 YouTube 工具，可帮助创作者通过混合不同风格并创作原创内容来创作更多音乐，这两种工具分别为视频和音乐创作提供了更便捷的工具。

12、Trillium GPU: 谷歌介绍了第六代 Google Cloud TPU，称为 Trillium，它将为 Google Cloud 数据中心提供更高的性能（谷歌声称 TPU 比上一代性能提高了 4.7 倍），并与 NVIDIA 的 AI 加速器竞争。Trillium GPU 的推出，意味着 Google 拥有更强大的底层计算能力，可以支持更复杂的 AI 模型和更丰富的 I/O 处理。

13、Gemini 在 Android 上获得新功能: Android 上的 Gemini 具有更强的上下文感知能力，可以提供有用的操作。它还覆盖在用户正在使用的任何应用程序之上，因此用户无需来回切换。还有一个巧妙的功能，可以让用户将图像从 Gemini 应用程序拖放到另一个应用程序中。另一个演示展示了 Gemini 如何分析长 PDF 文档以获得更好的响应，而不是用户搜索整个文档来找到问题的答案。这些新功能，提升了 Android 系统的 I/O 效率和用户体验。

14、智能眼镜: 谷歌在其 Project Astra 演示中展示了一副智能眼镜。这款新的语音助手即将在手机上登陆 Gemini Live，它可以看到你周围的世界，并且可以做从识别地标到帮助解方程等各种事情。智能眼镜的出现，为 I/O 交互提供了全新的可能性，用户可以通过语音和视觉与 AI 进行交互。

15、Circle to Search 数学问题: Android 用户现在可以使用 Circle to Search 功能圈选屏幕上的数学问题， AI 会将问题分解成步骤，帮助用户理解解题思路。这个功能将触摸屏输入与 AI 辅助学习结合在一起，为用户提供了更便捷的学习方式。

16、Android AI 反诈骗: 利用设备端的 Gemini Nano AI， Android 手机将能够识别诈骗电话的常见模式，并向用户发出实时警告。这个功能利用 AI 技术提升了手机的安全性，为用户提供了更安全的 I/O 环境。

17、AI 辅助红队测试: Google 正在开发一种叫做 AI 辅助红队测试 (AI-assisted red teaming) 的尖端技术，该技术利用了 Google DeepMind 在 AlphaGo 等游戏方面的突破以改进 AI 模型的安全性，确保 AI 系统的 I/O 过程更加安全可靠。

18、SynthID: Google 扩展了 SynthID 水印工具的功能，使其可以嵌入到 Veo 生成的视频内容中，并能够检测 AI 生成的视频，帮助用户识别 AI 生成的内容，让 AI 生成的内容更加透明，提升用户对 AI 生成内容的信任度。

19、Gemini Live: Google 推出了 Gemini Live，这是一个新的 Gemini 体验，允许用户使用语音与 Gemini 进行更深入、更自然的对话，用户可以打断 Gemini 的讲话，或要求 Gemini 查看智能手机摄像头并提供实时信息。Gemini Live 的推出，标志着语音交互（I/O）进入了新的阶段，用户可以更加自然地与 AI 进行交流。

20、Gems: Google 推出了 Gems，允许用户自定义 Gemini 的响应方式和专业领域。用户可以根据自己的需求，将 Gemini 训练成一个积极的跑步教练、知识渊博的历史学家，或任何其他角色，为用户提供了更加个性化的 I/O 体验。

Google 的 AI 愿景: 让 AI 助力每个人

Google CEO Sundar Pichai 在大会上强调， Google 的 AI 愿景是让 AI 助力每个人，帮助人们更好地完成任务、获取信息、解决问题，让生活更加便捷、高效、美好。

Google I/O 2024 大会展现了 Google 在 AI 领域的雄厚实力和雄心壮志，也预示着 AI 时代已经到来， AI 将成为未来科技发展的重要驱动力。从搜索到日常生活， AI 正在改变我们与世界互动的方式，而 Google 正在引领这场变革。

原件地址：Google I/O 2024: AI 时代全面来临，搜索将被颠覆！

请使用微信客户端打开页面并长按下方二维码关注我们，或者微信直接搜索文库网。

[ 微信公众号ID：WENKUNET ]