Apple Vision Pro 接入 DeepSeek,来探索空间智能!
00 分钟
2025-2-19
2025-2-18
category
AI summary
tags
password
summary
date
icon
status
字数统计
type
slug
orgsrc
URL
Apple Vision Pro 接入 DeepSeek,探索 AI 如何带来全新空间智能(Spatial intelligence)体验!

大纲

  • 空间计算 + DeepSeek,探索多模态 AI 交互体验
  • ARKit + DeepSeek = 空间理解
  • Apple Intelligence or Spatial Intelligence

空间计算引入 DeepSeek,探索多模态 AI 交互体验

Apple Vision Pro 为用户带来了既符合人类直觉又超出预期的眼手自然交互形式,让用户可以在虚实结合的空间中随意抓取、操控各类虚拟内容。我们尝试着将这一自然交互方式与 DeepSeek 大语言模型结合,让 AI 在虚拟空间中(字面意义上地)触手可及:无论是文本、网页链接、图像还是文件,都可以随手一丢,让 AI 进行处理。通过自定义提示词,可以实现信息的识别、提炼、总结等自动化操作任务。
示例1. 文本总结
对于网页、邮件等界面中出现的文字,我们可以在选中后直接将其拖放到 DeepSeek 助手,完成翻译、总结等操作。
notion image
Video demo - 文字总结
示例2. 图片识别
出于对用户隐私的保护,Vision Pro 没有开放相机的视频流数据,不久前 Google 发布的 Android XR 提供了圈选搜索的功能(Circle to Search),目前来说 visionOS 是不支持的。
notion image
不过我们可以通过“Siri,截屏” + 拖放的交互方式实现类似效果,利用 DeepSeek-VL2 视觉模型帮助我们理解眼前的内容:
notion image
Video demo - 图片识别

ARKit + DeepSeek = 空间理解

以上两个示例仅仅只是基于拖放交互方式,更方便触达 AI 功能的简单尝试,虽然只是简单的原型 Demo,已经足以感受到 AI 触手可及的神奇体验!
虽然 visionOS 不直接提供实时视频流数据,但通过 ARKit 可以获取对周围环境的重建信息,包括平面识别、分类以及尺寸、坐标等详细信息:
notion image
我们尝试把 ARKit 场景理解、平面识别等接口返回的数据,重新整合后输入给 DeepSeek,这样就可以获得对当前环境的推断:
Video demo - 场景理解
再进一步,还可以尝试将 DeepSeek 推断的环境信息转换成文生图提示词,重新生成图片…
notion image

更多空间计算 + AI 体验!

以上是我们将 Apple Vision Pro 接入 DeepSeek 的尝试,如果你也对空间计算 + AI 的神奇体验感兴趣,欢迎一起讨论。
据传在马上即将更新的 visionOS 2.4 将集成 Apple intelligence 功能,如果你也期待空间智能体验升级,欢迎关注:V2XR