Apple Vision Pro 接入 DeepSeek，来探索空间智能！ | Hack Vision Pro

技术

Apple Vision Pro

Apple Vision Pro 接入 DeepSeek，来探索空间智能！

00 分钟

2025-2-25

category

AI summary

tags

password

summary

date

icon

status

字数统计

type

slug

orgsrc

URL

Apple Vision Pro 接入 DeepSeek，探索 AI 如何带来全新空间智能（Spatial intelligence）体验！

大纲

空间计算 + DeepSeek，探索多模态 AI 交互体验

ARKit + DeepSeek = 空间理解

Apple Intelligence or Spatial Intelligence

空间计算引入 DeepSeek，探索多模态 AI 交互体验

Apple Vision Pro 为用户带来了既符合人类直觉又超出预期的眼手自然交互形式，让用户可以在虚实结合的空间中随意抓取、操控各类虚拟内容。我们尝试着将这一自然交互方式与 DeepSeek 大语言模型结合，让 AI 在虚拟空间中（字面意义上地）触手可及：无论是文本、网页链接、图像还是文件，都可以随手一丢，让 AI 进行处理。通过自定义提示词，可以实现信息的识别、提炼、总结等自动化操作任务。

示例1. 文本总结

对于网页、邮件等界面中出现的文字，我们可以在选中后直接将其拖放到 DeepSeek 助手，完成翻译、总结等操作。

notion image

Video demo - 文字总结

示例2. 图片识别

出于对用户隐私的保护，Vision Pro 没有开放相机的视频流数据，不久前 Google 发布的 Android XR 提供了圈选搜索的功能（Circle to Search），目前来说 visionOS 是不支持的。

notion image

不过我们可以通过“Siri，截屏” + 拖放的交互方式实现类似效果，利用 DeepSeek-VL2 视觉模型帮助我们理解眼前的内容：

notion image

Video demo - 图片识别

ARKit + DeepSeek = 空间理解

以上两个示例仅仅只是基于拖放交互方式，更方便触达 AI 功能的简单尝试，虽然只是简单的原型 Demo，已经足以感受到 AI 触手可及的神奇体验！

虽然 visionOS 不直接提供实时视频流数据，但通过 ARKit 可以获取对周围环境的重建信息，包括平面识别、分类以及尺寸、坐标等详细信息：

notion image

我们尝试把 ARKit 场景理解、平面识别等接口返回的数据，重新整合后输入给 DeepSeek，这样就可以获得对当前环境的推断：

Video demo - 场景理解

再进一步，还可以尝试将 DeepSeek 推断的环境信息转换成文生图提示词，重新生成图片…

notion image

更多空间计算 + AI 体验！

以上是我们将 Apple Vision Pro 接入 DeepSeek 的尝试，如果你也对空间计算 + AI 的神奇体验感兴趣，欢迎一起讨论。

据传在马上即将更新的 visionOS 2.4 将集成 Apple intelligence 功能，如果你也期待空间智能体验升级，欢迎关注：V2XR

作者:V2XR
链接:https://hackvision.pro/post/apple-vision-pro-deepseek-spatial-intelligence
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

500 多年以来人类技术图谱与 XR 2024

解密 Apple Vision Pro 的眼睛舒适度调节技术

visionOS 官方示例项目完整列表

visionOS 2 Ultra Wide Display!

Vision Pro 用户满意度和使用习惯深度分析

Apple Intelligence 赋能 Xcode 16，实测效果如何？

苹果 visionOS 交互的近 10 年研究总结

500 多年以来人类技术图谱与 XR 2024

500 多年以来人类技术图谱与 XR 2024