category
AI summary
tags
password
summary
date
icon
status
字数统计
type
slug
orgsrc
URL
《大脑传》一书的计算机篇,提到了哈佛大学团队利用动物大脑进行图像合成优化的算法:XDream,其原本目的是为了研究 🧠 视觉皮层细胞的作用机制,即它们对什么样的刺激更感兴趣?
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fd4fd63b2-b16c-42ef-ba4e-2bd11a632f78%2Fweread_image__ss87e3285072a2010987e5dcess__117796601727928_edit_117819526908908.jpg?table=block&id=5f1d4afd-987b-46e6-b532-33c49e3d3375)
XDream算法的原理可以简单概括如下:
- 它将一个生成式的神经网络(比如GAN)与一个目标神经元(比如视觉皮层的一个神经元)联结成一个闭环系统。
- 在这个闭环系统里,生成网络可以无限制地生成图像的变化。
- 每生成一批新图像,就会记录目标神经元对每张图像的响应(比如脉冲发放频率)。
- 然后一个优化算法(比如遗传算法)会根据神经元的响应,调整生成网络的输入变量,使得新生成的图像可以引起更大的神经元响应。
- 如此循环往复多次,生成的图像会逐步朝着最大化目标神经元响应的方向演化。
- 最后,那些可以强烈驱动目标神经元的图像就会出现,这些图像反映了该神经元的优选刺激特征。
实验中采集的是恒河猴颞下区(inferior temporal cortex)神经元在被动观看生成图像时的激活水平,这一区域(IT)是高级视觉形状和物体表示形成的关键区域,与视觉认知、记忆、语义和行为控制都有重要联系。
We recorded responses of IT neurons (spike counts 70–200 ms after stimulus onset minus background) while monkeys engaged in a passive fixation task.
通过呈现不同类型的初始图像,随着以激活观察者视觉神经元为正反馈的迭代训练,最终得到的图像结果如下:
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fd4dcb2a5-cac0-477f-b24e-5e138b7858ba%2FUntitled.png?table=block&id=5ce89651-2d6b-4449-a118-8c8be2e5e31f)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F311d51f7-feed-43c1-9eaa-d15eb68db2bc%2FUntitled.png?table=block&id=7dabd379-c610-4fe9-bb00-3d7c1bec4445)
实验结果反映出视觉神经的一些编码特性:
- 单个神经元可能对多种视觉特征高度敏感,这些特征不一定属于同一语义类别(可能并不存在专门识别某类特征的”专职神经元“)。
- 优选刺激图像具有丰富的纹理特征,而非简单的几何形状,表明神经元对视觉细节很敏感(简单几何形状更可能由初级视觉皮层负责)。
- 神经元对特定语义概念的组合特征也可能高度选择性,比如同时包含人脸和身体的图像。
实验&算法流程如下图所示:
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fa75b6a16-4307-4a53-ab79-86ff162c16ac%2FUntitled.png?table=block&id=935d88d9-fe27-4a81-83c9-dec175cd14e6)
这个流程图的右上角部分换成正在使用 Midjourney 或者 Stable Diffusion 的 prompt engineer 是不是也毫无违和感?
类似的实验也有研究人员尝试在人类大脑上进行,只不过用的是无创脑成像技术(fMRI)。
从大脑活动重构视觉体验 |CVPR 2023
该研究在呈现给人类大脑视觉图像的同时,扫描并记录其活动。再通过扩散模型进行还原(生成),以此来理解大脑如何代表视觉信息,并找出计算机视觉模型与人类视觉系统的关联。
![fMRI 扫描效果示意图](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Ffb9a4e4a-be56-4e0a-bf53-764463f10090%2FSourCreamyFantail-size_restricted.gif?table=block&id=375153a1-051b-42e8-ab70-5ad31ae42e04)
![模型框架](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F6dc1b9fa-cccf-401f-b713-3b069bc4d947%2FUntitled.png?table=block&id=c7e55e99-d1a6-4d45-b001-8c29dcff050a)
对比 Ground Truths 和训练生成的结果,如果再辅助以简单的文本描述作为约束(这有点作弊了),可以很大程度上还原、重构大脑活动对视觉图像的表征。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fbddb684d-871a-4cc1-9f5c-58925b808b87%2FUntitled.png?table=block&id=e05a9b1e-58b7-403c-838c-485deea36a29)
当然这一研究结果并不能说明我们已经可以通过扫描大脑活动反向预测你看到的内容,只不过是在有限的数据集上建立起视觉刺激信号与大脑活动数据之间的一些相关模式。这就好像通过一份 MBTI 测试问卷的结果,可以大致推断你在看待一些问题、处理一些事物的倾向或偏好,但这并不代表可以通过这份问卷的结果推断你所有的思维和行动方式。因为这份问卷本身就是对你决策模式的极度精简版(或压缩版)。
![https://atozofai.withgoogle.com/intl/en-US/human-in-the-loop/](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F2aa6d173-1eb1-4a2c-8528-9da7c211ec71%2FUntitled.png?table=block&id=c30b4854-4530-4dc2-9236-6d0a99e56d95)
参考文献
- 《大脑传》| The Idea of the Brain: A History
- Human in the loop | https://atozofai.withgoogle.com/intl/en-US/human-in-the-loop/
- Takagi, Y., & Nishimoto, S. (2023). High-resolution image reconstruction with latent diffusion models from human brain activity. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 14453-14463).
- Wang, B., & Ponce, C. R. (2022, July). High-performance evolutionary algorithms for online neuron control. In Proceedings of the Genetic and Evolutionary Computation Conference (pp. 1308-1316).
- Xiao, W., & Kreiman, G. (2020). XDream: Finding preferred stimuli for visual neurons using generative networks and gradient-free optimization. PLoS computational biology, 16(6), e1007973.
- Ponce, C. R., Xiao, W., Schade, P. F., Hartmann, T. S., Kreiman, G., & Livingstone, M. S. (2019). Evolving images for visual neurons using a deep generative network reveals coding principles and neuronal preferences. Cell, 177(4), 999-1009.