点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID计算机视觉研究院学习群扫码在主页获取加入方式https://pmc.ncbi.nlm.nih.gov/articles/PMC12707649/pdf/pcbi.1012968.pdf计算机视觉研究院专栏Column of Computer Vision Institute本文提出用星座式视觉谜题首次对比了人类与生成式搜索模型 GenSearch的解题过程发现 AI 终于学会了像人一样 “主动思考着看”PART/1终极视觉挑战星点藏图案人类 VS AI研究设计了一套星座式视觉任务把数字、服饰轮廓拆成散点再混入大量干扰噪点让人和 AI 从中找出真实图案。这种任务完美模拟人类在模糊、嘈杂、信息缺失场景下的视觉推理也是传统深度学习的 “噩梦”。【MNIST 与 Fashion MNIST 星座化示例图】PART/2颠覆传统AI 不再 “硬识别”而是 “边猜边找”团队没有用普通 CNN而是打造了生成式搜索模型 GenSearch核心逻辑完全模仿人类生成假设用 GAN 在隐空间随机生成候选图案评估匹配计算轮廓与星点的贴合度适应度进化筛选保留高分图案交叉 变异迭代 30 代确定答案选出最贴合的形状这就是认知科学经典的 “分析 - 合成”analysis-by-synthesis机制 ——自上而下的假设指导自下而上的感知。【GenSearch 算法流程图】PART/3惊人相似AI 解题行为和人类几乎一致实验结果让学界意外GenSearch 的表现高度接近人类。1. 准确率持平人类约 60%GenSearch约 60%传统 ResNet简单题 “超神”难题直接崩CLIP 零样本接近随机瞎猜【人类与 GenSearch 准确率对比图】2. 犯的错都一样人和 AI 都会混淆4 ↔ 9T 恤 ↔ 毛衣 ↔ 衬衫混淆矩阵相关度高达0.79说明两者底层感知逻辑一致。【人类与模型混淆矩阵对比】3. 画出来的轮廓高度重合用 IOU 量化重合度Fashion MNIST0.49MNIST0.60就连错的地方都高度一致。【人类与模型绘制轮廓重合度示例】4. 都有 “顿悟时刻”人和 AI 都会慢慢迭代优化突然 “想通” 切换答案同时保留多个候选方案【多假设并行迭代至正确答案过程图】PART/4为什么传统深度学习完败研究对比了多种主流模型结果扎心ResNet18只记点的空间统计不理解结构Pix2Pix完全学不会散点→轮廓映射梯度下降版 GenSearch过度拟合噪点形状完全跑偏CLIP零样本直接失效只有进化生成搜索复刻了人类的 “视觉解题思维”。【遗传搜索与梯度下降效果对比】PART/5结论核心结论人类视觉是一套 “解题系统”这项研究首次证明✅ 人类视觉不是被动拍照是主动问题求解✅ 生成 搜索 迭代是复刻人类视觉的关键✅ 传统 CNN 只学统计GenSearch 学的是结构与逻辑✅ 多假设并行进化是 AI 不跑偏的核心未来这种类人视觉推理 AI可用于模糊监控、医学影像、低质图像重建等人类擅长、传统 AI 拉胯的领域。有相关需求的你可以联系我们END转载请联系本公众号获得授权计算机视觉研究院学习群等你加入ABOUT计算机视觉研究院计算机视觉研究院主要涉及深度学习领域主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架提供论文一键下载并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程让大家真正体会摆脱理论的真实场景培养爱动手编程爱动脑思考的习惯往期推荐YOLO-TLA一种基于 YOLOv5 的高效轻量级小目标检测模型ViT-YOLO基于Transformer的用于目标检测的YOLO算法SSMA-YOLO一种轻量级的 YOLO 模型具备增强的特征提取与融合能力适用于无人机航拍的船舶图像检测LUD-YOLO一种用于无人机的新型轻量级目标检测网络Gold-YOLO基于聚合与分配机制的高效目标检测器Drone-YOLO一种有效的无人机图像目标检测「无人机AI」“空中城管”无人机AI光伏巡检自动化解决方案无人机视角下多类别船舶检测及数量统计机场项目解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题2PCNet昼夜无监督域自适应目标检测附原代码YOLO-S小目标检测的轻量级、精确的类YOLO网络大改Yolo框架 | 能源消耗极低的目标检测新框架附论文下载改进的检测算法用于高分辨率光学遥感图像目标检测