计算机视觉 | 标签

首页

资讯

往期整理

微软清华联手BiPS：一拉一推根治AI看图幻觉，迈向AGI关键一步

微软亚洲研究院与清华大学提出BiPS技术，通过“一拉一推”的双向感知塑形，解决视觉语言模型（VLM）看图不准的问题。本文深入解读这一从训练端重塑AI视觉能力的创新，探讨其对大模型、AGI及AI资讯领域的深远影响。

何恺明团队新作pMF：开启像素级「无潜、单步」生成新范式

何恺明,pMF,像素级生成,无潜空间,单步生成,MeanFlow,生成式AI,计算机视觉,图像生成,AI新闻,AI资讯,aigc.bar,深度学习,端到端模型,ImageNet,FID评分

VLM剪枝新SOTA：无需重训练，注意力去偏置技术解析 - AI资讯

VLM剪枝,注意力机制,AI效率优化,大模型部署,机器视觉,AI新闻,LLM优化,无需重训练,上海大学研究,SOTA模型

SplatSSC解读：AAAI 2026 Oral高斯泼溅新范式，重塑单目场景补全

深入解析AAAI 2026 Oral论文SplatSSC，探讨解耦深度引导的高斯泼溅技术如何解决“漂浮物”伪影，提升单目语义场景补全效率。关注AI资讯，了解具身智能与自动驾驶感知的SOTA突破。

AAAI 2026大奖揭晓：Bengio获经典奖，华人团队强势霸榜杰出论文

AAAI 2026在新加坡盛大开幕，图灵奖得主Yoshua Bengio凭借知识嵌入论文斩获经典论文奖。5篇杰出论文中华人团队占据3席，涵盖具身智能、LLM多模态及超图神经网络等前沿领域，引领AI资讯新风向。

视频版Deep Research登场：金字塔感知让Token消耗降58% | AI资讯

深入解读Video-Browser，一种视频版Deep Research新范式。采用金字塔感知架构（Pyramidal Perception），模拟人类先浏览后精读的模式，在Video-BrowseComp基准测试中精度提升，Token消耗降低58.3%。

YOLOv26深度解析：大模型时代，为何工业界仍坚守边缘计算？

深入解读YOLOv26的发布及其背后的工业逻辑。在大模型(LLM)和AGI备受追捧的今天，为何YOLO依然是计算机视觉落地的首选？本文分析其去NMS架构革新、边缘计算优势及成本账，带你了解AI资讯与实体产业的真实结合。

TPAMI重磅：DC-SAM打破交互限制，实现高效视频上下文分割

深入解读TPAMI录用论文DC-SAM，探索基于循环一致性的图像与视频上下文分割新方法。涵盖IC-VOS基准、Mask-tube策略及SOTA性能表现，AI资讯,大模型,计算机视觉,人工智能前沿。

AAAI 2026新作：AdaptCLIP零样本横扫12个工业医疗数据集

深入解读西门子与腾讯优图联合推出的AdaptCLIP模型，AAAI 2026最新研究成果。该模型在零样本和少样本条件下，横扫12个工业与医疗数据集，精准定位缺陷，刷新检测精度SOTA，为人工智能在工业质检领域的应用带来新突破。

IDEA开源OVSeg3R：2D先验生成3D标注，自动驾驶迎新突破

IDEA团队开源OVSeg3R模型，利用2D先验自动生成3D标注，大幅降低自动驾驶与具身智能的数据成本。关注AIGC.BAR获取更多AI资讯、AGI进展及大模型前沿新闻，了解AI如何重塑未来。

港科大One4D：统一4D生成与重建的革命性框架

港科大推出One4D框架，通过DLC解耦控制与UMC统一掩码条件，成功实现单模型统一4D生成与重建。本文深入解读其技术原理与应用前景，探索AI资讯与大模型在4D世界的最新突破。

UniPercept深度解读：统一图像美学、质量与结构感知的AI新突破

UniPercept模型发布，统一了图像美学、质量和结构纹理感知。本文深入解读其三位一体评估体系、强化学习训练策略及在生成模型中的应用，探索AI如何像人类一样感知画面细节。关键词：AI资讯,大模型,图像感知,UniPercept,人工智能

语义分割新突破：港中文RankSEG算法，三行代码榨干模型性能

语义分割,RankSEG算法,港中文AI研究,Dice指标优化,IoU提升,计算机视觉推理,深度学习优化,人工智能前沿,AI资讯,AI新闻,大模型应用,AI门户,AGI,LLM

Qwen负责人力荐：2025宝藏论文揭秘视觉领域GPT时刻 | AI资讯

视觉领域GPT时刻,视频模型,CoF,思维链,林俊旸,Qwen,谷歌DeepMind,Veo 3,零样本学习,多任务统一,AI资讯,AGI,大模型,AI新闻,人工智能,AI门户

视频生成运镜不再乱晃！DualCamCtrl引入深度相机，误差狂降40%

DualCamCtrl,视频生成,相机控制,深度学习,AI资讯,大模型,计算机视觉,AIGC,3D几何,运镜一致性,人工智能

VGGT4D深度解析：无需训练，挖掘注意力线索解锁AI的4D场景重建能力 - AINEWS

深入解读VGGT4D技术，探索如何利用Visual Geometry Transformer内部运动线索，在零训练成本下实现动态场景4D重建。涵盖动态分割、位姿估计等核心突破。AI,AI资讯,AI新闻,AI门户,AGI

推特激辩催生AI学术新突破：谢赛宁团队iREPA仅需3行代码重塑生成模型

一场推特上的学术争论竟演变成顶级论文？谢赛宁团队新作iREPA揭示空间结构对生成模型的关键作用，仅需3行代码即可显著提升性能。本文深入解读这一AI资讯背后的技术细节与“线上茶水间”效应。AI,AI资讯,大模型,LLM,AGI

24岁博士打造G²VLM：空间AI新霸主，小参数完胜GPT-4o

24岁博士生胡文博团队研发G²VLM模型，以仅4B参数在空间推理任务中击败GPT-4o。本文深入解析其独特的双专家架构与3D感知能力，探讨其对机器人、具身智能及自动驾驶的革命性意义。AI新闻,AI资讯,大模型,人工智能,LLM,具身智能

Jina-VLM深度解读：笔记本能跑的2.4B多语言视觉模型，AI资讯新标杆

Jina-VLM,多语言视觉模型,AI资讯,大模型,LLM,人工智能,AI新闻,Jina AI,视觉问答,端侧AI,AI门户,AGI

NeurIPS 2025新作：UniLumos实现20倍加速光影重塑

UniLumos, 图像视频重打光, 物理反馈, 20倍加速, NeurIPS 2025, AI光影编辑, AIGC技术, 计算机视觉, 深度学习, AI资讯

←上页下页→