
非论是包浆的旧照、AI 生成的低清图,又或是遥感 / 医学图像,面前齐能智能扶助并放大到 4K 超清分辩率。

图像明晰度耕作一直是诡计机视觉的"老问题",靠近噪声、朦胧、压缩毁伤等复合退化,以及 AI 合成、遥感、生物医学等其他限度图像时,传统单一模子经常力不从心。
由德克萨斯 A&M 大学、斯坦福大学、Snap 公司、CU Boulder 大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs 以及加州大学 Merced 分校的量度者伙同提倡的基于 AI 智能体的挨次4KAgent针对不同类型的图像以及需求对图像进行智能扶助并放大到 4K 分辩率,带来优秀的视觉感知后果。该责任已被 NeurIPS 2025 罗致。

传统图像放大模子时常只在特定类型图片上推崇讲求,一朝际遇实在全国中的复杂朦胧、AI 生成图的伪影,或是遥感、医学等专科图像,就显过劲不从心。
而将分辩率放大到 4K,更是对细节重建和纹理实在度齐提倡了极高条目。
而在大齐用户角度来看,有一个既通用又可控的框架来照应多样图像耕作分辩率的需如若再好不外的。4KAgent 恰是在这些实际挑战与需求下出身的。
基于多智能体的假想,4KAgent 不错为每张图像假想出一条通往 4K 分辩率的说念路。

△ 4KAgent 的进程图 1. 智能"读图",会诊问题
感知智能体(Perception Agent)分析图像本色以及图像中的退化信息,为回话智能体提供履行谋略。
最初,图像分析器(Image Analyzer)调用多种图像质地评估器具评估输入图像的质地,获得输入图像的多个感知质地谋略 QI= ( Q1,Q2, … ) 。
然后,退化推理(Degradation Reasoning)应用视觉言语模子(VLM)基于输入图像以及感知质地谋略 QI 进行推理,获得图像中存在的退化信息 DI 以及初步的回话任务列表 AI ′等信息,并竖立放大倍数(Upscaling Factor Configuration):诡计图像放大到 4K 分辩率所需的放大倍数 s 并在初步的回话任务列表 AI ′中添加对应的图像超分辩率任务,获得最终的回话任务列表 AI。
终末,任务缱绻(Task Planning)会基于前边模范获得的信息,应用大言语模子(LLM)粗略视觉言语模子(VLM)为输入图像制定一个回话谋略(Restoration Plan)PI:回话任务的履行纪律。
2. "履行 - 反想 - 回滚",束缚试错优化
回话智能体(Restoration Agent)在履行回话谋略 PI 中的每一步任务时,使用"履行—反想—回滚(execution – reflection – rollback)"机制:
在履行(Execution)阶段,4KAgent 会纪律履行 PI 中的回话任务。4KAgent 主要相沿九种不同的回话任务,并网罗了对应任务中 state-of-the-art 的模子来构建器具栏。4KAgent 在器具栏中调用不同的模子获得多张候选回话图像。

△ 4KAgent 的器具栏
在反想(Reflection)阶段,回话智能体基于质地评分 QS 对候选回话图像进行评估,并选出得分最高者看成输出。4KAgent 中假想的 QS 抽象了无参考图像质地谋略(NIQE、MANIQA、MUSIQ、CLIPIQA)以及东说念主类偏好分数 HPSv2。举座进程可视为一个质地驱动的群众搀杂系统Q-MoE(Quality-driven MoE):输入图像先经多个回话群众生成候选,再由反想模块选出最优收尾。
当挑选出来的图像质地评分低于阈值 η 时,就会触发还滚(Rollback)机制:4KAgent 会生成高下文信息传递给感知智能体生成新的回话谋略 PIadj,并为现时模范指派新的回话任务。

△ 东说念主脸扶助模块
此外,4KAgent 集成了一个东说念主脸扶助模块(Face Restoration Pipeline):检测并剪辑出输入图像中的东说念主脸,关于每张东说念主脸,4KAgent 应用不同的东说念主脸扶助挨次获得多个扶助收尾,并基于假想的东说念主脸质地评分 Qsf 获得质地最高的东说念主脸,将其贴回(paste back)到原始图像中。
4KAgent 还扶助了Fast4K 花式来收尾其开动时分。具体而言,当图像尺寸逾越预设阈值 St 时,4KAgent 会从器具栏中去除推理时分较长的挨次来加快推理。
随意竖立,适合万般场景
为了轻佻不同的图像回话场景,4KAgent 中假想了竖立模块(Profile Module),提供可竖立的使用偏好(举例,优先感知质地也曾保真度、是否激活东说念主脸扶助模块等),让 4KAgent 能适配不同图像回话场景且无需脱落教学。
总体上,4KAgent 把"分析、方案"与"履行、反想"单干到不同的智能体,并通过竖立模块机动地适合不同的回话需求,已毕了通用的 4K 超分才能。
4KAgent 在 11 种不同的图像超分辩率任务上的 26 个基准测试集进行了庸俗测试,包含经典图像超分辩率、实在全国图像超分辩率、多重退化图像回话、大模范图像超分辩率(16 倍)等,以过火他图像限度的超分辩率任务,举例 AIGC 图像、遥感图像、生物医学图像等。
在经典图像超分辩率任务(Classical Image SR)和实在全国图像超分辩率任务(Real-World Image SR)中,4KAgent 生成的图像展现出更丰富、更精确的细节。举例,树皮上的细密条纹,鹿角的结构,羽绒服的纹理,以及数字的明晰度。

△ 经典图像超分辩率任务可视化对比

△ 实在全国图像超分辩率任务可视化对比
在具有挑战性的 16 倍放大任务中,4KAgent 生成高细节度且传神的纹理,举例,岩石与草丛纹理,东说念主脸图片中的发丝、眉毛纹理和眼睛细节。

△ 16 倍放大任务可视化对比
此外,量度还构建了 DIV4K-50 测试集(将 50 张 4096 × 4096 分辩率的高质地图像下采样到 256 × 256 分辩率并加入复合退化),用于测验从 256 × 256 → 4096 × 4096 的回话超分才能。在这个场景下,4KAgent 耐久能重建更精采、更当然的细节,举例东说念主脸细节、毛发纹理等。

△ DIV4K-50 数据集可视化对比
4KAgent 是一个可控且通用的图像回话及 4K 超分辩 AI 智能体系统,旨在将万般图像耕作至 4K 分辩率。4KAgent 在多个限度耕作了图像回话质地,涵盖当然场景、东说念主像、AI 生成本色,以及遥感、显微镜和医学影像等专科科学模态。在模范基准测试和专用数据集上的全面评估中推崇出 4KAgent 在无需特定限度再教学的情况下,在各个场景下均能达到优秀的回话推崇,彰显了其优秀的泛化才能,为其在枉然级、交易级及科研级应用中的通用部署提供了实践价值。
样貌主页:https://4kagent.github.io/
代码下载:https://github.com/taco-group/4KAgent
著作无间:https://arxiv.org/pdf/2507.07105
DIV4K-50 数据集:https://huggingface.co/datasets/YSZuo/DIV4K-50
作家及量度机构:
第一作家:左育莘(Yushen Zuo),德克萨斯 A&M 大学(Texas A&M University)量度实习生
通信作家:涂正中(Zhengzhong Tu),德克萨斯 A&M 大学(Texas A&M University)助知晓释
量度机构:德克萨斯 A&M 大学、斯坦福大学、Snap 公司、CU Boulder 大学、德克萨斯大学奥斯汀分校、加州理工大学、Topaz Labs、加州大学 Merced 分校
一键三连「点赞」「转发」「堤防心」
迎接在评述区留住你的方针!
— 完 —
咱们正在招聘别称眼疾手快、关切 AI 的学术编著实习生 � �
感酷好的小伙伴迎接关切 � � 了解笃定

� � 点亮星标 � �
科技前沿进展逐日见炒股配资注册_股票杠杆官方开户
炒股配资注册_股票杠杆官方开户提示:本文来自互联网,不代表本网站观点。