哈工大团队创造AI评判官:让机器学会给创意修图打分
这项由哈尔滨工业技术大学、华为诺亚方舟实验室以及鹏城实验室合作完成的研究发表于2026年3月27日论文编号为arXiv:2603.26174v1。对于想要深入了解技术细节的读者可以通过该编号查询完整论文。在这个人人都是修图师的时代从简单的美颜滤镜到复杂的AI生成图片图像编辑已经变成了我们日常生活的一部分。但有个问题一直困扰着开发者当AI修图软件按照用户的要求把这张照片变成油画风格或把这个人物变成卡通形象时我们怎么知道它做得好不好就像一道菜做出来了总得有人来品尝判断味道如何AI修图的成果也需要有个评判官来打分。以往的评分方法就像只看菜的外观颜色就给分往往忽略了很多重要细节。比如一张照片要求把人物变成Q版卡通形象传统评分系统可能只看卡通化程度却忽略了人物的眼睛颜色是否保持原样、衣服款式有没有保留等关键信息。这种粗糙的评分方式就像用放大镜看树叶却看不见整片森林既不全面也不够精准。哈工大的研究团队就像发明了一套新的美食评委制度他们创造了一个名为CREval的智能评分系统这个系统不再满足于简单的好坏判断而是学会了像专业评委一样从多个角度仔细品评每一张修改后的图片。更重要的是这个评分系统特别擅长处理那些充满创意和复杂要求的修图任务就像从评判家常菜升级到评判米其林餐厅的创意料理。传统的评分方法就像一个只会说好或不好的机器人而CREval则像一位经验丰富的艺术老师不仅会告诉你最终成绩还会详细解释为什么这样打分哪些地方做得好哪些地方还需要改进。这种透明化的评分方式让开发者们终于知道自己的AI模型到底强在哪里弱在哪里就像学生拿到试卷不仅看到分数还能看到每道题的详细批改意见。研究团队不仅开发了这套评分系统还专门构建了一个包含800多个复杂创意修图案例的测试集就像为这位新评委准备了各种类型的考试题目。这些题目涵盖了从把真人照片变成可爱公仔到将风景图片转换成梦幻插画等九大创意类别确保评分系统能够应对各种奇思妙想的修图需求。一、智能评委的三重考核标准就像品鉴一道精致料理需要从色香味三个方面来评判CREval系统也建立了三个互补的评分维度每个维度都像一位专业评委负责检查修图结果的不同方面。第一个评委叫做指令跟随度评委Instruction Following它的工作就像检查厨师是否严格按照食谱来做菜。当用户要求把这张人物照片变成中国传统婚服风格的Q版人物背景要有红色喜字时这位评委就会仔细检查最终结果人物是否真的变成了Q版风格婚服的细节是否到位喜字背景有没有出现评分过程不是简单的是非判断而是通过一系列具体问题来检验比如人物的头身比例是否符合Q版特征、服装是否具有传统中式婚服的典型元素等等。第二个评委是视觉一致性评委Visual Consistency它的任务就像确保菜品的主要食材没有走味变质。在图像修改过程中有些特征应该保持不变比如人物的基本轮廓、标志性配饰或者独特的面部特征。这位评委会仔细比对原图和修改后的图片确保该保留的特征都原封不动地保存了下来。有趣的是这个系统还很聪明它知道不同特征的重要性是不一样的。比如在修改著名画作《戴珍珠耳环的少女》时那颗标志性的珍珠耳环就会被标记为最重要的特征因为没有了珍珠耳环这幅画就失去了最核心的辨识度。第三个评委叫做视觉质量评委Visual Quality它就像挑剔的美食评委专门检查成品的精美程度。它会仔细观察修改后的图片是否自然流畅有没有出现奇怪的扭曲、不协调的颜色搭配或者不自然的纹理效果。比如说如果把人物变成陶瓷雕像风格这位评委就会检查陶瓷质感是否真实可信光泽反射是否符合陶瓷材质的物理特性人物姿态是否自然协调。这三位评委的打分不是简单相加而是有着巧妙的权重设计。指令跟随度和视觉一致性各占40%的权重因为它们是判断修图成功与否的核心标准而视觉质量占20%的权重主要是因为当前的AI评分系统在判断细微的视觉质量问题上还存在一定局限性。这种权重分配就像考试时不同题目有不同分值确保最重要的评分标准得到最大的关注。更令人惊喜的是这套评分系统完全摒弃了以往那种黑盒子式的打分方式。以前的评分系统就像一个沉默的裁判只给你一个分数却不告诉你为什么这样打分。而CREval就像一位耐心的老师它会把每个评分标准细化为具体的问题比如修改后的人物是否保留了原有的发型特征、背景颜色是否与指令要求一致然后根据每个问题的答案来计算最终得分。这样开发者们就能清楚地知道他们的AI模型在哪些方面表现出色在哪些方面还需要改进。二、创意修图的九个武功门派为了全面测试各种AI修图模型的能力研究团队就像武侠小说中的高手一样把创意修图分成了九个不同的武功门派每个门派都有自己的独门绝技和考验标准。这九个门派被巧妙地组织成三大类别就像把不同的武功心法归类到内功、外功和轻功一样。第一大类别叫做个性定制类就像裁缝为每个客户量身定制衣服一样这类修图主要是对原有对象进行创意改造。在这个大类别下有三个专门的门派。衍生角色门派专门负责把真人或真实物体变成各种可爱的衍生形象比如把一个人变成Q版玩偶、吉祥物或者手办模型。这就像动画师把真人明星设计成卡通形象一样需要保持原有特征的同时增加萌化效果。研究团队发现这类任务虽然看似简单但要在保持人物辨识度的同时实现风格转换对AI来说是个不小的挑战。重新包装门派则是把原有内容重新包装成全新的展示形式比如把一张普通照片变成邮票、明信片或者装饰画。这就像把一首歌重新编曲一样内容本质不变但表现形式完全不同。这类任务特别考验AI对于不同媒介特性的理解能力。奇幻变身门派是最具想象力的一个门派专门创造现实中不存在的奇幻生物和场景比如把普通动物变成神话中的神兽或者把人物变成游戏中的角色。这类任务就像科幻电影的特效制作需要AI具备强大的想象力和创造力。第二大类别是情境植入类就像舞台导演为演员安排不同场景一样这类修图主要是为对象创造特定的使用场景或商业环境。容器场景门派专门把对象放入各种装饰性容器中比如水晶球、展示柜或者雪花玻璃球。这就像博物馆的展品陈列需要考虑对象与容器的协调性以及整体的观赏效果。研究发现很多AI模型在处理这类任务时经常出现比例不协调或者光影不匹配的问题。商业设计门派则是把图像内容转化为商业产品比如包装设计、广告素材或者商品样机。这就像平面设计师的工作需要考虑品牌形象、市场定位和视觉冲击力。这类任务对AI的商业美学理解能力提出了很高要求。信息叙事门派专门创造具有故事性和信息传达功能的作品比如把静态图像变成连环画、信息图表或者教育海报。这就像记者把新闻事件编写成通俗易懂的报道需要AI理解如何用视觉语言讲述故事。第三大类别是艺术重塑类就像艺术家用不同的风格重新诠释同一个主题这类修图主要是通过艺术化处理来重新呈现图像内容。艺术风格门派专门进行各种艺术风格的转换比如把照片变成油画、水彩画或者版画效果。这就像艺术学院的学生用不同技法临摹同一幅作品需要AI深刻理解不同艺术风格的特点和表现手法。文化变装门派则是进行跨文化的身份转换比如把现代人物变成古代皇室成员或者进行不同民族文化的服饰变换。这类任务就像历史剧的服装设计需要AI对不同文化的历史背景和审美特点有深入了解。最后是材质转换门派专门进行不同材质和形态的转换比如把真人变成雕塑、拼图或者乐高积木模型。这类任务就像雕塑家用不同材料创作同一个主题需要AI理解不同材质的物理特性和视觉效果。通过这九个门派的全面测试研究团队发现当前的AI修图模型各有所长。有些模型擅长处理风格转换但在保持细节方面表现不佳有些模型在创意想象方面很强但在技术精度上还有待提升。这就像武林大会上各门各派展示绝技每个门派都有自己的优势和短板没有哪个模型能在所有方面都做到完美。三、从一言堂到法庭辩论的评分革命以往的图像编辑评分系统就像一个独断专行的皇帝只会简单地宣布这张图好或那张图不好却从不解释自己的判断依据。开发者们拿到这样的评分结果就像学生收到一张只有总分没有单项分数的成绩单完全不知道自己哪里做得好哪里需要改进。更要命的是这种一言堂式的评分往往不够全面可能忽略了很多重要的细节问题。CREval系统彻底改变了这种局面它就像把独裁制度变成了民主法庭。在这个法庭里不再是一个人说了算而是通过一系列结构化的问题和答案来进行公开、透明的评判。每一个评分维度都会被细分为多个具体问题就像法庭上的律师会逐一列举证据一样。比如说当AI被要求把一张人物照片转换成中式传统婚服的Q版形象时指令跟随度评委不会简单地给出一个分数而是会提出一系列具体问题人物是否呈现了Q版特有的大头小身比例、服装是否具备中式婚服的典型元素如盘扣、立领等、背景是否出现了传统婚庆元素每个问题都有明确的是或否答案最终根据正确答案的比例来计算得分。这种方法的巧妙之处在于它把抽象的评判标准变成了可以具体检验的问题。就像医生诊断病情不能仅凭感觉而要通过一系列具体的检查项目来确定CREval也是通过具体问题来确保评分的准确性和可靠性。更重要的是这个系统在处理视觉一致性评分时展现出了令人惊喜的智慧。它不会机械地要求所有原图特征都必须保留而是会根据修图指令的要求智能地区分哪些特征应该保持不变哪些特征允许改动。比如如果要求把《蒙娜丽莎》变成现代服装风格系统就知道蒙娜丽莎标志性的微笑和眼神必须保留但服装是可以改变的。系统还会给不同的保留特征分配不同的重要性权重。那些对于原图辨识度至关重要的特征会被分配3分的权重比较重要的特征分配2分权重次要细节则分配1分权重。这就像考试时不同题目有不同分值确保最关键的特征得到最大关注。以《戴珍珠耳环的少女》为例那颗标志性的珍珠耳环就会被分配最高权重因为它是这幅画最核心的识别特征。在视觉质量评估方面系统也摒弃了以往那种模糊的好看不好看判断而是针对具体的技术问题进行检查。它会问一些非常具体的问题比如修改后的图像是否存在不自然的色彩过渡、人物的手部是否保持了正常的五指结构、材质转换后的光影效果是否符合该材质的物理特性这种详细的问题式评分方法带来了革命性的改变。开发者们不再需要猜测自己的模型哪里出了问题而是可以看到清晰的诊断报告。如果一个模型在指令跟随度方面得分很高但在视觉一致性方面表现不佳开发者就知道应该重点改进模型对原图特征的保留能力。这就像汽车出了故障修理师可以通过详细的检测报告准确定位问题所在而不是盲目地四处寻找。四、AI修图界的奥运会比赛结果研究团队就像举办了一场AI修图界的奥运会邀请了13个来自世界各地的顶尖选手参赛其中包括9个业余选手开源模型和4个职业选手闭源商业模型。这场比赛的规模可谓空前每个参赛选手都要完成800多道复杂的创意修图题目涵盖前面提到的九个不同门派的挑战。比赛结果既在意料之中又充满了意外。在总体表现上商业化的职业选手确实展现出了明显优势但令人惊喜的是一些优秀的业余选手也表现得相当出色有时甚至能够击败某些知名的职业选手。夺得冠军的是Seedream 4.0这个来自商业公司的模型就像一位全能型运动员在三个评分维度上都保持了稳定的高水准表现。它的总分达到了83.43分在指令跟随度方面得到89.12分视觉一致性73.44分视觉质量更是高达92.01分。这个成绩就像奥运会全能项目的金牌得主虽然单项可能不是最强但综合实力最为出色。亚军则是开源模型中的佼佼者Qwen-Image-Edit-2509总分79.78分。这个结果让很多人感到意外因为它竟然超越了大名鼎鼎的GPT-Image-1模型。Qwen-Image-Edit在指令跟随度方面表现尤为突出得分85.82分证明了它在理解和执行复杂修图指令方面的出色能力。这就像一位来自小国家的运动员击败了传统体育强国的选手让人刮目相看。排在第三位的是Gemini 2.5 Flash Image总分81.34分这个谷歌出品的模型在各个方面都表现得相当均衡没有明显的短板。紧随其后的是FLUX.1 Kontext系列模型其中专业版得分74.88分开发版得分74.81分两个版本的表现几乎不相上下。令人意外的是GPT-Image-1虽然名气很大但在这次比赛中只获得了78.97分排名并不算靠前。通过详细分析发现这主要是因为它在视觉一致性方面表现不佳经常无法很好地保留原图中的关键特征。这就像一位技术很好的运动员在某个关键环节老是出错影响了整体成绩。在业余选手组中除了冠军Qwen-Image-Edit之外FLUX.1 Kontext [dev]以74.81分获得亚军表现相当稳定。Step1X-Edit系列模型也展现了不错的实力普通版得分69.46分思考增强版得分67.27分。有趣的是这个思考增强版的表现反而不如普通版说明有时候过度复杂化反而会适得其反。Bagel模型在比赛中的表现也很有趣普通版得分68.82分思考增强版得分69.38分。虽然思考增强确实带来了一些提升但提升幅度并不算大这让研究人员开始思考是否值得增加这种额外的复杂性。表现相对较弱的是一些传统模型比如ICEdit只得到53.78分UniWorld-V1得到65.37分。这些模型虽然在某些特定任务上可能有不错的表现但在面对复杂创意修图任务时明显力不从心。通过详细分析各个模型在不同门派中的表现研究团队发现了很多有趣的现象。比如大多数模型在衍生角色和材质转换任务上表现相对较好因为这些任务有相对明确的转换规则。但在奇幻变身和信息叙事任务上很多模型都遇到了困难因为这些任务需要更高水平的创意理解和想象能力。最让研究人员担心的是几乎所有模型在视觉一致性方面的得分都不够理想很多模型的这项得分都在70分以下。这说明当前的AI修图技术在保留原图关键特征方面还有很大改进空间经常出现改着改着就认不出原来是谁了的问题。五、真人评委与AI评委的口味对比为了验证这套全新评分系统的可靠性研究团队进行了一项特别的实验让真人评委和AI评委对同样的修图作品进行打分然后比较两者的口味是否一致。这就像美食节目中邀请专业评委和观众同时品尝看看大家的喜好是否相近。研究团队从六个代表性模型中精心挑选了200多个修图案例涵盖了各种不同类型的创意修图任务。然后邀请了18位来自不同专业背景的真人评委进行评分这些评委就像奥运会的裁判团一样需要根据修图质量给出0到5分的评分。实验结果令人鼓舞。CREval系统的评分结果与真人评委的喜好呈现出了很高的一致性相关性系数达到了令人满意的水平。更具体地说当CREval认为某个修图作品质量很高时真人评委往往也给出了较高的分数当CREval指出某个作品存在明显问题时真人评委也通常给出了相对较低的评分。在这次对比实验中几个有趣的细节浮现出来。Seedream 4.0不仅在AI评分中夺得冠军在真人评委心中的地位也是最高的平均得分达到72.01分。这说明这个模型确实在各个方面都达到了很高的水准不管是从技术角度还是从普通用户的审美角度来看都很出色。Qwen-Image-Edit-2509和GPT-Image-1在真人评委那里的得分非常接近分别是63.49分和63.21分这与AI评分的结果基本一致。有趣的是虽然GPT-Image-1在AI评分中主要输在了视觉一致性方面但真人评委似乎对这个问题没有那么敏感更多关注的是最终效果的整体美观度。Gemini 2.5 Flash Image在真人评委中获得了66.14分排名第三这与AI评分的排名也基本吻合。FLUX.1 Kontext [dev]和Bagel的真人评分分别是51.77分和49.98分相对较低这主要是因为这些模型在处理复杂创意任务时经常出现一些明显的错误影响了整体的观感。为了进一步验证评分系统的稳定性研究团队还尝试用不同的AI模型作为评委来进行打分。他们发现虽然不同AI评委给出的具体分数可能有所差异但对各个模型的相对排名判断基本保持一致。这就像不同的美食评委可能有不同的打分习惯但对于哪道菜更好吃的判断通常是一致的。特别值得一提的是研究团队还发现了一个有趣现象当使用Qwen3-VL作为评委时它对同门师兄Qwen-Image-Edit-2509的评分相对保守一些这可能是因为知根知底反而看出了更多细节问题。但这种细微差别并不影响整体排名的可靠性。通过这次真人评委与AI评委的对比实验研究团队证明了CREval系统确实能够很好地反映人类对修图质量的真实感受。这意味着开发者们可以放心地使用这套系统来评估和改进自己的模型因为在CREval上的好成绩很可能也会得到真实用户的认可。六、开启AI修图新时代的钥匙这项研究的意义远远超出了单纯的技术评测它更像是为整个AI修图领域制定了一套新的游戏规则。在此之前各家公司都在各自为政地开发修图AI缺乏统一的评判标准就像没有统一度量衡的市场一样混乱。现在有了CREval这把标准的尺子整个行业终于可以在同一个起跑线上公平竞争了。对于普通用户来说这项研究的价值也是实实在在的。当你使用各种修图应用时那些在CREval测试中表现出色的AI模型很可能会给你带来更好的使用体验。比如如果你想把自己的照片变成动漫风格的头像选择在艺术风格转换任务中得分较高的模型成功率会大大提升。更重要的是CREval系统揭示了当前AI修图技术的真实水平和主要短板。研究结果显示虽然现在的AI已经能够完成很多令人惊艳的创意修图任务但在保持原图关键特征这方面还有很大改进空间。这就像告诉整个行业大家的创意能力都不错但细节把控还需要加强。从技术发展的角度来看这项研究为未来的AI修图技术指明了几个重要方向。首先是如何更好地理解和执行复杂的创意指令特别是那些涉及多个要求的综合性任务。其次是如何在进行大幅度风格转换的同时精准保留那些对识别度至关重要的原图特征。最后是如何提升生成图像的整体质量减少那些明显的技术瑕疵。对于AI研究者和开发者来说CREval提供了一个宝贵的研究工具。他们不再需要依赖主观判断或者简陋的评测方法而是可以使用这套经过严格验证的评分系统来客观地评估自己的技术进展。这就像科学研究有了精确的测量仪器能够更准确地发现问题和验证改进效果。这项研究也为整个人工智能领域的评测方法论贡献了新的思路。传统的AI评测往往依赖于黑盒子式的整体打分而CREval展示了如何通过问答式的结构化评测来实现透明化和可解释性。这种方法不仅适用于图像编辑也可以推广到其他需要复杂评测的AI应用领域。从商业角度来看这套评测标准有望推动整个AI修图市场的健康发展。用户可以根据客观的评测结果来选择最适合自己需求的产品而不是被夸大的宣传所误导。这种透明化的竞争环境最终会促使所有厂商都专注于提升真正的技术实力而不是在营销上做文章。研究团队在论文中也诚实地指出了当前系统的一些局限性。比如AI评委在判断细微的视觉质量问题时还不够敏感这就是为什么在最终评分中视觉质量的权重相对较低。随着未来AI技术的进步这些权重可能需要相应调整。另外当前的评测主要针对静态图像对于视频编辑、动态效果等更复杂的应用场景还需要进一步扩展。但这项研究已经为这些未来的发展奠定了坚实的基础就像建房子先打好了地基一样。说到底这项研究最大的价值在于它让AI修图技术的发展变得更加透明和有据可循。以前大家都在摸着石头过河现在终于有了明确的方向指引。对于整个AI行业来说这种严谨的评测方法论和开放的研究态度正是推动技术进步和行业健康发展的关键因素。未来当你再次使用AI修图应用时或许可以留意一下这些应用背后的技术在CREval测试中的表现。那些得分更高的模型很可能会给你带来更加满意和稳定的使用体验。而对于那些正在开发AI修图技术的团队来说CREval就像一面明镜让他们能够清楚地看到自己技术的优势和不足从而更有针对性地进行改进和优化。QAQ1CREval评分系统是如何工作的ACREval就像三位专业评委组成的评审团分别从指令跟随度、视觉一致性和视觉质量三个角度来评判AI修图作品。它不是简单打个总分而是通过具体的问答形式来检查每个方面比如人物特征是否保留、风格转换是否到位等最后根据答对问题的比例来计算得分。Q2目前哪些AI修图模型表现最好A在CREval测试中Seedream 4.0表现最佳总分83.43分是个全能型选手。令人惊喜的是开源模型Qwen-Image-Edit-2509以79.78分排名第二甚至超过了知名的GPT-Image-1。Gemini 2.5 Flash Image排第三得分81.34分。Q3AI修图技术现在还存在哪些问题A研究发现目前AI修图的最大问题是视觉一致性不够好也就是在修图过程中经常丢失原图的重要特征比如把人改得认不出来了。另外在处理复杂创意任务时很多模型还容易出现不自然的效果或技术瑕疵。不过整体来说AI修图技术已经相当成熟能够完成很多令人惊艳的创意任务。