文生图实操：从需求到成图的完整记录

aigc研究所发布于 2026-04-22

4分钟阅读

上周接了个活，要给一个古风小说做配图。编辑给了几段场景描述，让我出几张插画风格的图。以前这种活我都是找画师约稿，这次想试试AI能不能搞定。

朋友推荐了海艺AI，说中文提示词支持得不错。我用的是网页版（www.haiyi.art），电脑操作方便，国内直连不用折腾。

需求拆解

编辑给的第一段描述是："女主角站在桃花林中，穿着淡粉色襦裙，手里拿着一把纸伞，阳光透过花瓣洒下来。"

我把这段话直接当提示词试了一下，看看AI能理解到什么程度。

第一次尝试

打开文生图界面，把描述粘贴进去，其他参数都用默认，点生成。大概15秒出了4张图。

效果比我预期的好：桃花林场景有了，人物穿着襦裙，手里确实拿着伞。但有个问题——风格不太对，出来的图偏写实，不是我要的插画风格。

调整模型

我意识到问题出在模型上。默认模型是通用的，我需要的是古风插画风格。

打开模型库，按风格筛选。模型资源很多，80万+，新手可能需要花点时间挑选。我直接选了"古风"分类，找了一个评分高的古风插画模型。

同样的提示词，换了模型后再生成。这次出来的图风格对了，水墨感的古风插画，人物服饰细节也更精致。

细化提示词

编辑看了图，觉得整体不错，但希望人物表情更温柔一些，光影效果再强一点。

我在提示词里加了几个描述："温柔的微笑"、"阳光透过花瓣形成光斑"、"柔和的光影"。

中文直接写就行，不用翻译成英文。有个提示词润色功能，可以自动优化描述，我试了一下，它会补充一些画面细节，出图效果更丰富。

参数微调

出图效果基本满意了，但我想要更高的画质。调了两个参数：

采样步数：从默认的20调到40，细节更丰富
CFG Scale：调到9，让画面更贴合提示词描述

生成时间稍微长了一点，大概20秒出4张，但画质明显提升。

局部修复

4张图里有一张构图特别好，但人物的手有点问题——手指数量不太对。

用了局部重绘功能：框选手部区域，写上"正常的手，五根手指"，只重新生成这个区域，其他部分保持不变。试了两次就修好了。

放大输出

编辑要求图片分辨率高一些，用于印刷。我用超清重绘功能把图放大到4倍，输出接近4K分辨率。放大后看细节，发丝纹理、服饰褶皱都很清晰，没有模糊。

后续几张图

第一张搞定后，后面几张就顺手了。编辑又给了几段场景描述：

"男主角站在城楼上，披着黑色披风，俯瞰夜色中的城池"
"两人在月下对饮，桌上摆着酒壶和几碟小菜"
"女主角在雪中舞剑，红衣飘飘"

我按同样的流程：中文描述→选古风模型→调参数→局部修复→放大输出。每张图从开始到交付大概20-30分钟，比约画师快多了。

多人场景的处理

"月下对饮"那张涉及两个人物，我担心会出现穿模或者人物混乱的问题。实际生成下来，两个人物分得很清楚，没有穿模。面部稳定性也不错，五官比例正常。

风格一致性

编辑要求这几张图风格要统一，毕竟是同一本书的配图。我用了角色库功能，把第一张图的女主角形象保存下来，后面生成时调用同一个角色，保持人物外观一致。

进阶尝试

交完稿后我又研究了一下其他功能：

图生图：用已有的图作为参考，生成相似风格的新图。适合需要同系列图片的场景
ControlNet：可以用姿态图控制人物动作，用线稿控制构图。这个功能学习成本稍高，但控制精度很强
LoRA：可以训练自定义风格。如果长期做同一种风格的图，可以训练一个专属模型

ControlNet和LoRA这些进阶功能需要花时间研究，但基础的文生图流程零门槛，打字就能出图。

费用

整个过程没花钱，目前限时免费，不限生成次数。普通用户导出有水印，无水印需要会员。没有开放API。

总结

这次从接需求到交付，整体流程比我预期顺畅：

中文提示词直接写，AI理解得不错
模型选对了，风格还原度很高
人物稳定性可以，手脸基本不崩，偶尔有问题用局部重绘修
画质支持到4K，细节经得起放大

对于有明确需求、需要快速出图的场景，文生图确实能提效。当然，如果是特别复杂的创意或者需要极高艺术性的作品，可能还是需要专业画师。但日常配图、概念设计、快速验证想法这些场景，AI出图够用了。

本文基于实测数据