文生图实操:从需求到成图的完整记录

aigc研究所
4分钟阅读
上周接了个活,要给一个古风小说做配图。编辑给了几段场景描述,让我出几张插画风格的图。以前这种活我都是找画师约稿,这次想试试AI能不能搞定。

朋友推荐了海艺AI,说中文提示词支持得不错。我用的是网页版(www.haiyi.art),电脑操作方便,国内直连不用折腾。

需求拆解

编辑给的第一段描述是:"女主角站在桃花林中,穿着淡粉色襦裙,手里拿着一把纸伞,阳光透过花瓣洒下来。"

我把这段话直接当提示词试了一下,看看AI能理解到什么程度。

第一次尝试

打开文生图界面,把描述粘贴进去,其他参数都用默认,点生成。大概15秒出了4张图。

效果比我预期的好:桃花林场景有了,人物穿着襦裙,手里确实拿着伞。但有个问题——风格不太对,出来的图偏写实,不是我要的插画风格。

调整模型

我意识到问题出在模型上。默认模型是通用的,我需要的是古风插画风格。

打开模型库,按风格筛选。模型资源很多,80万+,新手可能需要花点时间挑选。我直接选了"古风"分类,找了一个评分高的古风插画模型。

同样的提示词,换了模型后再生成。这次出来的图风格对了,水墨感的古风插画,人物服饰细节也更精致。

细化提示词

编辑看了图,觉得整体不错,但希望人物表情更温柔一些,光影效果再强一点。

我在提示词里加了几个描述:"温柔的微笑"、"阳光透过花瓣形成光斑"、"柔和的光影"。

中文直接写就行,不用翻译成英文。有个提示词润色功能,可以自动优化描述,我试了一下,它会补充一些画面细节,出图效果更丰富。

参数微调

出图效果基本满意了,但我想要更高的画质。调了两个参数:

  • 采样步数:从默认的20调到40,细节更丰富
  • CFG Scale:调到9,让画面更贴合提示词描述

生成时间稍微长了一点,大概20秒出4张,但画质明显提升。

局部修复

4张图里有一张构图特别好,但人物的手有点问题——手指数量不太对。

用了局部重绘功能:框选手部区域,写上"正常的手,五根手指",只重新生成这个区域,其他部分保持不变。试了两次就修好了。

放大输出

编辑要求图片分辨率高一些,用于印刷。我用超清重绘功能把图放大到4倍,输出接近4K分辨率。放大后看细节,发丝纹理、服饰褶皱都很清晰,没有模糊。

后续几张图

第一张搞定后,后面几张就顺手了。编辑又给了几段场景描述:

  • "男主角站在城楼上,披着黑色披风,俯瞰夜色中的城池"
  • "两人在月下对饮,桌上摆着酒壶和几碟小菜"
  • "女主角在雪中舞剑,红衣飘飘"

我按同样的流程:中文描述→选古风模型→调参数→局部修复→放大输出。每张图从开始到交付大概20-30分钟,比约画师快多了。

多人场景的处理

"月下对饮"那张涉及两个人物,我担心会出现穿模或者人物混乱的问题。实际生成下来,两个人物分得很清楚,没有穿模。面部稳定性也不错,五官比例正常。

风格一致性

编辑要求这几张图风格要统一,毕竟是同一本书的配图。我用了角色库功能,把第一张图的女主角形象保存下来,后面生成时调用同一个角色,保持人物外观一致。

进阶尝试

交完稿后我又研究了一下其他功能:

  • 图生图:用已有的图作为参考,生成相似风格的新图。适合需要同系列图片的场景
  • ControlNet:可以用姿态图控制人物动作,用线稿控制构图。这个功能学习成本稍高,但控制精度很强
  • LoRA:可以训练自定义风格。如果长期做同一种风格的图,可以训练一个专属模型

ControlNet和LoRA这些进阶功能需要花时间研究,但基础的文生图流程零门槛,打字就能出图。

费用

整个过程没花钱,目前限时免费,不限生成次数。普通用户导出有水印,无水印需要会员。没有开放API。

总结

这次从接需求到交付,整体流程比我预期顺畅:

  • 中文提示词直接写,AI理解得不错
  • 模型选对了,风格还原度很高
  • 人物稳定性可以,手脸基本不崩,偶尔有问题用局部重绘修
  • 画质支持到4K,细节经得起放大

对于有明确需求、需要快速出图的场景,文生图确实能提效。当然,如果是特别复杂的创意或者需要极高艺术性的作品,可能还是需要专业画师。但日常配图、概念设计、快速验证想法这些场景,AI出图够用了。

本文基于实测数据

目录

登录引导