<p class="ql-block">以《送别》李叔同,歌词配图为例讨论。</p> 01 简单提示词 <p class="ql-block">一,用《送别》歌词原始词提示</p> <p class="ql-block">二,借助deepseek生成提示词。图像水平有提高。不过由于李叔同原来的歌词意境已经可以,所以也没有达到显著优势。</p> <p class="ql-block">取第二张。青山,白云,山水画,淡雅色调,留白构图。</p> <p class="ql-block">三,再改进。加上长城、烽火台。自由发挥。</p> <p class="ql-block">长城烽火台换成沙漠、戈壁滩、骆驼队。这些理解很难说一定是到位的,但标准在哪里,恐怕说不清楚。 </p> <p class="ql-block">戈壁滩上驼铃响</p> <p class="ql-block">如果故事发生在我国南方呢,那提示词又得修改,可能的提示词是“茶马古道“。</p> 02 图片可控性讨论 <p class="ql-block">以下是一些关于即梦AI图片生成可控性的参考意见:</p> <p class="ql-block">我们不妨把提示词和结果的关系,大体上看作是一个多元函数。</p><p class="ql-block"> 多元函数中我们把提示词看成x₁,x₂,......,等是自变量, 结果Z是应变量。当自变量x 是多个时,这个多元函数要得出一个确定的结果,显然是一个非常困难的任务。</p> <p class="ql-block">一、文本提示的优化</p><p class="ql-block">• 精准描述:用户需要提供清晰、准确且详细的文本提示,明确指出想要生成的图像内容、风格、场景等要素。例如,如果想要生成一幅具有未来感的科幻城市景观图,可以描述为“未来感十足的科幻城市,夜晚,霓虹灯闪烁,高楼大厦林立,飞行汽车在空中穿梭,赛博朋克风格”。</p> <p class="ql-block">二、 细节补充:增加对细节的描述,有助于模型更好地理解用户需求,从而生成更符合预期的图像。比如在生成人物肖像时,除了说明人物的性别、年龄、发型等基本信息外,还可以补充人物的服饰风格、表情神态、背景环境等细节。</p><p class="ql-block">• 避免歧义:尽量使用简洁明了的语言,避免使用模糊或容易产生歧义的词汇。例如,不要简单地说“一个大的物体”,而应该具体说明是“一个直径为1米的圆形气球”。</p> 03 模型自身的特点和局限 <p class="ql-block">接写出函数与自变量的关系: z = f(x_1, x_2, \dots, x_n) 例子:</p> <p class="ql-block">• 训练数据的影响:即梦AI的生成效果受到其训练数据的限制。如果训练数据中某一风格或类型的图片较少,那么在生成该风格的图像时,可能会出现效果不佳或不符合预期的情况。【为什么年轻女性的画面比较多,老年男性的画面显然比较少】</p><p class="ql-block">• 多条件控制的挑战:当同时引入多个控制条件时,可能会出现条件之间的冲突,从而影响生成图像的质量和可控性。例如,同时指定人物的姿态和动作,可能会导致生成的图像在姿态和动作的准确性上出现偏差。</p><p class="ql-block">• 模型更新和优化:即梦AI不断进行版本更新和优化,以提升图片质量和可控性。用户可以关注其最新版本的功能改进和优化内容,以便更好地利用该工具。</p><p class="ql-block">可控性提升的技术方向</p><p class="ql-block">• 动态条件组合:像DynamicControl这样的框架,通过自适应地选择不同条件,实现了动态多控制对齐,显著增强了图像生成的可控性。即梦AI可以借鉴这种思路,进一步优化其条件控制机制。</p><p class="ql-block">• 多模态融合:未来图像生成模型需要更好地融合文本、图像、语音等多模态信息,实现跨模态的高效生成与控制。即梦AI可以探索如何更好地利用多模态信息来提升图片生成的可控性,例如通过语音指令辅助生成图像。</p><p class="ql-block">• 损失函数的改进:通过改进损失函数,如结合像素级一致性损失和扩散训练损失,可以在提高控制性的同时不损害图像质量。即梦AI可以在模型训练过程中,进一步优化其损失函数的设计。</p> 04 用户反馈和社区交流 <p class="ql-block">• 反馈机制:用户可以通过即梦AI的反馈渠道,及时向开发团队反馈生成图像中的问题或不满足预期的地方。开发团队可以根据用户的反馈,对模型进行针对性的优化和改进。</p><p class="ql-block">• 社区交流:参与即梦AI的用户社区,与其他用户交流使用经验和技巧。在社区中,用户可以分享自己成功的文本提示案例,也可以讨论如何解决生成图像时遇到的问题,共同探索提升可控性的方法。</p> 05 进一步讨论 <p class="ql-block">这是一个很复杂的话题。</p><p class="ql-block"><a href="https://www.meipian.cn/5bihcb7f" target="_blank">"AI 提示语"是"程序设计语言" 吗?我与deepseek的有趣对话</a></p>