学院来信907：AI大模型

TK

在AI大模型时代，无监督、半监督训练成为主流。AI模型的训练方法主要包括监督学习、半监督学习、无监督学习三种方式。监督学习与无监督学习的主要区别在于是否使用带人工标注的数据，半监督学习则是使用大量未标注数据+少量标注数据进行训练。 目前，“基础模型+微调”成为主流，RLHF（Reinforcement Learning from Human Feedback，从人类反馈中学习强化学习）技术催生了更高要求的数据标注需求。简单来说，大规模基础模型为AI提供了基础知识，微调则是让AI获得特定领域知识，并赋予其组织、应用知识的能力。在传统的强化学习中，智能体通过与环境交互，根据奖励信号来学习策略。这个过程主要分三个阶段： 阶段一：预训练阶段。模型先在标注完备的大数据集上进行预训练，得到监督学习模型。 阶段二：交互奖励阶段。模型与人工智能训练师交互，专业标注人员会对AI的回答进行标注、评估和反馈，给出对应的分数或标签。这些标注数据可以作为“奖励函数”来指导AI进行参数调整，得到奖励模型。 阶段三：迭代优化阶段。基于奖励模型微调监督学习模型，持续迭代生成模型，不断优化。 结合Mid Journey这个绘画工具进行说明（参考学院来信884：设计一个新游戏角色），其基本工作原理是，用户在绘画过程中输入指令，然后AI模型会根据用户指令进行预测，并生成4张图片。 用户再通过点击AI模型提供的图片，向AI模型提供反馈，包括点赞、生成高清图片、基于某张图片再生成4张图、继续输入新指令等。如果AI模型提供了一个不合适的预测，用户也可以通过 "dislike"告诉AI这个预测是错的。在得到反馈后，AI模型可以根据反馈来更新自己的模型，以更好地预测下一步的行动，从而达到“越用越强”的效果。 这种方法的优点是，用户可以轻松地创造自己喜欢的艺术作品，同时AI模型也能从用户反馈中学习如何更好地模仿人类的绘画技巧和风格。这样用户就不必学习复杂的绘画技巧，也不必依赖于AI模型的简单奖励函数，就能够创造出自己的艺术作品。 结语。 伴随业界大模型市场竞争的白热化，RLHF（从人类反馈中学习强化学习）系统也将得到进一步的推广使用，这会催生两大需求： ①预训练阶段对专业化场景数据集的需求，包括绘画、下棋、写作等一系列专业化数据。 ②交互奖励阶段对具备专业的事实判断与价值判断的人工智能训练师的需求。 “价值判断”是很重要的，尤其是对拥有不同文化的国家和地区，通过AI工具夹带私货要比电影、短视频夹带私货要高效的多。此外，聚焦专业垂类的模型训练师则更为稀缺。 祝大家生活愉快。 参考资料： 1.Mid Journey. (n.d.). Paint with AI. Retrieved fromhttps://midjourney.com/paint-with-ai/ 2.Bi, T., Chen, Y., Guo, H., & Xie, T. (2021). Interactive Reinforcement Learning with Human in the Loop: A Survey. arXiv preprint arXiv:2106.03181. 3.Wang, T., Wang, L., & Chen, Y. (2018). Interactive Reinforcement Learning: Framework, Applications, and Challenges. arXiv preprint arXiv:1804.06459.