<p class="ql-block">以下是DeepSeek的实用操作指南:</p><p class="ql-block"> 【前期准备】</p><p class="ql-block"> - 注册登录:访问DeepSeek官网,可使用手机号注册或微信扫码登录。注册时使用.edu邮箱可获7天专业版试用。</p><p class="ql-block">- 熟悉界面:登录后,界面顶部是菜单栏,包含新建对话、历史记录、个人设置等选项;中间是对话输入框和输出区域;底部可能有快捷功能按钮,如切换模式、查看帮助文档等。</p><p class="ql-block"> 【基础操作】</p><p class="ql-block"> - 提问方式:采用结构化提问,公式为“背景说明+具体需求+输出要求”。例如“我正在准备区块链技术的毕业论文(背景),需要关于智能合约安全漏洞的案例分析(需求),请用Markdown格式列出近三年典型事件并附CVE编号(要求)”。</p><p class="ql-block">- 文件处理:上传PDF文件后可添加指令,如“/analyze pages=1-5 keywords=机器学习”来获取关键段落定位、专业术语解释等。对于Excel数据,可直接粘贴数据并请求代码,如“请分析附件销售数据,计算各区域季度增长率,输出前10%客户贡献度,并生成折线图代码(使用Plotly)”。</p><p class="ql-block"> 【进阶技巧】</p><p class="ql-block"> - 记忆功能:使用会话标签管理,如“#毕业论文2023”标记相关对话,支持跨会话调用历史数据。还可通过“/teach”指令训练专属模型,如“/teach我的研究领域:量子计算,常用术语:超导量子比特、退相干时间,禁用词汇:区块链、元宇宙”。</p><p class="ql-block">- 混合模式:可同时执行多个任务,如“@DeepSeek请同时执行:检索arXiv最新量子论文(英文),总结核心贡献(中文),对比我2023-07-15上传的模型(自动调用历史文件),输出对比表格+可行性建议”。</p><p class="ql-block">- 隐藏功能:添加“/show_reasoning”查看AI推理过程;使用“/alt 3”获取3种不同风格的解决方案;输入“/check”自动检测陈述事实的可信度。</p><p class="ql-block"> 【效率提升】</p><p class="ql-block"> - 并行处理:打开3个独立会话窗口分别处理不同任务。</p><p class="ql-block">- 预制指令集:创建常用工作流模板,如“/论文模式”。</p><p class="ql-block">- API接入:通过Python脚本批量处理数据分析需求。</p><p class="ql-block"> 【注意事项】</p><p class="ql-block"> - 信息长度:单次提问建议小于500字,超出部分可能被截断。</p><p class="ql-block">- 时效性:涉及最新政策、股价等实时数据需添加时间限定。</p><p class="ql-block">- 版权问题:学术引用自动添加“该内容由DeepSeek生成,引用需注明出处”。</p><p class="ql-block">- 数据安全:敏感信息需脱敏处理,重要文件上传前加密压缩,对话记录定期导出清理。</p> <p class="ql-block">【豆包AI】(一)</p><p class="ql-block"> 豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页 Web 平台, Windows/macOS 电脑版客户端,iOS 以及安卓平台。</p><p class="ql-block"> 2016年,字节跳动公司成立人工智能实验室AI Lab,聚焦于自然语言处理、机器学习、数据挖掘等方面的研究。</p><p class="ql-block"> 2023年8月17日,豆包开始小范围邀请测试,用户可通过手机号、抖音或者Apple ID登录。</p><p class="ql-block"> 2024年5月15日,字节跳动产品和战略副总裁朱骏在2024春季火山引擎Force原动力大会上表示,豆包APP总下载量达1亿次,豆包大模型将开启商业化模式,价格相比同行便宜99.3%,定价0.0008元/千Tokens;8月8日,豆包上线音乐生成功能;10月10日,豆包发布首款AI智能体耳机Ola Friend;11月7日,豆包正式推出视频生成内测;12月3日,豆包已上线图片理解功能。</p><p class="ql-block"> 2025年1月19日,豆包海外版Gauth: AI Study Companion在美国停服。</p><p class="ql-block"> 3月4日,豆包大模型团队宣布开源SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。</p><p class="ql-block"> 3月28日消息,豆包测试了新版深度思考功能,支持边想边搜。</p><p class="ql-block">【发展历程】</p><p class="ql-block"> 2016年,字节跳动公司成立人工智能实验室AI Lab,聚焦于自然语言处理、机器学习、数据挖掘等方面的研究。2023年8月17日,字节跳动旗下LLM人工智能机器人豆包开始小范围邀请测试,用户可通过手机号、抖音或者Apple ID登录。</p><p class="ql-block"> 2024年5月15日,字节跳动产品和战略副总裁朱骏在2024春季火山引擎Force原动力大会上表示,豆包APP总下载量达1亿次,豆包大模型将开启商业化模式,价格相比同行便宜99.3%,定价0.0008元/千Tokens。大模型的“token”是指在自然语言处理任务中,模型所使用的输入数据的最小单元。这些token可以是单词、子词或字符等;8月8日,豆包上线音乐生成功能,用户可以在豆包“音乐生成”中输入主题或歌词,设定音乐风格、情绪及音色,便能快速生成一首约1分钟的词曲,并支持一键分享至抖音等社交平台。</p><p class="ql-block"> 2024年9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,火山引擎总裁谭待宣布推出豆包·视频生成模型。两款新发布的大模型分别是豆包视频生成-PixelDance和豆包视频生成-Seaweed,这两款大模型的发布意味着字节跳动首次正式宣告进军AI视频生成;10月10日,豆包发布首款AI智能体耳机Ola Friend,该耳机与豆包APP深度结合,是豆包在AI场景下的探索和尝试。</p><p class="ql-block"> 2024年11月7日,豆包正式推出视频生成内测,这意味着继快手、商汤、Minimax等公司后,字节跳动正式杀入AI视频生成领域。豆包视频生成模型基于DiT架构,通过融合计算单元,使得视频在大动态与运镜中自由切换,并且支持多风格多比例的一致性多镜头生成,可应用在电商营销、动画教育、城市文旅、微剧本等领域;12月3日,豆包上线图片理解功能。</p><p class="ql-block"> 截至12月18日,豆包大模型日均tokens使用量超过4万亿。</p><p class="ql-block"> 2025年1月消息,豆包大语音模型成为首家“引领级”通过中国信通院语音大模型能力评估的产品。</p><p class="ql-block"> 2月13 日消息,莲花跑车中国官方发文宣布,豆包AI助手将上车,宣称“原生能力深度融合”。</p><p class="ql-block">.3月,汤姆猫接受机构调研时表示,在底层模型上,汤姆猫AI情感陪伴机器人产品采用MoE(混合专家模型)架构,搭载了公司与西湖心辰定制的“汤姆猫情感陪伴垂直模型”,同时也调用了豆包、DeepSeek等模型的部分能力,有效增强了产品的意图识别、响应速度、数学能力等功能。</p><p class="ql-block"> 2025年3月4日,豆包大模型团队宣布开源SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。该数据集构建了覆盖 285 个研究生级学科、包含 26529 道专业问题的评估体系,不仅涵盖主流学科,更将轻工业、农业、服务科学等长尾学科纳入其中,展现出全面学科的覆盖广度,填补了长尾知识评估领域的空白。如今,SuperGPQA 已被用于揭示开源模型与闭源方案之间的显著性能差距,为 AI 发展提供了关键评估工具和跨学科分析框架。</p><p class="ql-block">2025年3月,据报道,抖音App于近期测试接入豆包App的AI能力,并且在抖音App内为豆包App开放了两个超级入口,一个位于短视频界面,与点赞、评论、转发等功能处于同一竖列;另外一个入口则位于抖音App的消息列表内。</p><p class="ql-block"> 2025年3月12日,豆包大模型团队正式发布文生图技术报告,首次公开Seedream 2.0图像生成模型技术细节,覆盖数据构建、预训练框架、 后训练RLHF全流程。</p> <p class="ql-block">【豆包AI】(二)</p><p class="ql-block"> 2025年3月28日消息,豆包测试了新版“深度思考”功能,该功能将推理过程的思维链与搜索深度结合,支持“边想边搜”。</p><p class="ql-block"> 4月17日消息,豆包深度思考和文生图3.0模型已通过火山引擎正式开放API,供开发者和企业客户使用。</p><p class="ql-block"> 4月19日消息,字节跳动推出文本生成图像模型Seedream 3.0,文生图跑分超 GPT-4o。字节跳动计划未来将 Seedream 3.0 集成至“豆包”。</p><p class="ql-block"> 2025年4月23日消息,近期字节AI产品部门Flow旗下发生产品调整:社交陪伴类AI产品猫箱原负责人梁琛奇已离开字节跳动;猫箱负责人由原星绘产品负责人西原(花名)接任;同时,星绘团队计划并入豆包,将由豆包App端负责人陆游(花名)一起管理。</p><p class="ql-block"> 2024年,字节跳动发布豆包海外版--Cici AI海外版智能聊天助手应用。10月,Cici AI位列全球AI应用Top20。</p><p class="ql-block"> 2025年5月23日,豆包宣布在 App 端上线实时视频通话功能,用户在“打电话”界面点击视频按钮即可开启视频通话,支持基于真实场景与用户进行实时问答互动。</p><p class="ql-block"> 2025年6月17日,豆包电脑版已全量上线AI播客功能。用户上传PDF或网页链接后,可一键生成双人对话的播客节目,语音效果高度拟人,对话流畅、自然。 该能力基于豆包大模型团队推出的语音播客模型。</p><p class="ql-block"> 2025年6月30日,豆包公众号宣布,“深入研究”功能已经在豆包 App、网页端、电脑版正式开启测试,用户可免费体验。“深入研究”可快速、全面处理高难度复杂任务,支持报告文档、可视化网页两种方式呈现研究结果。其适用场景包括长途旅行攻略、复杂购买决策、最新政策解读、商业科技趋势发展等所有需要海量、深度信息才能解决的问题。</p><p class="ql-block">【研发团队】</p><p class="ql-block"> 豆包备案信息为北京春田知韵科技有限公司,该公司成立于2023年7月26日,注册资本100万元,法定代表人为严林,由北京抖音信息服务有限公司全资持股,经营范围含计算机系统服务、数据处理服务、软件开发、数字内容制作服务、网络文化经营等。</p><p class="ql-block"> 字节机器人团队隶属于字节AI Lab,其负责人是AI Lab总监李航。李航于2017年加入字节,向字节副总裁、算法技术负责人杨震原汇报,曾担任华为诺亚方舟实验室主任和首席科学家。</p><p class="ql-block">【功能服务】</p><p class="ql-block"> 豆包具有提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息。</p><p class="ql-block"> 豆包算法是一种基于Transformer架构的语言模型,通过前文预测下一个最可能的词语来实现文本生成。</p><p class="ql-block"> 当用户向豆包提出问题后,豆包会识别用户的需求,通过预先学习与全网搜索内容,在对话框中或落地页中展示对应的结果。</p><p class="ql-block"> 打开 doubao.com,选择“AI 播客”,上传 PDF 文件或添加网页链接,即可生成一段双人对话播客。</p><p class="ql-block">据介绍,豆包播客的语音效果十分自然,可以模拟真人播客口语习惯,停顿、附和等细节恰到好处,去除了生硬的机器感。</p><p class="ql-block"> 工作时,可将行业报告或竞品分析链接发给豆包,立刻生成一段通俗易懂的播客。学习中,可将课程知识点等基础资料交给豆包,把文字变成对话播客,随时随地“听学习”。</p><p class="ql-block">【配置要求】</p><p class="ql-block"> 豆包支持网页Web平台,iOS以及安卓平台,但iOS需要使用TestFlight安装,用户可通过手机号、抖音或者Apple ID登录。</p><p class="ql-block">【产品争议】</p><p class="ql-block"> 2024年12月10日,有报道曝光了一位网友被陌生人用AI搜出微信号的经历。该网友称,陌生人在字节跳动旗下AI产品豆包中输入她的名字和学校后,豆包显示了她的微信账号,并通过该微信号联系到她本人。对此,豆包相关负责人回复,网友反馈的情况,是豆包基于互联网上公开信息进行搜索和智能整合,此类联系方式通过搜索引擎也能够搜到。豆包已对询问个人信息类提示词进行优化,保证即使网上有公开信息的情况下,仍然限制相关信息的露出,做好个人隐私信息的保护。后续,豆包还会继续优化产品策略,避免对用户造成类似的误解和困扰。</p><p class="ql-block">【停服事件】</p><p class="ql-block"> 当地时间2025年1月19日,苹果美国官网发布《关于TikTok及字节跳动有限公司应用程序在美国的可用性》声明指出,声明称,苹果有义务遵守其运营所在司法辖区的法律。根据相关法案,自2025年1月19日起,字节跳动及其子公司开发的应用程序,包括豆包:AI学习伙伴(Gauth: AI Study Companion)等,将不再可供美国用户在App Store上下载或更新。</p><p class="ql-block">【社会影响】</p><p class="ql-block"> 2025年3月,中国经营报发表《官宣:停止运营!大模型革了翻译软件的命》一文表示,因受到包括DeepSeek、字节豆包、阿里通义等大模型影响,传统单一翻译软件停止运营。</p> <p class="ql-block">【智谱清言AI】</p><p class="ql-block"> 智谱清言,是北京智谱华章科技有限公司推出的生成式AI助手,于2023年8月31日正式上线。</p><p class="ql-block"> 2024年8月29日,智谱清言APP支持视频通话功能。</p><p class="ql-block"> 智谱清言基于智谱AI自主研发的中英双语对话模型ChatGLM2;其通用问答功能可以准确及时地回答涵盖多个领域的各类问题;可与用户进行自然、流畅的交流;它能根据用户需求模拟不同角色,以增强互动性和提升用户体验。对于创意写作,智谱清言能用户提供创意灵感、内容框架及优质文案,助力提高写作效率与质量。还支持多种编程语言进行开发和调试,帮助用户理解代码、解决编程问题。</p><p class="ql-block"> 2025年1月,智谱清言的月活跃用户数为702万,居国内AI产品的第7位。</p><p class="ql-block"> 截止于2025年2月25日,智谱清言在App Store的效率类版单中位于第19名。</p><p class="ql-block"> 2025年3月3日消息,大模型独角兽智谱完成新一轮金额超10亿元人民币的战略融资。</p><p class="ql-block"> 3月4日,智谱清言发布首个支持生成汉字的开源文生图模型——CogView4。</p><p class="ql-block">软件名称</p><p class="ql-block">智谱清言</p><p class="ql-block">上线时间</p><p class="ql-block">2023年8月31日1</p><p class="ql-block">总部地点</p><p class="ql-block">北京市海淀区中关村东路1号院9号楼10层整层</p><p class="ql-block">开发商</p><p class="ql-block">北京智谱华章科技有限公司</p><p class="ql-block">【发展历程】</p><p class="ql-block"> 2023年8月31日,“智谱清言”上线,用户可通过手机应用商店下载或在微信小程序平台使用。</p><p class="ql-block"> 2024年7月26日,AI生成视频模型清影(Ying)上线智谱清言,30秒的时间可生成6秒视频。7月26日起所有C端用户,都能通过清影(Ying)体验到AI文生视频、图生视频能力。</p><p class="ql-block"> 8月29日,智谱GLM团队推出基座大模型GLM-4-Plus,同时宣布智谱清言APP更新:视频通话功能。</p><p class="ql-block"> 10月14日,智谱技术团队宣布开源文生图模型CogView3及CogView3-Plus-3B,该系列模型的能力上线“智谱清言”App。</p><p class="ql-block"> 12月17日,智谱清言完成新一轮三十亿元人民币融资。</p><p class="ql-block"> 2025年3月3日消息,大模型独角兽智谱完成新一轮金额超10亿元人民币的战略融资,参与投资方包括杭州城投产业基金、上城资本等,旨在推动智谱国产基座GLM大模型的技术创新和生态发展。</p><p class="ql-block"> 3月4日,智谱清言发布首个支持生成汉字的开源文生图模型——CogView4。</p><p class="ql-block">【功能服务】</p><p class="ql-block">通用问答:</p><p class="ql-block"> 此功能可以回答涵盖多个领域的各类问题,为用户提供及时且准确的信息和解决方案。</p><p class="ql-block">多轮对话:</p><p class="ql-block"> 该功能拥有优秀的对话能力,可与用户进行自然、连续的多轮对话,从而实现高效的沟通体验。</p><p class="ql-block">虚拟对话:</p><p class="ql-block"> 此功能可根据用户需求模拟不同的角色,包括专业人士、故事角色等,以此提高互动性和用户体验。</p><p class="ql-block">创意写作:</p><p class="ql-block"> 该功能可以为用户提供创意灵感、内容框架以及优质文案等,以满足各类创作需求,进而提高写作效率和质量。</p><p class="ql-block">代码生成:</p><p class="ql-block"> 此功能支持使用多种编程语言进行开发和调试,能够协助用户理解代码、解决编程问题或提供编程方面的建议。</p><p class="ql-block">核心技术:</p><p class="ql-block"> 智谱清言基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。</p><p class="ql-block">核心团队:</p><p class="ql-block"> 智谱AI的核心团队主要来自清华大学KEG(知识工程)实验室。</p><p class="ql-block">刘德兵</p><p class="ql-block">智谱AI董事长</p><p class="ql-block">张鹏</p><p class="ql-block">智谱AI首席执行官 </p><p class="ql-block">王绍兰</p><p class="ql-block">智谱AI总裁</p><p class="ql-block">重要事件:</p><p class="ql-block"> 2023年3月,竹间智能和中科曙光共同研发千亿级大模型“360GLM”,采用了类似“微软+OpenAI”的合作模式,将大模型与应用场景相结合。</p><p class="ql-block"> 2025年1月15日,美国商务部工业和安全局将智谱列入实体清单。</p><p class="ql-block"> 2025年2月11日,智谱和三星基于Agentic GLM展开合作,将Agent体验带到三星最新手机Galaxy S25系列上,支持基于AI的实时语音和视频通话,以及实现视觉理解和系统功能调用、AI搜索、文案写作等功能,智谱旗下C端产品智谱清言及清言智能体平台登陆Galaxy S25系列。</p><p class="ql-block"> 2025年5月20日,国家网络与信息安全信息通报中心发布通告,经公安部计算机信息系统安全产品质量监督检验中心检测,“智谱清言(版本 2.9.6)”等存在实际收集的个人信息超出用户授权范围。</p><p class="ql-block">影响评价:</p><p class="ql-block"> 智谱AI是最有可能成为“中国OpenAI”的5家企业之一。(硅谷科技媒体The Information 评)</p> <p class="ql-block">【Kimi/AI】</p><p class="ql-block"> Kimi是北京月之暗面科技有限公司于2023年10月9日推出的一款智能助手,主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等,是全球首个支持输入20万汉字的智能助手产品。</p><p class="ql-block"> Kimi在二级市场一度复现了ChatGPT“带货能力”的势头,引发了一众“Kimi概念股”狂飙猛涨。6</p><p class="ql-block"> 2024年3月18日,Kimi智能助手启动200万字无损上下文内测。</p><p class="ql-block"> 3月21日,Kimi因流量突然剧增无法正常使用。</p><p class="ql-block"> 2024年4月18日,月之暗面官宣旗下Kimi智能助手更新。</p><p class="ql-block"> 4月24日,月之暗面宣布Kimi大模型学会“使用工具”了,API已支持Tool Calling功能。</p><p class="ql-block"> 5月,Kimi推出付费打赏功能,开始试探C端付费意愿。</p><p class="ql-block"> 10月,月之暗面正式上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500个页面。</p><p class="ql-block"> 2025年7月11日,北京月之暗面科技有限公司发布Kimi K2模型,并同步开源两个模型版本。</p><p class="ql-block">【发展历程】</p><p class="ql-block">正式推出:</p><p class="ql-block"> 2023年10月9日,北京月之暗面科技有限公司(Moonshot AI)宣布在“长文本”领域实现了突破,推出首个支持输入20万汉字的智能助手产品Kimi Chat。</p><p class="ql-block"> 10月10日,开放内测。</p><p class="ql-block"> 11月16日,Kimi Chat面向全社会开放服务。</p><p class="ql-block"> 2024年7月1日,月之暗面官宣 Kimi 开放平台上下文缓存(Context Caching)功能开启公测。官方表示,该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并提升模型响应速度。</p><p class="ql-block"> 2024年7月8日消息,据月之暗面消息,旗下大模型产品Kimi上线浏览器插件,有两个按钮:一个是点问笔,划选文字后就会出现;另一个是总结器,出现在网页右下角。</p><p class="ql-block"> 2025年1月15日,月之暗面旗下Kimi开放平台发布全新多模态图片理解模型moonshot-v1-vision-preview正式发布,该模型完善了moonshot-v1模型系列的多模态能力,具备图像识别、文字识别和理解能力。Vision模型实行按量计费方式,单张图片按1024tokens合并计算在Input请求的tokens用量中,根据模型不同,每1M tokens价格为12至60元人民币。</p><p class="ql-block">流量剧增:</p><p class="ql-block"> 2024年3月18日,月之暗面宣布Kimi智能助手启动200万字无损上下文内测。</p><p class="ql-block"> 截至3月19日,Kimi智能助手累计下载量突破50万次大关,过去一周日均下载量接近4万次,周环比提升4倍。</p><p class="ql-block"> 3月20日,AI应用主线爆发,下午,“Kimi概念股暴涨”等相关话题冲上微博热搜。</p><p class="ql-block"> 2024年4月18日,月之暗面官宣旗下Kimi智能助手更新:模型能力提升,更稳的基座能力;支持Kimi常用语,内置官方提示词;新增支持语音输入、输出、播报;支持搜索引用溯源。</p><p class="ql-block"> 4月24日,月之暗面宣布Kimi大模型学会“使用工具”,API已支持Tool Calling功能。</p><p class="ql-block"> 5月,Kimi推出付费打赏功能,开始试探C端付费意愿。</p><p class="ql-block">新版发布:</p><p class="ql-block"> 2024年10月,月之暗面正式上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500个页面。</p><p class="ql-block"> 2025年2月19日消息,Kimi开放平台宣布推出最新模型kimi-latest,该模型将对标Kimi智能助手当前使用的模型,并随智能助手产品更新而同步升级。</p><p class="ql-block"> 5月13日,月之暗面表示,加强了财经、法律、医学等专业领域的搜索信源质量,希望给用户提供更可信、可靠的高质量回答。</p><p class="ql-block"> 2025年6月消息,Kimi开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。Kimi-Dev采用MIT协议,权重和代码均已发布。</p><p class="ql-block"> 2025年6月,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。</p><p class="ql-block"> 2025年7月11日,北京月之暗面科技有限公司发布Kimi K2模型,并同步开源两个模型版本。</p><p class="ql-block">【产品功能】</p><p class="ql-block">主要功能:</p><p class="ql-block"> Kimi主要有6项功能:长文总结和生成、联网搜索、数据处理、编写代码、用户交互、翻译。主要应用场景为专业学术论文的翻译和理解、辅助分析法律问题、快速理解API开发文档等,是全球首个支持输入20万汉字的智能助手产品,已启动200万字无损上下文内测。</p><p class="ql-block">优势功能:</p><p class="ql-block"> Kimi智能助手在效率(免费榜)排名从2024年1月14日的第436名提升至3月19日的第11名。而尚未上线的GPT-4.5 Turbo上下文窗口指定为25.6万个token,能同时处理约20万个单词,Kimi升级后,长文本能力为其10倍。在2023年10月初次亮相时,该模型的处理能力还仅有约20万汉字。</p><p class="ql-block">开发公司</p><p class="ql-block">北京月之暗面科技有限公司(Moonshot AI)创立于2023年3月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。11</p><p class="ql-block">北京月之暗面科技有限公司</p><p class="ql-block">产品评价</p><p class="ql-block">Kimi升级的焦点在于提升用户体验,这表明国产大模型越来越重视用户的实际需求和使用便捷性,这对于赢得用户信任和市场占有率至关重要。Kimi的升级可能会激励其他国产大模型开发者进行技术创新和功能改进,从而推动整个行业的发展。(每日经济新闻 评)9</p><p class="ql-block">相关事件</p><p class="ql-block">紧急扩容</p><p class="ql-block">2024年3月21日,Kimi一度冲进App Store免费版应用第5名,超越了微信;其小程序、App、网页版均因超出承载能力而宕机。2024年3月,Kimi智能助手月访问量达1218万次,仅次于百度文心一言,超越了阿里通义千问、字节旗下豆包。6</p><p class="ql-block">2024年3月21日,因流量突然剧增,有用户在社交平台上表示:月之暗面旗下大模型应用Kimi无法正常使用。Kimi所属公司月之暗面方面回应称:从2024.3.20 9:30:00开始,已观测到Kimi的系统流量持续异常增高。“流量增加的趋势远超对资源的预期规划。这导致了从2024.3.20 10:00:00开始,有较多的SaaS客户持续的体验到429:engine is overloaded的异常问题,对此我们深表抱歉。”月之暗面还表示,作为一家以技术为导向的公司,非常理解一个API的稳定性是能否投入实际生产的最关键因素之一,已经有多项应急措施正在实施。“应急措施包括不限于,从3.20观测到流量异常增高后,已经进行了5次扩容工作。推理资源会持续配合流量进行扩容,以尽量承载持续增长的用户量,设计了一套更有效的Saas流量优先级策略,以保障付费用户的调用稳定,预计3.25之前完成并上线。”3</p><p class="ql-block">Kimi周度平均日变化</p><p class="ql-block">获客成本</p><p class="ql-block">2024年3月25日,有AI大模型行业投资人透露,Kimi投放广告的获客成本约在10元。根据第三方平台的下载量预估,近一个月来,Kimi在苹果端和安卓端的日均下载量为17805。按此计算,Kimi每天的获客成本将烧掉至少20万元。4</p><p class="ql-block">Kimi概念股</p><p class="ql-block">Kimi在二级市场一度复现了ChatGPT“带货能力”的势头,引发了一众“Kimi概念股”狂飙猛涨。其中华策影视、掌阅科技、中广天择、海天瑞声等多家企业,多次出现涨停。6</p><p class="ql-block">“套现”传言</p><p class="ql-block">2024年4月,网传kimi刚爆火,创始人就套现4000万美金。有知情人士表示,月之暗面最近这轮融资涉及一些老股交易,但红杉等老股东都没有出售股份。“有传言创始人及相关人员套现金额在4000万美金。”4月23日,月之暗面回应称消息不实,月之暗面已公布员工激励计划。5</p><p class="ql-block">系统崩溃</p><p class="ql-block">2024年12月14日,许多用户反映在尝试使用Kimi时遇到了“网络连接错误”等问题,即使给予了全部权限依然无法解决问题。有些用户表示起初还能短暂恢复,但很快再次陷入无法使用的状态。官方尚未发布正式声明解释崩溃的原因。24</p><p class="ql-block">非法收集</p><p class="ql-block">2025年5月20日,国家网络与信息安全信息通报中心发布通告,经公安部计算机信息系统安全产品质量监督检验中心检测,在应用宝中35款移动应用存在违法违规收集使用个人信息情况,其中包括Kimi(版本 2.0.8)。29</p><p class="ql-block">词条内容有误,前往反馈</p><p class="ql-block">纠错</p><p class="ql-block">分享你的世界</p> <p class="ql-block">【即梦AI】</p><p class="ql-block"> 即梦AI是由深圳市脸萌科技有限公司开发的一款为创意爱好者打造的AI表达平台,具有AI图片创作、视频创作、探索创意世界等功能。</p><p class="ql-block"> 2024年3月,字节跳动旗下剪映团队研发的AI创作平台剪映Dreamina开放内测。</p><p class="ql-block"> 2024年5月9日,剪映Dreamina官方宣布其品牌正式更名为中文“即梦”,同时其AI作图和AI视频生成功能已全量上线。</p><p class="ql-block"> 2024年7月31日,即梦AI 安卓版上架到了小米等多个安卓应用市场中,版本号为1.0.0,可供用户下载使用。</p><p class="ql-block"> 2024年8月,即梦AI移动版正式上架至苹果应用商店,并上线会员体系。</p><p class="ql-block"> 2024年11月8日,即梦AI的视频生成模型Seaweed面向平台用户正式开放。</p><p class="ql-block"> 2024年12月18日,即梦AI全新图片模型 2.1 正式上线。</p><p class="ql-block"> 同时,还上线了全新的动态海报功能,支持静态海报图片一键转换动态海报。</p><p class="ql-block"> 2025年2月,即梦AI发布视频显示其采用了全新的多模态视频生成模型OmniHuman。</p><p class="ql-block"> 2025年2月消息,即梦AI考虑接入DeepSeek。</p><p class="ql-block"> 2025年3月5日,即梦 AI 上线 “动作模仿” 功能。3月5日,即梦 AI 上线 “动作模仿” 功能,用户从“数字人”入口进入,只需上传一张人物图片和一条参考视频,就能生成一条动态视频,让图片里的人物模拟参考视频中的人物动作,情绪可以一比一还原。</p><p class="ql-block">功能介绍:</p><p class="ql-block"> 即梦AI是一个生成式人工智能创作平台,支持通过自然语言及图片输入,生成高质量的图像及视频。提供智能画布、故事创作模式、以及首尾帧、对口型、运镜控制、速度控制等AI编辑能力,并有海量影像灵感及兴趣社区,一站式提供用户创意灵感、流畅工作流、社区交互等资源,为用户的创作提效。</p><p class="ql-block"><br></p><p class="ql-block">【一分钟学会,用deepseek加即梦,生产Ai短视频】</p><p class="ql-block">视频生成:</p><p class="ql-block"> 在视频生成层面,即梦AI支持三种生成模式:输入单图作为首帧,直接生成视频或配合提示词描述生成视频;输入两张图片作为首帧和尾帧,直接生成视频或配合提示词描述生成视频;或是纯文本输入希望生成的视频描述,来进行视频的生成。</p><p class="ql-block"> 在此基础之上,即梦AI还支持对生成的视频进行一系列AI编辑操作,如AI对口型功能,最多支持生成 9 秒时长的对口型视频,用户可以为生成视频中的人物配音并匹配口型,使视频中的角色看起来更加真实、自然;即梦AI提供多种音色选择,并且还支持用户上传自己的配音。再如镜头控制能力,提供镜头放大、镜头推远、镜头旋转、镜头水平移动、镜头上下移动等多种运镜选择;速度控制能力,提供正常、快速、慢速三种运动速度控制。</p><p class="ql-block"> 此外,即梦AI还为用户提供了故事创作模式这一特色能力,支持本地上传、生图、生视频三种素材上传功能,可自由拖拽调整素材顺序;支持本地上传音频文件,可上传配音、背景音乐等;支持视频AI编辑及草稿编辑。该功能在故事分镜生成方面,支持图生视频、文生视频、文生图、图生图等多种方式创作分镜画面,效果更加可控;还可以进行镜头高效管理,支持在时间轨道管理分镜画面,编辑预览故事成片效果。同时即梦AI支持一键导出成片、批量导出素材等多种导出模式。</p><p class="ql-block">图片生成:</p><p class="ql-block"> 在图片生成层面,即梦AI则支持文生图、图生图以及一键做同款功能,仅需用户输入简单提示词,即可生成精彩的图片,还可以对现有图片进行创意改造,自定义保留人物或主体的形象特征,实现背景替换、风格联想、画风保持、姿势保持等操作,满足各种场景的创作需求。通过“做同款”功能,用户将可以选择感兴趣的社区图片作为灵感,复用提示词,生成同款图片。</p><p class="ql-block"> 即梦AI的图片生成功能还支持智能画布模式,集成AI拼图生成能力,可实现多图AI融合,其支持本地素材上传,用户可在画布上自由拼接,并进行分图层AI生成、AI扩图、局部重绘、局部消除等,在同一画布上实现多元素的无缝拼接,确保AI绘画的创作风格统一和谐。</p><p class="ql-block">产品特色:</p><p class="ql-block"> 即梦AI除了助力用户梦境成真的AI绘画和动效效果连贯性强、流畅自然的视频生成以外,即梦AI还具有高效创作的故事模式、激发灵感的创意社区以及得心应手的中文创作。当用户想将零碎的素材拼凑成创意故事,可以使用即梦AI的故事模式,进行高效创作。其故事创作模式支持一站式生成故事分镜、镜头组织管理、编辑等功能,轻松提升创作效率。在即梦AI创意社区,用户可共同探索无限的影像灵感,让创意在相互碰撞中激发,一起创造精彩。同时,即梦AI在中文创作方面更加得心应手,其支持根据中文提示词进行AI创作,拥有更好的语义理解能力,准确把握需求,将抽象的思路转化为视觉作品。</p><p class="ql-block">相关注册:</p><p class="ql-block"> 2024年8月,北京字跳网络技术有限公司申请数枚“即梦AI迷你剧场”及即梦AI图形商标,国际分类包括社会服务、科学仪器、网站服务等。</p><p class="ql-block">【相关评价】</p><p class="ql-block">媒体评价:</p><p class="ql-block"> 基于“让灵感即刻成片”的使命,即梦AI将会为众多设计师及艺术爱好者提供得心应手的创作工具和源源不断的创作灵感。期待即梦AI未来能更好地理解和分析用户需求,提供更多的个性化服务,高效提升创作效率,让更多用户都能享受到AI带来的创作便利。(新闻晨报 评)</p><p class="ql-block">使用评价:</p><p class="ql-block"> 即梦AI图生视频工具优越性显著,相比传统三维制作,制作周期被大幅缩短。在生成大幅动态效果时保持了画面色彩的稳定,使最终视觉效果呈现出未来奇幻的唯美感。(《万物共生》创作者“Yea野了” 评</p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"> </p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"><br></p><p class="ql-block"> </p> <p class="ql-block">【问小白】</p><p class="ql-block"> 北京元石科技有限公司开发的人工智能大模型。</p><p class="ql-block">问小白,是一个人工智能大模型。</p><p class="ql-block">技术架构:MoE混合专家架构</p><p class="ql-block">开发公司:北京元石科技有限公司</p><p class="ql-block">上线时间:2025年6月(移动端)</p><p class="ql-block">核心功能:文档解析、代码生成、多模态交互;</p><p class="ql-block">应用场景:智能搜索、学术研究、IoT开发</p><p class="ql-block">技术优势:双核驱动、低幻觉率、跨平台兼容;</p><p class="ql-block">核心功能与特点·智能问答与搜索:</p><p class="ql-block"> 问小白能够通过自然语言处理技术理解用户需求,提供精准的解决方案,并支持联网搜索,确保答案的时效性和准确性。</p><p class="ql-block">文档解析与创作:</p><p class="ql-block"> 支持文本创作、文档摘要、资料整理等功能,帮助用户高效完成工作或学习任务。</p><p class="ql-block">多模态交互:</p><p class="ql-block"> 具备R1推理生图功能,可根据用户描述生成高质量图片,并支持语音转录、文件导入等特性。</p><p class="ql-block">高效响应:</p><p class="ql-block"> 首字响应时间为2.3秒,持续输出速率为1-2秒/token,日均承载1.19亿用户量级服务请求。</p><p class="ql-block">适用场景:</p><p class="ql-block"> 学习:辅助理解复杂概念、整理学习资料,甚至提供考前押题和论文查重降重服务。</p><p class="ql-block"> 职场:优化工作流程,撰写商业文案,生成会议纪要并附带思维导图。</p><p class="ql-block">日常生活:</p><p class="ql-block"> 提供情感陪伴、解答生活问题,甚至生成情书或塔罗占卜。</p><p class="ql-block">技术优势:</p><p class="ql-block"> 采用MoE混合专家架构,中文简单问答F-score达91.6%。</p><p class="ql-block"> 支持跨平台兼容,持续新增深度思考、文件解析等特性。</p><p class="ql-block"><br></p> <p class="ql-block">【文小言】</p><p class="ql-block">百度旗下“新搜索”智能助手</p><p class="ql-block"> 文小言,大语言模型产品,百度旗下“新搜索”智能助手。具有富媒体搜索、多模态输入、文本与图片创作、自由订阅等AI功能。用户不仅可以语音搜索、图片搜索、模糊提问等,还支持边拍边问、边看边问等灵活场景,获得丰富的多模态结果;用户还能享受高质量的文章与图片创作,与超拟真数字人亲密交流,让新搜索真正实现从“工具性”到“人性”的进化。能直接使用翻译服务。</p><p class="ql-block"> 2024年9月4日,百度官宣文心一言APP正式升级为“文小言”。</p><p class="ql-block"> 2025年3月16日,百度正式发布文心大模型4.5和文心大模型X1。 </p><p class="ql-block"> 3月31日,在新一期百度 AI DAY 上,文小言宣布完成品牌焕新与功能升级,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI 生图生视频等多项能力。</p><p class="ql-block">软件名称:文小言</p><p class="ql-block">上线时间:2024年9月4日</p><p class="ql-block">开发商:百度</p><p class="ql-block">产生背景:</p><p class="ql-block"> 2024年9月4日,百度官宣文心一言APP正式升级为“文小言”,定位百度旗下“新搜索”智能助手。</p><p class="ql-block">主要功能:</p><p class="ql-block"> “文小言”推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等“新搜索”能力,能全面满足用户搜、创、聊需求。同时,“文小言”独家首发了记忆和自由订阅等新功能,被认为是目前为止,在新搜索领域结合大模型最原生、最彻底的AI应用。</p><p class="ql-block"> “文小言”独家上线了记忆个性化功能,用户可以根据喜好、职业、性格等,实现个性化问答和服务;首创的自由订阅功能,能让用户可以自定义订阅各类新闻、游戏、天气等任意感兴趣的信息,并按照定制化需求获得内容推送。例如,用户希望“每周一中午12点整理最新的关于AI大模型和自动驾驶的科技新闻”,“文小言”就会自动按时进行信息收集与整理,并准时回复。</p><p class="ql-block"> 目前文小言提供文心X1 Turbo、文心4.5 Turbo两种版本大模型供用户选择。</p><p class="ql-block">发展历程:</p><p class="ql-block"> 文小言的前身文心一言,这款产品基于百度文心大模型,是国内最早一批AI生成式应用之一。第三方机构QuestMobile一直把文心一言归在AIGC(人工智能生成内容)应用类,以6月数据为例,文心一言活跃率(DAU日活跃用户/MAU月活跃用户)16.8%,在当月典型工具类AIGC App中排名第一,月人均使用5天,排名第一。</p><p class="ql-block"> 截至2024年9月,“文小言”应用月活跃用户已经突破千万大关,累计调用量超过了20亿次,日活跃用户和总时长的季环比均保持高速增长。</p><p class="ql-block"> 2025年2月11日,iOS 版百度文小言(原文心一言)App4.9.0版本更新,更新描述称该版本已接入 DeepSeek-R1 模型,优化拍照解题功能。</p><p class="ql-block"> 2025年3月16日,百度正式发布文心大模型4.5和文心大模型X1。目前,两款模型已在文心一言官网上线,免费向用户开放。百度搜索、文小言APP等产品,将陆续接入文心大模型4.5和文心大模型X1。</p><p class="ql-block"> 2025年3月31日,在新一期百度 AI DAY 上,文小言宣布完成品牌焕新与功能升级。除品牌视觉形象焕新外,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI 生图生视频等多项能力。</p><p class="ql-block"> 2025年4月3日,HarmonyOS 版文小言(原文心一言)App 1.0.0.11版本更新。</p> <p class="ql-block">【通义AI】(一)</p><p class="ql-block"> 通义,由通义千问更名而来</p><p class="ql-block">,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。</p><p class="ql-block"> 属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。</p><p class="ql-block"> 为多模态大模型(Multimodal Models)。</p><p class="ql-block"> 通义意为“通情,达义”,具备全副AI能力,致力于成为人们的工作、学习、生活助手。</p><p class="ql-block"> 功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。</p><p class="ql-block"> 2023年4月7日,通义的前身通义千问开始邀请测试,4月11日,通义千问在2023阿里云峰会上揭晓。</p><p class="ql-block"> 4月18日,钉钉正式接通通义千问大模型。</p><p class="ql-block"> 9月13日,通义千问大模型通过首批备案,正式向公众开放。通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。</p><p class="ql-block"> 12月1日,阿里云开源通义千问720亿参数模型。</p><p class="ql-block"> 12月22日,阿里云通义千问成为首个“大模型标准符合性评测”中首批通过评测的四款国产大模型之一。</p><p class="ql-block"> 2024年4月7日,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡。</p><p class="ql-block"> 5月,通义千问2.5大模型发布并更名。</p><p class="ql-block"> 5月9日,阿里云正式发布了通义千问2.5版本。</p><p class="ql-block"> 2024年8月19日,通义千问宣布启用新域名:tongyi.ai。</p><p class="ql-block"> 2025年3月6日,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。3月27日,通义千问宣布发布Qwen2.5-Omni89。4月29日,通义App全面上线千问3。</p><p class="ql-block">软件名称:通义</p><p class="ql-block">原名:通义千问</p><p class="ql-block">上线时间:2023年9月13日</p><p class="ql-block">开发商:阿里云</p><p class="ql-block">最近更新时间:2024年5月9日</p><p class="ql-block">【出现背景】</p><p class="ql-block">时代背景:</p><p class="ql-block"> 大模型是人工智能领域的热门研究方向。专家认为,人工智能进入产业级大模型时代。大模型将是未来一段时间科技领域里面最重要的事情之一。大模型将开启人工智能的“大一统时代”。</p><p class="ql-block"> 人工智能是引领新一轮科技革命与产业变革的战略性技术,是赋能经济社会数字化、绿色化双转型的主要引擎,具有很强的“头雁”效应。</p><p class="ql-block"> 这些模型使用大量的多媒体数据资源作为输入,并通过复杂的数学运算和优化算法来完成大规模的训练,以学习和理解到输入数据的模式和特征。这些模式和特征最终通过大模型中庞大的参数进行表征,以获得与输入数据和模型设计相匹配的能力,最终来实现更复杂、更广泛的任务,如语音识别、自然语言处理、计算机视觉等。</p><p class="ql-block">【技术背景】</p><p class="ql-block">视觉算法基础:</p><p class="ql-block"> 传统机器学习算法中,可通过图像特征描述子SIFT、SURF、BRIEF进行特征点提取和匹配,车载自动驾驶摄像头里面用的图像识别类算法基本上都是CNN的结构,为卷积神经网络。卷积神经网络认知图像的过程跟人大脑认知图像的原理类似。图像输入即输入摄像头的数据,以每帧信息为基础进行检测、分类、分割等计算,最后利用多帧信息进行目标跟踪,输出相关结果。</p><p class="ql-block"> 视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,预示着技术拐点的临近以及爆款应用的涌现。由于扩散算法的成熟,对3D资产生成和视频生成领域有促进作用。</p><p class="ql-block">行业发展基础:</p><p class="ql-block"> 随着科技发展,AI 的开发门槛降低,人们期待小学生也能用各种模型进行开发,因此需要形成一个一个模型的不同层级的结构。一个通用的模型其实也很难解决所有问题,从设计者、开发者的角度出发,围绕着模型作开发的范式逐渐诞生。</p><p class="ql-block"> 2022年11月30日,美国人工智能研究实验室OpenAI推出ChatGPT,这是一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力。</p><p class="ql-block"> ChatGPT会通过连接大量的语料库来训练模型,语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动,做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。也能够通过学习和理解人类的语言来进行对话。</p><p class="ql-block">名称由来:</p><p class="ql-block"> 初期,通义前身为通义千问,前者的“通义”取自《汉书》中的“天地之常经,古今之通义也”,有“普遍适用的道理与法则”之意;后者的“千问”寓意千万次的问,千万的学问,能问出千问的一定是真爱,能回答千问的,也一定是真有学问,以及AI和阿里云一样,都有千万次交互的热情。</p><p class="ql-block"> 2024年5月,更名为通义,意为“通情,达义”,具备全副AI能力,致力于成为人们的工作、学习、生活助手。</p><p class="ql-block">发展历程:</p><p class="ql-block"> 2023年4月7日,通义千问开始邀请测试。</p><p class="ql-block"> 2023年4月11日,阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等;同4月,钉钉首次发布基于阿里千问大模型的智能化能力,用户输入斜杠“/”即可唤起10余项AI能力。</p><p class="ql-block"> 通义千问 AI 大模型接入天猫精灵,开启相关内测招募。阿里云工程师在实验将千问大模型接入工业机器人,在钉钉对话框输入一句汉字,可远程指挥机器人工作。</p><p class="ql-block"> 2023年9月,通义千问正式向公众开放;淘宝内测应用淘宝问问接入通义千问,基于通义千问的文本理解与文本生成能力实现全新的交互体验以及推荐;同月25日,阿里云宣布开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用;同年10月31日,2023云栖大会现场,阿里大模型家族全面升级发布,通义千问2.0正式升级发布。通义千问App也随之发布。</p><p class="ql-block"> 2023年11月7日,阿里云旗下通义千问 App 上架苹果App Store,安装包大小为 25.9 MB,此前这款 App 已在各大安卓应用市场上架</p><p class="ql-block">;同月16日,阿里巴巴公告,截至9月30日,钉钉17条产品线已经全面接入大模型。钉钉还面向客户及生态体系合作伙伴开放其智能化底座AIPaaS,以助生态体系参与者重塑其产品。</p><p class="ql-block"> 2023年12月1日,阿里云开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B及音频大模型Qwen-Audio;同月22日,国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。</p><p class="ql-block"> 2024年1月4日,阿里云旗下的通义千问 App 上线了一项免费的新功能“通义舞王”:用户在按照提示要求上传照片后,经过十几分钟的等待,即可自动生成舞蹈视频;同月22日,由中国一汽联合阿里云通义千问打造的大模型应用GPT-BI落地;同月26日,阿里云公布多模态大模型研究进展。通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本。</p><p class="ql-block"> 2024年3月22日,阿里云旗下的通义千问宣布升级,向所有人免费开放10001000万字的长文档处理功能;同月29日,通义千问团队开源首个MoE模型,名为Qwen1.5-MoE-A2.7B,有27亿个激活参数。</p><p class="ql-block"> 2024年4月3日,刚刚成为阿里云一号AI员工的通义灵码正式上线通义千问APP,并向全民免费开放</p><p class="ql-block">;同月7日,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款大语言模型并均已升级至1.5版本;同月28日,据“阿里通义千问”消息,通义千问首次推出千亿级参数模型Qwen1.5-110B。Qwen1.5-110B是Qwen1.5系列中规模最大的模型,也是该系列中首个拥有超1000亿参数的模型。</p><p class="ql-block"> 2024年5月,通义千问2.5大模型版本发布并更名为通义。</p><p class="ql-block"> 5月21日消息,阿里云宣布通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。</p><p class="ql-block"> 2024年6月7日,阿里通义千问Qwen2大模型发布,并在Hugging Face和ModelScope上同步开源。</p><p class="ql-block"> 2024年6月21日,携程已接入阿里云通义千问大模型,支持其全球业务发展。此外,哈啰集团已与阿里云达成深度合作,全方位接入阿里云通义大模型。</p><p class="ql-block"> 2024年7月,在2024世界人工智能大会上,阿里云CTO周靖人透露,近2个月,通义千问开源模型下载量增长2倍,突破2000万次,阿里云百炼服务客户数从9万增长至23万,涨幅超150%。</p> <p class="ql-block">【通义AI】(二)</p><p class="ql-block"> 2024年7月26日,巴黎奥运会期间,通义App上线赛事百事通、全民云运动、AI运动写真等多款新功能。这些新功能基于通义大模型打造,让国内体育迷们看奥运、聊奥运的同时,也能体验AI技术带来的观赛新体验。</p><p class="ql-block"> 7月31日,阿里通义宣布免费开放奥运AI大模型,具备最强奥运专业知识,并集合同声传译级别的中法互译功能。7月31日起,用户可以在通义APP免费使用。</p><p class="ql-block"> 2024年8月,阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。</p><p class="ql-block"> 8月19日,通义千问宣布启用新域名:tongyi.ai。</p><p class="ql-block"> 8月30日消息,通义网页版上线“PPT创作”功能,具备言之有物、设计精美、智能编排三大核心特点。</p><p class="ql-block"> 8月30日,阿里通义千问发布第二代视觉语言模型Qwen2-VL,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台。</p><p class="ql-block"> 9月2日消息,阿里云通义千问宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。</p><p class="ql-block"> 9月19日消息,2024云栖大会上,阿里云CTO周靖人发布通义千问新一代开源模型Qwen2.5。</p><p class="ql-block"> 9月19日,阿里巴巴宣布,阿里云百炼平台上的三款通义千问主力模型再次降价。其中,Qwen-Turbo的价格低至每百万输入tokens0.3元,较之前直降85%,Qwen-Plus和Qwen-Max的输入价格则分别降价80%和50%。</p><p class="ql-block"> 11月15日,从阿里云方面获悉,旗下大模型通义上线代码模式,一句“大白话”就能生成应用,包括小游戏、数据图表、网站、简历等。</p><p class="ql-block"> 11月27日,通义官宣通义App鸿蒙原生版正式上架HarmonyOS NEXT应用市场。</p><p class="ql-block"> 12月25日,阿里云通义千问发布首个开源多模态推理模型QVQ-72B-Preview。</p><p class="ql-block"> 12月31日,阿里云官宣!本年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。其中Qwen-VL-Plus直降81%,输入价格仅为0.0015元/千tokens,创下全网最低价格;更高性能的Qwen-VL-Max降至0.003元/千tokens,降幅高达85%。</p><p class="ql-block"> 2025年1月27日,阿里云通义千问Qwen团队正式推出开源的Qwen2.5-1M模型及其对应的推理框架支持。本次发布了两个新的开源模型,分别是Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,这是Qwen首次将开源的Qwen模型的上下文扩展到1M长度。</p><p class="ql-block"> 1月29日,阿里云通义千问旗舰版模型Qwen2.5-Max正式发布。该模型预训练数据超过20万亿tokens。</p><p class="ql-block"> 截至2月19日,阿里通义千问开源模型下载量为2亿,基于阿里通义模型衍生模型数量超过9万个,此外阿里的魔搭社区有超过4万家模型入驻,有超过1000万用户数。</p><p class="ql-block"> 2025年2月28日,荣耀表示,已与阿里在 AI 领域展开合作,为全球用户提供服务。目前千问(Qwen)、万相(Wan)等多款语言、视觉理解、图像生成模型已接入荣耀 YOYO 智能体,用户可通过 Magic7 系列手机等终端体验 AI 功能。</p><p class="ql-block"> 2025年3月6日,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。</p><p class="ql-block"> 3月11日,Manus平台宣布与阿里通义千问团队正式达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。</p><p class="ql-block"> 2025年3月11日,基于全模态场景,通义实验室团队探索了 RLVR 与视频全模态模型的结合,宣布开源 R1-Omni 模型。R1-Omni 的一大亮点在于其透明性(推理能力)。通过 RLVR 方法,音频信息和视频信息在模型中的作用变得更加清晰可见。</p><p class="ql-block"> 3月14日消息,英国、新加坡、日本等多国创企接入阿里通义千问。</p><p class="ql-block"> 3月,LiblibAI接入阿里通义系列大模型。</p><p class="ql-block"> 3月26日,宝马集团宣布与阿里巴巴集团在中国达成AI领域战略合作,双方在AI大语言模型和智能语音交互等领域开展联合研发,阿里通义大模型将应用于中国市场的宝马新世代系列车型。</p><p class="ql-block"> 3月27日,通义千问宣布发布Qwen2.5-Omni89。4月29日,阿里巴巴通义千问发布新版Qwen3系列模型,包括2个MoE模型和6个dense模型,参数量从0.6B到235B。</p><p class="ql-block">称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比,Qwen3还显著降低了部署成本。</p><p class="ql-block"> 4月29日,通义App与通义网页版全面上线阿里新一代通义千问开源模型Qwen3(简称千问3),用户可以第一时间在通义App和网页版中的专属智能体“千问大模型”,以及主对话页面,体验到全球最强开源模型的智能能力。</p><p class="ql-block"> 6月6日上午消息,阿里开源通义千问3全新的向量模型系列 Qwen3-Embedding(简称千问3向量模型)。</p><p class="ql-block"> 6月9日,阿里云发文宣布:比亚迪接入通义大模型。</p><p class="ql-block"> 6月27日,阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越。</p><p class="ql-block"> 7月7日,阿里云宣布,通义正式开源网络智能体WebSailor。</p><p class="ql-block"> 7月11日晚间,阿里通义千问宣布Qwen Chat更新,网页首页可直接开聊,还能支持“深入研究、图像生成、网页开发、深度思考、搜索”等多种功能。此外,Qwen Chat新增桌面端,支持一键唤起MCP,直接调用。</p><p class="ql-block">主要功能:</p><p class="ql-block"> 通义千问是阿里巴巴达摩院自主研发的超大规模语言模型。诞生源于阿里巴巴对人工智能技术的探索和实践,旨在为各行各业提供优质的自然语言处理服务,并且能够应对各种复杂的任务挑战。</p> <p class="ql-block">【通义AI】(三)</p><p class="ql-block"> 截至2024年5月,通义千问提供通义灵码(编码助手)、通义智文(阅读助手)、通义听悟(工作学习)、通义星尘(个性化角色创作平台)、通义点金(投研助手)、通义晓蜜(智能客服)、通义仁心(健康助手)、通义法睿(法律顾问)8大行业模型。</p><p class="ql-block"> 8大行业模型可以帮助人们写代码、读代码、查BUG、优化代码等;短时间内获取长文本提要和概述,掌握要点;对音频内容转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等功能,并支持标重点、记笔记;</p><p class="ql-block"> 可以解读财报研报,分析金融业事件,自动绘制图表表格,实时市场数据分析等。</p><p class="ql-block">【通义开源模型·系列产品】</p><p class="ql-block">通义APP:</p><p class="ql-block"> 是阿里巴巴旗下实用的AI助手,拥有数千万用户,为用户提供日常办公、学习提效和生活健康、娱乐等全方位支持。</p><p class="ql-block"> 在日常办公中,通义提供专业文档撰写、实时记录、音视频速读和代码生成解释、代码纠错等服务,支持跨文档摘要、分析和内容创作。</p><p class="ql-block"> 学习方面,通义具备图像和视频理解能力,可拍照讲题、在线解析网页、论文与图书,实现多文本摘要和结构化总结,并提供实时翻译功能。</p><p class="ql-block"> 生活娱乐方面,通义提供全民舞台、AI生图、AI生视频和照相馆等趣味玩法,帮助用户创作有趣的图片和视频。通义还提供多元化智能体创建功能,包含健康、国学、预测、星座、法律等,用户可轻松配置所需工具或聊天角色。</p><p class="ql-block"> 连续两年登顶QuestMobile“中国互联网AIGC应用用户规模TOP榜”,获华为应用市场评为“最佳新锐合作伙伴”。</p><p class="ql-block">通义灵码:</p><p class="ql-block"> 通义灵码可以辅助程序员写代码、读代码、查BUG、优化代码等。掌握Java、Python、Go、JavaScript、TypeScript、C/C++、C#等200多种编程语言,可帮助程序员提升超10%的开发效率。程序员、编程爱好者、学生无需下载专业软件,使用通义千问就能写代码和学代码。</p><p class="ql-block">通义智文:</p><p class="ql-block"> 通义智文是阿里云推出的基于通义大模型的免费AI阅读助手,可智能阅读网页、论文、图书和文档,帮助用户在短时间内获取提要和概述,掌握要点,提高阅读效率。同时支持自由提问,可解答用户关于文章的问题或其他不解之处。</p><p class="ql-block">通义听悟:</p><p class="ql-block"> 生活中,音视频承载了密集的信息内容,但因涉及多模态理解、自然语言处理、搜索等多项复杂技术,存在查找难、回顾难、提炼难问题。通义听悟提供包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等功能,并支持标重点、记笔记。</p><p class="ql-block"> 通义听悟也可以通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,实现对超长音视频的单记录、跨记录、多语言自由问答。</p><p class="ql-block"> 用户不仅可在单一记录页呼唤小悟,对最高6小时、6G大小的音视频提问任何相关话题,可直接要求小悟整理金句、梳理结论、写会议纪要;更可在首页针对用户所有记录提问,支持一次性扫描理解上百条音视频内容;也可对英文视频用中文提问,将直接给出中文回答。</p><p class="ql-block">通义星尘:</p><p class="ql-block"> 通义星尘是一款个性化角色创作平台,其基于大规模高质量个性化对话数据,采用分阶段的个性化训练策略,使得模型在保持通用能力的基础上,延伸出拟人、具有情感、鲜明语言风格的能力,在角色的个性、风格遵循上具有更强的指令遵循能力。可以深度定义人设、和用户建立起深度连接、支持多种形式的对话互动,并且可以基于具体的事件设定展开对话。可应用于情感陪伴、游戏NPC、IP复刻等场景。</p><p class="ql-block">通义点金:</p><p class="ql-block"> 通义点金可以解读财报研报,分析金融业事件,自动绘制图表表格,实时市场数据分析。</p><p class="ql-block"> 智能投研机器人可以分析事件,绘制表格,查询资讯,研究财报;文档分析机器人可以总结要点,扩展资讯,文档问答,片段分析,财报、研报公告;金融信息搜索引擎可以搜数据、查研报、找公告等。</p><p class="ql-block">通义晓蜜:</p><p class="ql-block"> 通义晓蜜提供全渠道联络中心与AI应用的整体方案,助力企业服务向信息化、智能化、多模态转型。</p><p class="ql-block"> 其中,对话机器人支持多种形态的知识,比如文档网页、高频问题、复杂多轮、表格、数据库等;智能坐席助理全方位陪伴人工坐席,助力客服、销售业绩提升,提供产品介绍、通话过程剖析、案例沉淀、通话技巧提升等功能;多模态智能联络中心则为全渠道多模态的企业智能服务平台,支持电话、IM、视频统一接入、统一调度服务数据和客户体验完整、一致,也为客户给提供面向下一代的多模态服务体验,告别单调的文字、语音交流。</p><p class="ql-block">通义仁心:</p><p class="ql-block"> 通义仁心是个人健康助手,提供问报告、问症状、问用药、问疾病功能。</p><p class="ql-block">通义法睿:</p><p class="ql-block"> 通义法睿能够回答用户提出的法律问题,具有推理法律适用、 推送裁判类案、辅助案情分析、生成法律文书、检索法律知识等功能。旨在帮助法律专业人士提高生产力水平, 同时也可为非专业人士提供便捷的法律咨询服务。</p><p class="ql-block"> 提供针对用户的法律问题,以法律规定作为大前提,情形匹配作为小前提,按照逻辑三段论推理生成答案;根据用户描述的文本信息或上传的材料信息,结合专业模版定制化生成起诉状、答辩状等文书;利用大模型推理优势,通过语意理解提高用户搜索准确性和相关性,从法规和判例库找准信息。</p><p class="ql-block">长文本功能:</p><p class="ql-block"> 通义千问向所有人免费开放1000万字的长文档处理功能。通过调优算法或者通过算力甚至使用RAG(检索增强生成技术,是对大型语言模型输出进行优化的方法,使其能够在生成响应之前引用训练数据来源之外的知识库),都可以打造出该体验。</p><p class="ql-block"> 通义千问模型基于Transformer框架,采用了开源大语言模型训练方法LLaMA。</p><p class="ql-block">模型修改:</p><p class="ql-block"> 开发团队对架构主要做了以下修改:Embedding and output projection:通义千问模型选择了不受限的嵌入方法,而不是捆绑输入嵌入和输出投影的权重,此项改动是为了以内存成本为代价获得更好的性能。</p><p class="ql-block"> 位置编码(Positional embedding):模型采用RoPE(Rotary Positional Embedding)为位置编码,并选择使用FP32精确度而不是BF16或FP16的逆频率矩阵,以此提高模型的性能表现和精确度。</p><p class="ql-block"> 偏差(Bias):开发团队在模型中的大多数层(layer)种移除了偏差,而是在QKV注意力层中添加了偏差,以增强模型的外推能力。</p><p class="ql-block"> Pre-Norm & RMSNorm:模型采用预规范化方法(pre-normalization)提高训练稳定性,并将传统层归一化方法替换为RMSNorm。</p><p class="ql-block"> 激活函数(Activation function):模型采用SwiGLU激活函数,缩小了前馈网络(feed-forward network ,FFN)的维度,由原来隐藏大小的4倍变成隐藏大小的8/3倍。</p> <p class="ql-block">【通义AI】(四)</p><p class="ql-block">关键技术:</p><p class="ql-block"> Transformer模型的注意力机制在上下文长度上有很大的限制,即随着上下文长度的增加,二层复杂度计算会使模型的计算成本和内存成倍增加。千问模型利用了简单的免训练技术,在推理过程中扩展上下文长度,这些技术包括:</p><p class="ql-block"> NTK感知插值:这项技术以免训练的方式调整尺度以防止高频信息丢失,为了进一步提高性能。开发团队还实现了一个名为动态NTK感知插值的简单扩展动态NTK感知插值,它按块动态改变规模,避免严重的性能下降。这些技术有效地扩展了Transformer模型的上下文长度,而不会影响其计算效率或准确性。</p><p class="ql-block"> LogN-Scaling:这项技术通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积,确保注意力值的熵随着上下文长度的增长保持稳定。</p><p class="ql-block"> Window attention:这项技术将注意力限制在一个上下文窗口内,防止模型关注到太远的内容。基于千问模型的长上下文建模能力在不同层之间有所不同,与较高层相比,较低层对上下文长度扩展更加敏感,开发团队为每一层分配不同的窗口大小:较低的层使用较短的窗口,而较高的层使用较长的窗口。</p><p class="ql-block">模型训练:</p><p class="ql-block"> 千问模型的训练遵循自回归语言建模的标准方法,即模型通过前面Token的内容预测下一个Token,其他训练细节包括:模型训练的最大长度为2048,为了构建批次数据,开发团队对文本内容进行随机打乱及合并,再将其截断到指定长度;模型在注意力模块(attention modules)采用Flash Attention技术,以提高训练速度;模型在优化器(optimizer)方面采用标准优化器AdamW,设置超参数β1、β2和ϵ为别为0.9、0.95和10−8;模型采用余弦学习率计划,为每个模型大小指定一个指定的峰值学习率,学习率衰减至最小学习率峰值学习率的10%;采用BFloat16进行混合精度训练以保证训练稳定性。</p><p class="ql-block">平台特色:</p><p class="ql-block"> 通义千问大模型是一种大规模预训练模型,旨在解决智能对话、知识图谱推理和其他多模态任务。大模型的一个关键特性是能力泛化,能够适应各种新情景和任务,而不仅仅局限于训练时所遇到的特定任务。</p><p class="ql-block">服务特性:</p><p class="ql-block"> 通义千问可提供的从IaaS、PaaS到MaaS的三层系统服务能力。</p><p class="ql-block"> 其中,智算IaaS服务包括可支持最大十万卡GPU单集群规模、可承载多个万亿参数大模型同时在线训练的智算集群,可为万卡规模AI集群提供无拥塞通讯的自研RDMA网络架构等;智算PaaS服务以机器学习平台PAI为核心,可支持万卡的单任务分布式训练规模,AI训练效率提升可达10倍,推理效率提升可达6倍,覆盖全链路AI开发工具与大数据服务,深度支持了通义大模型的研发。</p><p class="ql-block"> 智算MaaS服务包括通义大模型系列和以之为基础的企业定制大模型,以及国内首个“模型即服务”开放平台魔搭社区。</p><p class="ql-block">内容特性:</p><p class="ql-block"> 通义具有知识理解和获取能力。无论是结构化知识还是非结构化知识,模型都能有效理解和抽取,提供相对精确和准确的答案。其次,模型具有泛化能力,无需进行特定任务训练即可进行多模态理解和推理。此外,模型还能够根据给定的情境理解用户的需求,提供相关的、准确的答案。最后,模型具有显著的自适应能力,可以根据不同的应用场景和用户需求进行自我调整。</p><p class="ql-block"> 动辄超千亿参数的大模型研发,不是单一的算法问题,也不是靠简单堆积GPU就能实现的,这是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,需要AI-云计算的全栈技术能力。</p><p class="ql-block">算力特性:</p><p class="ql-block"> 在算力层面,阿里云为阿里大模型的研发提供了算力体系支撑。阿里云拥有中国唯一自研云操作系统飞天,单集群可达10万台规模,千亿级文件数,EB级别存储空间。阿里云已在全球建立了28个数据中心,是亚洲规模最大的云计算平台。</p><p class="ql-block">个性特性:</p><p class="ql-block"> 各行各业的生态伙伴都可以结合自己的行业知识及场景需求,对通义大模型进行再训练和精调,打造专属大模型,并集成进自己的行业整体解决方案中。千问专属大模型具有定制化、易集成、可微调、强安全等特点。</p><p class="ql-block">安全特性:</p><p class="ql-block"> 阿里云为通义提供数据存储空间,通过服务器端加密机制,实现高安全性、高合规性的数据保护。伙伴和企业可以上传自己的行业数据,并调用通义进行重新训练。这些数据不会被用于训练通用版的千问大模型,阿里云和任何第三方都无法触碰。</p><p class="ql-block">存在问题:</p><p class="ql-block"> 在技术层面,在2023年4月的测试中,通义无法获取最新信息,或意味着训练数据有限。通义千问表示自己的训练数据来自2021年,因此无法获取有关未来的信息。</p><p class="ql-block"> 此外,通义千问的缺点是不支持多语言,只支持中文。</p><p class="ql-block">产品合作:</p><p class="ql-block"> 钉钉接入阿里通义千问大模型,开启全面智能化战略。在钉钉输入斜杠“/”即可唤起智能服务。在只要画个表拍张照,就能生成一个表单小程序。此外,钉钉斜杠还能根据需求撰写文案、设计海报等。</p><p class="ql-block"> 2023年4月,阿里集团副总裁、斑马智行CEO张春晖宣布,AliOS智能汽车操作系统已接入通义千问大模型进行测试,并正式发布斑马智行第三代汽车AI能力体系Banma Co-Pilot,相关技术将会在智己汽车上落地。</p><p class="ql-block"> 2023年4月,阿里云宣布将与OPPO安第斯智能云联合打造OPPO大模型基础设施,基于通义千问完成大模型的持续学习、精调及前端提示工程。同时,吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等多家企业表示将与阿里云在大模型相关场景展开技术合作的探索和共创。</p><p class="ql-block"> 截至2023年10月,阿里云与60多个行业进行合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。也将持续支持千行百业的开发者基于通义千问开源模型进行模型和应用创新。</p><p class="ql-block"> 2023年11月,阿里巴巴宣布,所有产品将接入“通义千问”大模型,进行全面改造,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。</p><p class="ql-block"> 2024年3月28日消息,全球最大的智能手机芯片厂商MediaTek联发科,已成功在天玑9300等旗舰芯片上部署通义千问大模型,首次实现大模型在手机芯片端深度适配。</p><p class="ql-block"> 2024年4月14日,中国科学院国家天文台人工智能工作组发布基于阿里云通义千问开源模型打造的天文大模型——“星语3.0”。</p><p class="ql-block"> “星语3.0”基于阿里云通义千问开源模型打造,已成功接入国家天文台兴隆观测站望远镜阵列--Mini“司天”。</p><p class="ql-block"> 2024年5月17日,阿里云表示,微博已接入阿里云通义大模型。据悉,微博是阿里云最早一批上云客户,也是阿里云通义大模型的最早客户。</p><p class="ql-block"> 2025年4月,义乌商城集团宣布正式接入阿里通义大模型。</p><p class="ql-block"> 国家天文台依托阿里“通义千问”模型打造“金乌”大模型。经过监督学习和强化学习,“金乌”已经能够理解和回答有关太阳物理的问题,并能认识太阳的图像,分析、预测X级耀斑达到了95%的准确率和100%的真实阳性率。</p><p class="ql-block"> 截至2025年4月,阿里通义千问已服务复旦大学、山东大学、东南大学、中国科学院等300多家机构院所,推动大模型助力科研创新。</p><p class="ql-block"> 2025年5月,阿里巴巴集团与SAP宣布达成战略合作。SAP将探索接入通义千问大模型,并支持企业在阿里云上部署SAP ERP云及SAP ERP私有云版本。双方将共同扩展企业级市场客户,初期聚焦于中国市场,并逐步扩展至东南亚、中东和非洲。</p><p class="ql-block">【社会评价】</p><p class="ql-block">行业评价:</p><p class="ql-block"> 长文本能力或可以成为大模型公司吸引市场关注,赢得竞争的路径之一,不过要做好“长”“准”、成本三者之间的平衡,还需要不断摸索。</p><p class="ql-block">(新京报 评)</p><p class="ql-block"> 通义千问更成熟了,也更好用了。通义千问2.0在指令遵循、工具使用、精细化创作等方面作了技术优化,能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。</p><p class="ql-block">(财经网科技频道 评)</p><p class="ql-block">自我评价:</p><p class="ql-block"> 通义千问将提供完备的算力和大模型基础设施,让包括创业公司在内的所有企业和机构更好地实现创新。</p><p class="ql-block">(阿里云智能首席技术官周靖人 评)</p><p class="ql-block"> OpenAI是目前(截至2023年4月)全球大模型研究领域的引领者,ChatGPT是非常优秀的模式,通义千问还在不断学习和成长中。尤其GPT-4在推理、数学等方面有表现,通义千问尚不能及。当然,通义千问也有自己较为擅长的领域,比如在文本对话、阅读理解等方面。(阿里云 评)</p><p class="ql-block">内部评价:</p><p class="ql-block"> 对于普通人来说,未来也无需下载专业软件,使用通义千问就能写代码和学代码。针对没有代码基础的学生,通义千问可以提供学习建议。正如汽车的出现让一部分马车夫没有了工作,但却产生了司机这个新的职业。人类程序员和 AI 程序员的关系,应该是相互促进、共同学习。</p><p class="ql-block">(机器之心 评)</p><p class="ql-block"> 大模型正在成为人们工作和学习的重要辅助工具,长文档处理是很多用户的刚需,它能针对用户上传的文档进行解析、摘要和问答。随着模型性能升级,大模型的长文档处理能力从早期的几千字发展到后来的几万字、几十万字,如今,阿里通义千问把天花板直线拉高到了千万字。</p><p class="ql-block">(《钱江晚报》评)</p><p class="ql-block">【相关事件【】</p><p class="ql-block">维权案件:</p><p class="ql-block"> 2024年1月16日,中国国内大模型打假维权出现首例胜诉判决。阿里云、阿里巴巴诉山寨通义千问APP发布方一审胜诉,飞游科技公司因侵犯注册商标及虚假宣传,被责令赔偿相关经济损失及维权费用,并于官网连续十五日发布道歉申明。</p> <p class="ql-block">【腾讯元宝AI】(一)</p><p class="ql-block"> 腾讯元宝是深圳市腾讯计算机系统有限公司基于自研混元大模型开发的C端AI助手App,于2024年5月30日上线。</p><p class="ql-block"> 腾讯元宝支持语音和文字搜索,涵盖微信公众号和视频号等信源。搜索结果以图片、视频、音乐和地图等形式展现;支持PDF、Word、PPT、Excel、TXT等格式文档识别,支持本地和微信上传;腾讯元宝可用于撰写报告、方案、文案和代码。设有DeepSeek R1模型集成深度思考与联网搜索功能,该模型可以利用联网搜索,确保回答的时新性和权威性。</p><p class="ql-block"> 2024年10月,在ADX行业版数据9月工具月榜中,《腾讯元宝》位列第19名。据点点数据显示,2024年第三季度以来《腾讯元宝》iOS预估下载量约为118万。</p><p class="ql-block"> 2025年2月21日,腾讯元宝重磅更新,DeepSeek已支持理解图片信息。2月22日,腾讯元宝超越豆包,升至中国区苹果免费APP下载排行榜第二。</p><p class="ql-block"> 2月,腾讯元宝入驻微信生活服务“九宫格”。3月1日宣布,腾讯元宝上线电脑客户端版本,支持Windows和macOS系统。</p><p class="ql-block"> 3月3日,腾讯元宝APP在中国区苹果应用商店免费APP下载排行榜上升至第一,超越DeepSeek。</p><p class="ql-block"> 6月13日,腾讯元宝宣布“高考志愿咨询”能力正式上线。</p><p class="ql-block">软件名称:腾讯元宝</p><p class="ql-block">软件语言:简体中文</p><p class="ql-block">软件平台:Android</p><p class="ql-block">软件版本:</p><p class="ql-block">2.4.2(Android,2025年2月17日更新)</p><p class="ql-block">2.4.1(iOS,2025年2月13日更新)</p><p class="ql-block">软件大小:</p><p class="ql-block">126.93 至 182.5 MB(Android、iOS,2025年2月17日更新)</p><p class="ql-block">上线时间:2024年5月30日</p><p class="ql-block">开发商:深圳市腾讯计算机系统有限公司</p><p class="ql-block">最近更新时间:2025年2月17日</p><p class="ql-block">【研发背景】</p><p class="ql-block">社会需求:</p><p class="ql-block"> 中国移动互联网用户规模庞大,而国内AI头部产品的日活跃用户规模相对较小,这意味着AI产品的渗透率极低,不到1%。在这样一个未成形且潜力巨大的市场中,腾讯看到了推出自家AI助手产品的机遇。腾讯元宝的推出也是腾讯构建AI生态的重要一步。腾讯通过推出元器平台,开放模型原生能力,让企业和用户自己构建智能体,并可以一键分发至腾讯元宝、微信客服、QQ、腾讯云等腾讯生态渠道。2024年5月30日,腾讯元宝正式上线。</p><p class="ql-block">政策支持:</p><p class="ql-block"> 从2017年7月国务院印发的《新一代人工智能发展规划》明确指出需“加快人工智能深度应用”,至2023年发布的《关于推进IPv6技术演进和应用创新发展的实施意见》及《质量强国建设纲要》,均提及加速人工智能等新技术在各类场景中的应用及融合发展。这一系列政策文件的发布,标志着政策导向已从单纯强调人工智能技术的发展,转变为着重推动技术与产业的深度融合。</p><p class="ql-block">发展历程:</p><p class="ql-block"> 2024年5月30日,“腾讯元宝”上线应用商店。</p><p class="ql-block"> 7月1日,腾讯宣布旗下大模型应用“腾讯元宝”AI搜索能力升级,上线深度搜索模式。</p><p class="ql-block"> 7月16日,腾讯元宝上线了“3D角色梦工厂”玩法,成为首个拥有打印级3D生成能力的通用大模型App。</p><p class="ql-block"> 8月6日,腾讯推出的AI原生应用“腾讯元宝”上线长文精读能力。该模式可提供核心内容概览及模块化解析,生成总结性图表,辅助用户快速理解关键信息。</p><p class="ql-block"> 2025年2月13日,腾讯元宝支持混元和DeepSeek两大模型,打开腾讯元宝并进入对话界面,即可免费使用DeepSeek-R1满血版模型。据了解,腾讯元宝提供的DeepSeek支持联网搜索,并整合了微信公众号、视频号等腾讯生态信息源。</p><p class="ql-block"> 2月17日,腾讯元宝在接入DeepSeek-R1满血版同时,腾讯自研的混元T1深度思考模型也在腾讯元宝开启小范围灰测,用户可以自行选用。</p><p class="ql-block"> 2月18日,紧急支持微信搜索,支持更多用户使用DeepSeek;2月19日,全量上线深度思考模型“混元T1”;2月21日,DeepSeek和混元两大模型均能理解图片信息;2月25日,支持一键把对话导出为长图。</p><p class="ql-block"> 3月13日,腾讯翻译君旗下产品(腾讯翻译君-在线翻译、翻译君 App 和翻译君小程序)整体下线,正式停止运营,相关服务将整合至腾讯元宝。</p><p class="ql-block"> 2月21日,腾讯AI助手“腾讯元宝”更新。目前,腾讯元宝内的DeepSeek已经支持理解图片信息。</p><p class="ql-block"> 2月22日,腾讯元宝超越豆包,升至中国区苹果免费APP下载排行榜第二。</p><p class="ql-block"> 2月24日,数字化内容营销平台DataEye发文称“腾讯元宝”近期大幅增加付费投放力度。腾讯生态产品几乎全部搭配腾讯元宝推广广告,包括腾讯音乐、腾讯视频、微信公众号等。</p><p class="ql-block"> 2月,腾讯元宝入驻微信生活服务“九宫格”。2月28日,腾讯“元宝”上线PC端应用。</p><p class="ql-block"> 3月1日宣布,腾讯元宝上线电脑客户端版本,支持Windows和macOS系统,上线快思考模型混元Turbo S。3月3日,腾讯元宝APP在中国区苹果应用商店免费APP下载排行榜上升至第一,超越DeepSeek。</p><p class="ql-block"> 3月6日下午,腾讯元宝通过其官方微博回复网友称,元宝语音播报的暂停和续播能力会很快上线。</p><p class="ql-block"> 3月13日,腾讯元宝和腾讯文档正式打通。腾讯元宝移动端和Web端支持腾讯文档的上传和导出,后续也将在电脑版上线。</p> <p class="ql-block">【腾讯元宝AI】(二)</p><p class="ql-block"> 2025年3月18日,腾讯元宝电脑版再次发布升级,新增了截图提问功能,用户可以通过快捷键截图,让元宝直接结合图片内容给出回答;也支持拖拽文件和图片到输入框,便捷交给元宝解析。同时,元宝电脑版还能调节字体大小,并上线深色模式,减少长时间使用带来的视觉疲劳。用户还可以随时中断思考和回答、把提问回退到输入栏重新编辑问题。</p><p class="ql-block"> 3月19日消息,腾讯总裁刘炽平透露,从2月到3月,元宝的日活跃用户(DAU)增长了20倍,成为了中国DAU排名第三的AI原生移动应用。</p><p class="ql-block"> 3月21日,腾讯元宝升级上线了读Excel能力。用户上传表格后,只需用一句话提问,元宝即可完成计算、分析和重点提取,无需再手动输入公式。</p><p class="ql-block"> 3月26日凌晨,腾讯元宝迎来重大升级,同时接入两大模型:深度思考模型“腾讯混元T1”正式版和DeepSeek V3-0324最新版。</p><p class="ql-block"> 3月28日下午消息,腾讯元宝宣布再次更新,支持用户上传和解析多达 36 种格式的文件。除了Word、Excel、PPT、PDF 等常见办公文档,还支持 .py、.java、.cpp、.json 等数十种开发文件格式。</p><p class="ql-block"> 5月7日,腾讯元宝宣布文生图功能升级,混元和DeepSeek都可生图。这项功能结合了腾讯混元最新文生图模型,已在元宝全端上线。</p><p class="ql-block"> 5月28日消息,腾讯元宝宣布打通微信读书、起点读书,搜索可直接跳转阅读。</p><p class="ql-block"> 5月30日,腾讯元宝与腾讯地图打通。5月30日消息,腾讯旗下腾讯元宝等多款AI应用宣布接入DeepSeek R1-0528,用户可在上述产品中选择DeepSeek模型R1深度思考,使用编程和长文本处理等能力,免费且不限量使用。</p><p class="ql-block"> 6月13日,腾讯元宝宣布“高考志愿咨询”能力正式上线。用户在元宝手机端、电脑版、网页版升级到最新版本,选择任意模型,开启深度思考,提问志愿填报相关问题,元宝会自动触发深度搜索,提交专属深度建议。</p><p class="ql-block"> 6月17日,腾讯元宝发布更新,上线AI编程模式,该功能已在元宝电脑版2.25版本上线。</p><p class="ql-block"> 7月3日,腾讯元宝推出了一项新功能:一句话搜索,除了能搜天气、股价、地点外,现可智能匹配图片、视频号。</p><p class="ql-block"> 7月16日,腾讯元宝正式上线图片AI编辑能力,用户输入一句话,可让元宝自动帮助P图、换背景、加光效,甚至生成风格化大片。该功能已在元宝手机端、电脑版和网页版同步开放。</p><p class="ql-block"> 7月18日消息,腾讯元宝宣布已接入QQ音乐,在元宝APP中搜到歌名后即可直接点、直接听。</p><p class="ql-block">【功能服务】</p><p class="ql-block">AI搜索功能:</p><p class="ql-block"> 腾讯元宝支持语音和文字搜索,涵盖微信公众号和视频号等信源。搜索结果以图片、视频、音乐和地图等形式展现。</p><p class="ql-block">AI阅读功能:</p><p class="ql-block"> 腾讯元宝支持PDF、Word、PPT、Excel、TXT等格式文档识别,支持本地和微信上传。它能迅速总结文档要点,提供图文并茂的体验,并具备翻译、思维导图、学术海报等功能。</p><p class="ql-block">AI写作功能:</p><p class="ql-block"> 腾讯元宝可用于撰写报告、方案、文案和代码。</p><p class="ql-block"> DeepSeek R1模型集成深度思考与联网搜索功能,能够对用户提问执行深度分析、逻辑推理,并提供详尽回答。该模型同时利用联网搜索,确保回答的时新性和权威性。</p><p class="ql-block">【腾讯元宝·核心团队】</p><p class="ql-block"> 腾讯元宝的应用团队,以及混元技术研发,原属于腾讯TEG事业群(技术工程事业群)。</p><p class="ql-block"> 吴祖榕:现腾讯会议负责人,主要负责元宝的产品能力建设和体验优化。</p><p class="ql-block">影响评价:</p><p class="ql-block"> 腾讯元宝内的各个模型均支持联网搜索,覆盖公众号等腾讯生态内容及互联网权威信源,答案准确性更高。这也是元宝在众多AI(人工智能)应用中的差异化优势。(《新京报》 评)</p><p class="ql-block">软件事件:</p><p class="ql-block"> 2025年3月5日,针对腾讯元宝App旧版本用户协议内含“霸王条款”引发热议一事,腾讯元宝于微博回应称:“大家的意见已经收到,元宝最新版本已增加数据管理功能,新增了体验优化开关,且默认是关闭的,更新到最新版本后,在设置-数据管理中即可看到这个开关。”“默认状态下,用户输入输出的内容不会用于模型优化。”腾讯元宝表示,“针对大家关注的知识产权归属问题,您使用元宝时输入和输出的内容,权利归您或相应权利人所有,使用元宝并不会改变归属,感谢大家的批评与监督。”</p><p class="ql-block"> 2025年3月5日下午,腾讯公司公关总监张军回应了近期网络上关于“使用腾讯元宝将被迫授予文章使用权”的争议,称新增的数据开关默认关闭,输入输出内容都不会用于模型优化。同时,输出输入内容,腾讯元宝也不会改变它的权利归属。</p><p class="ql-block"> 2025年3月17日,据多名网友反馈,腾讯AI聊天助手元宝疑似崩溃,反复提醒进行登录界面,无法使用。腾讯元宝在官微回复称:“刚刚短暂出现登录异常,目前已经修复。”</p> <p class="ql-block">【剪映AI】</p><p class="ql-block">抖音旗下的视频编辑工具</p><p class="ql-block"> 剪映是抖音旗下深圳市脸萌科技有限公司开发的视频编辑应用,于2019年5月正式上线。</p><p class="ql-block"> 剪映客户端和移动端提供视频编辑服务。用户可以切割、剪切视频,调整播放速度,应用特效、转场效果。还有滤镜、美颜、文本、贴纸功能,支持多种字体、语音转字幕。音频方面,有音乐资源和变声功能。支持多端互通和一键分享。移动端还有画布比例、颜色选择,可自然转场,用贴纸、字体增添个性。支持语音转字幕、音乐播放与变声,提供画面调节、滤镜、美颜服务。</p><p class="ql-block"> 2024年10月,剪映以3712万的下载量位居榜单第二,仅次于ChatGPT。</p><p class="ql-block"> 12月11日,剪映和CapCut(海外版),在2024年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和CapCut的全球月活用户,也已经超过8亿。</p><p class="ql-block">软件名称:剪映</p><p class="ql-block">外文名:Capcut</p><p class="ql-block">软件语言:简体中文、日文、泰文、繁体中文、英语、葡萄牙文、韩文</p><p class="ql-block">软件平台:iOS、Android、macOS、Windows</p><p class="ql-block">软件版本:15.8.1(Android,2025年3月10日更新)</p><p class="ql-block">15.8.0(iOS,2025年3月4日)</p><p class="ql-block">软件大小:221.11 至 623.4 MB(iOS、Android,2025年3月10日更新)</p><p class="ql-block">上线时间:2019年5月12</p><p class="ql-block">总部地点:深圳市南山区招商街道水湾社区太子路51号太子广场1104</p><p class="ql-block">开发商:深圳市脸萌科技有限公司</p><p class="ql-block">最近更新时间:2025年3月10日</p><p class="ql-block">【研发背景】</p><p class="ql-block"> 随着短视频应用和5G网络的普及,视频成为重要的信息输出,内容获取的方式。相当一部分来自各行各业的新用户拥有丰富的知识和内容储备,却受限于视频剪辑能力,导致创作受阻。2019年5月,剪映正式上线。</p><p class="ql-block">【发展历程】</p><p class="ql-block"> 2019年5月,剪映移动端上线。9月,剪映上线剪同款专栏。同月,剪映登上App Store的榜首,视频创作从此“轻而易剪”。</p><p class="ql-block"> 2020年7月,剪映Pad适配版上线,从此实现移动端、pad端双端互通。9月,剪映上线创作学院专栏。11月,剪映专业版MacV1.0版本上线。剪映专业版布局适合电脑端用户。</p><p class="ql-block"> 2021年2月,剪映专业版Windows正式上线,自此实现移动端/Pad端/Pc端全终端覆盖。</p><p class="ql-block"> 9月9日,剪映移动端推出创作脚本、图文成片、提词器等新功能,电脑端专业版2.0版本升级了智能字幕、专业调色等工具,云草稿三端互通功能上传素材速度提升69%。</p><p class="ql-block"> 2022年12月,剪映发布企业版。</p><p class="ql-block"> 截至2023年5月,剪映已有近3000万用户使用过剪映云存储,累计云上存储的内容数量近15PB,累计文件数量超12亿个,有超过100万个团队在剪映上进行协同创作。</p><p class="ql-block"> 5月21日,剪映推出了“瞬息全宇宙”限免特效玩法。。截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用剪映。截至2023年9月11日,剪映在iOS和GooglePlay上的用户总支出已突破1亿美元,成为2023年上半年全球最吸金的视频剪辑应用。</p><p class="ql-block"> 2024年3月底,研发的AI创作平台“即梦AI”开放内测。5月9日,应用上线网页版。8月6日,应用移动版正式上架至苹果应用商店,拥有文生图和文/图生视频等功能。10月,剪映以3712万的下载量位居榜单第二,仅次于ChatGPT。</p><p class="ql-block"> 12月11日,剪映和CapCut(海外版),在2024年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和CapCut的全球月活用户,也已经超过8亿。</p><p class="ql-block"> 2025年6月,字节旗下剪映团队推出了一款名叫“小云雀”的内容创作Agent。这款产品号称“一句话打造一个爆款”,专为短视频创作、数字人口播及电商带货等场景设计,核心亮点是实现视频创作的“零门槛”。小云雀的核心功能包括智能成片、数字人视频、AI设计和AI换背景,都可以免费试用。</p> <p class="ql-block">【剪映AI】(二)</p><p class="ql-block">功能服务/客户端</p><p class="ql-block">基础编辑:</p><p class="ql-block"> 剪映的切割功能允许用户分割和剪切视频;变速功能支持调整视频播放速度。</p><p class="ql-block">特效与转场:</p><p class="ql-block"> 剪映的倒放功能提供时间倒流效果;转场功能支持多种视频过渡效果;滤镜与美颜功能提供滤镜和美颜功能。</p><p class="ql-block">文本与贴纸:</p><p class="ql-block"> 剪映的贴纸功能为视频添加个性化元素;字体与字幕功能提供多种字体选择,支持语音转字幕。</p><p class="ql-block">音频处理:</p><p class="ql-block"> 剪映的音乐库功能提供丰富的音乐资源;变声功能改变用户声音。</p><p class="ql-block">多端互通与分享:</p><p class="ql-block"> 剪映的多端草稿互通功能支持跨设备创作;一键分享功能方便分享视频至社交平台。</p><p class="ql-block"><br></p><p class="ql-block">剪映客户端/移动端</p><p class="ql-block">视频编辑:</p><p class="ql-block"> 剪映的切割功能允许用户分割、剪切视频;变速功能用户可以调整视频节奏;倒放功能则让视频倒放。</p><p class="ql-block">视频呈现:</p><p class="ql-block"> 剪映的画布功能提供多种比例和颜色供用户选择;转场功能支持多种效果,使视频过渡自然;贴纸功能和字体功能支持多种风格字体,字幕,标题;语音转字幕功能可自动识别语音,为视频添加字幕。</p><p class="ql-block">音乐播放:</p><p class="ql-block"> 剪映用户可以使用热门音乐,也可以在曲库中选音乐;同时,变声功能可以改变用户声音。</p><p class="ql-block">视频画面处理:</p><p class="ql-block"> 画面调节功能帮助用户调整视频色彩;滤镜功能提供多种风格滤镜;美颜功能可识别脸型,进行美颜。</p><p class="ql-block">视频剪同款:</p><p class="ql-block"> 剪映提供多款模板,包括大片、卡点、美食、萌娃、创意玩法等,供用户选择;操作简单,用户选择模板后点击剪同款,上传对应照片/视频素材即可生成视频。</p><p class="ql-block">视频创作学院:</p><p class="ql-block"> 剪映提供课程,内容覆盖脚本构思、拍摄、剪辑、调色、账号运营等主题,满足不同阶段用户需求;部分课程支持边学边剪,通过实操提升学习效果。</p><p class="ql-block">剪映移动端/运营模式</p><p class="ql-block">运营方式:</p><p class="ql-block"> 剪映APP的运营模式是通过引入会员制度和提供付费课程来实现内容付费,同时鼓励用户创作视频模板并设立官方奖励机制,与创作者共同分成形成良性盈利模式。剪映还积极开拓国内外市场,推出企业版向B端市场发力,并与抖音等主APP紧密合作形成互补优势。此外,剪映还注重用户教育和社区建设,通过“创作课堂”等平台提供付费课程,并建立创作者讨论群等社区,促进用户之间的交流和分享,推动内容创作和分发。</p><p class="ql-block">用户数据:</p><p class="ql-block"> 截止2022年,有超过1000万抖音商户正在使用剪映。</p><p class="ql-block"> 截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用剪映。</p><p class="ql-block">核心团队:张楠</p><p class="ql-block">剪映业务负责人:王学智</p><p class="ql-block">【重要事件】</p><p class="ql-block">创作大会:</p><p class="ql-block"> 2021年9月9日深圳,剪映举办首届创作大会,相关负责人公开众多产品新功能。剪映移动端推出创作脚本、图文成片、提词器等新功能,电脑端专业版2.0版本升级了智能字幕、专业调色等工具,云草稿三端互通功能上传素材速度提升69%。</p><p class="ql-block">创作者沙龙:</p><p class="ql-block"> 2023年5月21日,剪映举办创作者沙龙,公布未来将加大商业模板创作激励,服务更多中小企业用户。活动现场,阿宁、苏余年、莱莱等模板创作者分享了在剪映平台的创作感受。</p><p class="ql-block">“剪出爆款,备战618”活动:</p><p class="ql-block"> 2023年5月31日,剪映推出了“剪出爆款,备战618”活动,活动期间,商家使用行业模板进行投稿有机会获得额外流量奖励,包括最高5000元千川新客流量券、最高300元DOU+流量包。同时,剪映还将面向商家开放优质行业模板限时免费使用和0门槛剪辑实操课程免费学习机会。</p><p class="ql-block">公益活动:</p><p class="ql-block"> 2020年2月15日,剪映、抖音与人民日报新媒体携手,邀请导演张一白作为艺术指导,汇集疫情之下抖音用户创作的真实故事,共同推出全场三分多钟的短片《美好终将到来》。</p><p class="ql-block"> 2022年8月12日下午,一场名为“视频实验室:跟着剪映制作环保主题Vlog”的培训课程Today at Apple 课程在北京Apple三里屯零售店举行。课程中,剪映产品经理张天奇分享了在iPhone上使用剪映APP的创作脚本功能剪辑素材,制作环保主题Vlog的相关方法和技巧。</p><p class="ql-block">争议相关/短视频模板著作权侵权纠纷案</p><p class="ql-block"> 2020年11月,“剪映”平台却在某平台上发现一条与自己相同的短视频模板,“剪映”认为对方的行为侵害了自己的权益,遂将某平台运营公司诉至杭州互联网法院。11月26日,杭州互联网法院组成合议庭,由杜前院长担任审判长,在线开庭审理了脸萌公司、微播视界公司诉杭州某科技公司和杭州某影股份公司侵害作品信息网络传播权纠纷一案。这是首例涉短视频模板著作权侵权纠纷案。</p><p class="ql-block">剪映强制收取连续包月会员费用:</p><p class="ql-block"> 2023年7月,有消费者反映称在2023年上半年被剪映强制收取连续包月会员费用,且在取消自动续费时遇到入口隐蔽、步骤繁琐的问题。</p><p class="ql-block">软件侵权案:</p><p class="ql-block"> 2024年6月,北京市高级人民法院对美摄公司诉抖音、剪映两款软件侵权案作出一审判决,判令北京抖音科技有限公司、北京抖音信息服务有限公司(以下合并简称为“抖音公司”)、深圳市脸萌科技有限公司(以下简称为“脸萌公司”),向美摄公司就侵害修改权的行为公开赔礼道歉,并赔偿美摄公司经济损失及合理支出共计2043.47万元。</p><p class="ql-block">经营业绩:</p><p class="ql-block"> 2023年上半年,剪映在美国iOS应用商店中最赚钱的订阅选项是“一年PRO”,一年订阅价为74.99美元(约546元人民币),占消费者总支出的近34%,其次是7.99美元(约58元人民币)的月订阅占比26%。</p><p class="ql-block"> 2024年12月,字节跳动旗下创作工具剪映和CapCut,在2024年实现了超过三位数收入增长,总收入正接近百亿元人民币。同时,剪映和CapCut的全球月活用户,也已经超过8亿。</p><p class="ql-block">影响评价:</p><p class="ql-block"> 未来,剪映将继续丰富行业模板素材,服务更多专业领域,进一步降低内容创作门槛,推动包括面向媒体行业的新闻严肃调性模版、面向教育行业的科普类严谨调性模版等产出。(中新网 评)</p> <p class="ql-block">【可灵AI】</p><p class="ql-block"> 快手AI团队自研的视频生成大模型。</p><p class="ql-block"> 可灵(KLING),是快手AI团队自研的视频生成大模型。生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。</p><p class="ql-block"> 2024年6月6日,“可灵”视频生成大模型官网正式上线;6月21日,快手“可灵”视频生成大模型宣布推出图生视频功能;7月6日,可灵AI的网页端正式上线;12月6日,“可灵AI导演共创计划”上线;2月19日消息,可灵1.6模型发布。</p><p class="ql-block"> 2025年4月15日,快手可灵AI宣布基座模型再次升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。</p><p class="ql-block">中文名:可灵</p><p class="ql-block">外文名:KLING</p><p class="ql-block">上线时间:2024年6月</p><p class="ql-block">属性:视频生成大模型</p><p class="ql-block"><br></p><p class="ql-block">【模型简介】</p><p class="ql-block"> 快手最新发布的国产视频生成大模型“可灵”大模型。</p><p class="ql-block"> 可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。</p><p class="ql-block"><br></p><p class="ql-block">【发展历史】</p><p class="ql-block"> 2024年6月6日,“可灵”视频生成大模型官网正式上线。可灵大模型已在快影App开放邀测体验。</p><p class="ql-block"> 2024年6月21日,快手“可灵”视频生成大模型宣布推出图生视频功能,支持根据不同文本内容,将静态图像转化为生动的5s视频。</p><p class="ql-block"> 当天,可灵还对外发布了视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟。</p><p class="ql-block"> 2024年7月6日,可灵AI网页端正式上线,限时免费,集成文生图、文生视频相关能力。</p><p class="ql-block"> 同天,快手宣布可灵AI基础模型再度升级,推出更加清晰的高画质版,以及首尾帧控制、镜头控制等全新编辑能力,同时,创作者单次生成的文生视频时长增加至10秒。</p><p class="ql-block"> 2024年7月24日,快手视频生成大模型可灵AI宣布基础模型再次升级,并全面开放内测。可灵AI还宣布正式上线了会员体系。</p><p class="ql-block"> 7月30日,快手视频生成大模型可灵AI宣布正式推出全球会员服务,针对不同类别的会员,提供相应的专属功能。</p><p class="ql-block"> 8月,快手可灵AI推出会员订阅计划,其中连续包月首月最低价仅19元,可生成约66个视频或3300张图片,还可享受高表现视频生成、视频延长、大师运镜等多项会员专属功能。</p><p class="ql-block"> 9月9日,快手宣布正式启动“可灵AI”导演共创计划。</p><p class="ql-block"> 快手将联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位导演,制作出品 9 部 AIGC 电影短片,9 部短片将全部由可灵 AI 进行视频生成。</p><p class="ql-block"> 2024年12月19日消息,快手可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型。</p><p class="ql-block"> 2025年4月15日,快手举行“灵感成真”可灵 AI 2.0 模型发布会,并宣布基座模型再次升级,面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。</p><p class="ql-block"> 可灵2.0大师版也同步发布,上线全新的多模态视频编辑功能,能灵活理解用户意图。支持在一段视频的基础之上,通过输入图片或文字,对生成的视频内容实现元素的增加、删减、替换,帮助创作者们实现更加灵活的二次编辑和处理。</p><p class="ql-block"> 2025年5月29日,快手可灵 AI 推出全新 2.1 系列模型,高品质模式(1080p)下生成 5s 视频仅需不到 1 分钟。据了解,其在标准模式(720p)下生成 5s 视频仅需 20 灵感值,高品质模式(1080p)下也只需 35 灵感值,成本下降 65%。</p><p class="ql-block">会员类别:</p><p class="ql-block"> 全球会员体系与国内相似,也分为三个类别,以月卡为例,三档会员价格分别为10美元、37美元和92美元,对应分别获得660、3000 、8000“灵感值”,可生成约66个、300个或800个5s高性能视频。除月卡外,还提供季卡、半年卡、年卡等多种套餐。</p><p class="ql-block">发展数据:</p><p class="ql-block"> 截至2025年4月,可灵全球用户规模突破2200万。</p><p class="ql-block"><br></p> <p class="ql-block">【以领导干部谈AI:人工智能推动第四次工业革命】</p><p class="ql-block"> 《以领导干部谈AI:人工智能推动第四次工业革命》是陈海波于2020年在中国出版的科技类图书,由中共中央党校出版社发行。该书立足于第四次工业革命背景,聚焦人工智能技术在国家战略层面的角色,旨在为各级领导干部提供决策参考。</p><p class="ql-block"> 全书系统解析人工智能与数字经济、制造业融合等理论框架,结合国内外实践案例,探讨AI技术对社会发展、国际竞争格局及基础研究的影响。通过“AI+城市管理”“AI+医疗”等十余个行业应用场景,阐述技术赋能实体经济的实施路径。作者基于产学研结合视角,分析中国人工智能产业的技术布局与发展方向,强调基础研究对产业可持续创新的支撑作用。</p><p class="ql-block">【创作信息【】</p><p class="ql-block">作者:陈海波</p><p class="ql-block">【出版信息】</p><p class="ql-block">出版时间:2020年1月1日</p><p class="ql-block">出版社:中共中央党校出版社</p><p class="ql-block">内容简介</p><p class="ql-block">《以领导干部谈AI:人工智能推动第四次工业革命/黑科技系列丛书》在论述人工智能与第四次工业革命、数字经济、制造业深度融合等理论问题的同时,还提供了内容翔实、图文并茂的案例库,介绍了多家知名人工智能企业赋能不同行业的成果,便于各级领导干部更好地理解技术应用的范围与效果,认识人工智能在推动经济高质量发展中的重大作用。</p><p class="ql-block">《以领导干部谈AI:人工智能推动第四次工业革命/黑科技系列丛书》旨在帮助各级干部及时把握人工智能兴起的历史机遇,通过大力支持人工智能应用及相关产业的发展,更好地推进当前中国经济社会面临的新旧动能转换、产业转型升级等重大任务,有力地推动我国发展不断朝着更高质量、更有效率、更加公平、更可持续的方向前进。1</p><p class="ql-block">图书目录</p><p class="ql-block">第一章 人工智能驱动人类美好生活</p><p class="ql-block">第一节 什么是人工智能</p><p class="ql-block">第二节 人工智能产业图谱</p><p class="ql-block">结语</p><p class="ql-block">第二章 人工智能已成为国际竞争新焦点</p><p class="ql-block">第一节 科技创新决定国际竞争格局</p><p class="ql-block">第二节 人工智能——新一轮国际军事革命的暴风中心</p><p class="ql-block">第三节 我国在这场人工智能竞争中的表现</p><p class="ql-block">结语</p><p class="ql-block">第三章 人工智能引领第四次工业革命</p><p class="ql-block">第一节 前三次工业革命:颠覆,还是颠覆!</p><p class="ql-block">第二节 第四次工业革命:人工智能开启未来之门</p><p class="ql-block">第三节 中国不能再失去第四次工业革命的机遇</p><p class="ql-block">结语</p><p class="ql-block">第四章 人工智能带动数字经济蓬勃发展</p><p class="ql-block">第一节 人工智能为经济发展注入新动能</p><p class="ql-block">第二节 我国数字经济量质齐升</p><p class="ql-block">第三节 数字经济迈入以人工智能为主的发展新阶段</p><p class="ql-block">第四节 人工智能助推数字经济跨越式提升</p><p class="ql-block">第五节 人工智能赋能数字经济</p><p class="ql-block">结语</p><p class="ql-block">第五章 推动人工智能和制造业深度融合</p><p class="ql-block">第一节 中国工业现代化进程要补课</p><p class="ql-block">第二节 中国工业化发展进入新阶段</p><p class="ql-block">第三节 人工智能助力制造业高质量增长</p><p class="ql-block">第四节 人工智能与制造业深度融合将成重头戏</p><p class="ql-block">结语</p><p class="ql-block">第六章 基础研究引领人工智能未来之路</p><p class="ql-block">第一节 基础科学的定义、特征及重要性</p><p class="ql-block">第二节 中美科技竞争力差距到底有多大</p><p class="ql-block">第三节 基础理论研究是人工智能持续发展的保证</p><p class="ql-block">结语</p><p class="ql-block">第七章 人工智能赋能行业解决方案及应用落地案例</p><p class="ql-block">AI+城市管理</p><p class="ql-block">AI+交通</p><p class="ql-block">AI+教育</p><p class="ql-block">AI+零售</p><p class="ql-block">AI+金融</p><p class="ql-block">AI+办公楼宇/园区/社区</p><p class="ql-block">AI+医疗</p><p class="ql-block">AI+安防</p><p class="ql-block">AI+制造/工业自动化</p><p class="ql-block">AI+通信运营商</p><p class="ql-block">AI+供应链</p><p class="ql-block">AI+文娱</p><p class="ql-block">AI+农牧</p><p class="ql-block">AI+环卫</p><p class="ql-block">其他案例</p><p class="ql-block">结语</p><p class="ql-block">后记</p><p class="ql-block">作者简介</p><p class="ql-block">陈海波,深兰科技DeepBlue Technology的创始人,南京工业大学特聘教授,清华大学-深兰科技机器视觉联合研究中心管理委员会主任;上海交通大学-深兰科技人工智能联合实验室管理委员会主任、中南大学-深兰科技人工智能联合研究院专家委员会委员,致力于人工智能的基础研究和应用开发,创建的深兰科学院拥有人工智能研究院、科学计算研究院、生命及AI脑科学院、自动化研究院和智能汽车研究院。</p><p class="ql-block">团队拥有包括CVPR、PAKDD、IEEEISI等多项国际竞赛冠军成绩,在自动驾驶和整车、机器人研发及制造、生物科技、自然语言处理(语义智能)、数据挖掘等领域都有深度布局。</p> <p class="ql-block">【以下是一些免费的AI软件】</p><p class="ql-block">【语言模型类】</p><p class="ql-block"> 文心一言:</p><p class="ql-block"> 百度推出的知识增强大语言模型,2025年4月起全面免费,支持超长文档处理、实时联网搜索、多模态生成等,适合学术研究、自媒体运营、企业报告等场景。</p><p class="ql-block">通义千问:</p><p class="ql-block"> 阿里云的大语言模型,具备多模态能力,支持文本生成、图像理解、语音交互等,免费版每日可生成50张高质量图片,企业用户可免费调用基础模型。</p><p class="ql-block">豆包:</p><p class="ql-block"> 字节跳动开发,能实时检索信息,支持生成高清壁纸和短视频脚本等,用户可上传文档创建专属AI助理,交互方式多样,适合碎片化场景。</p><p class="ql-block">Kimi Chat:</p><p class="ql-block"> 月之暗面开发,支持超长文本处理,可解析多种格式文件并提取关键信息,基础版免费,适合科研人员和内容创作者。</p><p class="ql-block">讯飞星火:</p><p class="ql-block"> 科大讯飞推出,在教育场景表现出色,如数学题解析、英语作文批改等,免费版每日提供200万Tokens额度,还支持医疗、法律等专业领域。</p><p class="ql-block">【设计类】</p><p class="ql-block"> 稿定设计:</p><p class="ql-block"> 在线设计平台,输入关键词可自动生成海报、PPT封面等,每日有20次免费抠图和换背景机会,还有大量可商用素材,适合中小微企业营销。</p><p class="ql-block">腾讯AI Design:</p><p class="ql-block"> 基于腾讯混元大模型,内测阶段开放全部功能,输入品牌名称和关键词,3秒生成多套VI方案,适合初创企业和个人品牌。</p><p class="ql-block">【视频创作类】</p><p class="ql-block"> 剪映AI:</p><p class="ql-block"> 抖音旗下,智能剪辑功能强大,输入主题可自动生成带特效的视频模板,基础剪辑功能免费,适合短视频创作者。</p><p class="ql-block">即梦AI:</p><p class="ql-block"> 支持文生视频和图生视频,每天登录送积分,可免费生成多个视频,在动作幅度较大的视频生成方面表现出色。</p><p class="ql-block">【教育类】</p><p class="ql-block"> 小思AI:</p><p class="ql-block"> 学而思开发,可拍照识别作业题并提供讲解和错因分析,还能辅导作文,适合中小学生。</p><p class="ql-block">腾讯翻译君:</p><p class="ql-block"> 支持多种语言翻译,可通过拍照、语音等方式输入,方便学习外语和查阅资料。</p><p class="ql-block">【办公类】</p><p class="ql-block"> 听脑AI:</p><p class="ql-block"> 会议助手软件,能实时录音转文字,自动区分发言人,生成会议纪要和待办事项,基础版每月提供10小时转写时长。</p><p class="ql-block">ChatPPT:</p><p class="ql-block"> 输入主题即可快速生成PPT文档,还有不同风格和色彩可选,生成后可下载到本地编辑,节省制作PPT的时间和精力。</p>