半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践

发布于: 雪球转发:0回复:0喜欢:0

演讲嘉宾 | 刘澈 快手大模型与多媒体技术部智能交互团队负责人

在 QCon 北京 2024 大会上,快手大模型与多媒体技术部智能交互团队负责人刘澈,根据自己在快手的实践经历,发表了题为《快意大模型在短视频互动场景的应用探索》的演讲,其中重点分享了快意大模型微调阶段的数据工程以及对齐技术,以及基于快意大模型在快手短视频互动场景中打造的 C 端智能助理 —— AI 小快的相关研发经历。

本文经刘澈老师基于演讲内容整理并授权 InfoQ 发布。

一、大模型技术的诞生与发展

语言是沟通之桥,自计算机诞生之时,人类便一直致力于研究和实践如何赋予机器类似人类的沟通和互动能力。长久以来,这一领域充斥着挑战,然而,随着大模型技术的出现和发展,这一难题得到了革命性的突破。

大模型的发展可以追溯到2018年。在Google提出Transformer模型架构后,研究者们引入了Masked Language Model任务,来基于海量数据对Transformer进行预训练,成功开发出BERT模型,并在GLUE等自然语言理解任务榜单上取得显著提升。之后,预训练逐渐向具有更深、更宽的超大规模神经网络方向前进。2020年,OpenAI推出了GPT-3,拥有高达1750亿个参数,通过Scaling Law的方式让模型能力有了显著提升。在2022年底,OpenAI进一步推出了ChatGPT,这是基于预训练模型进行指令微调(SFT)和基于人类反馈的强化学习(RLHF)对齐的版本,成功激发了超大规模预训练模型中的语言知识,增强了模型在各种任务上的适应性,大幅提升了AI模型在人类指令执行和对话互动方面的能力。

ChatGPT发布后,国内各互联网公司纷纷布局,在2023年一年中先后发布数十个自研AI大模型,标志着人工智能技术的竞争正式进入了一个新的阶段。这些大规模模型体现出各公司在AI领域的深入研究力量,未来越来越多的AI技术将会更深地融入到人们的日常生活中。无论是常识问答、阅读理解、角色扮演,还是代码编写、数学运算、逻辑推理等应用领域,大规模模型都已经展现出其庞大的应用潜力。

二、快意大模型的技术创新

面对ChatGPT这一划时代的技术革新,快手迅速作出反应,开始积极布局大模型领域,制定全新的AI战略。首先,在AI算力基建方面,快手着手构建了千亿参数级的大模型训练及推理基础设施,并通过Infra架构层面的优化,将模型算力利用率(MFU)提升至业界领先水平;其次,在数据方面,依托短视频和直播场景,快手构建了海量的文本和多模态数据,涵盖了百科、新闻、书籍、评论、菜谱、论文、问答社区、博客等各类内容,并对这些数据进行深度清洗,确保训练超大规模语言模型具备足够高质量的tokens。经过1年的研发周期,快手正式推出了自研“快意大模型”(KwaiYii),在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果,并开启了短视频场景下大模型落地时代。

快意大模型沿用了Transformer decoder-only技术架构,设计有13B、66B、175B三种参数规模,在每个参数规模下包含预训练模型(KwaiYii-Base)对话模型(KwaiYii-Chat)两个版本。通过在4T+高质量tokens上进行预训练和百万级高质量指令数据上进行对齐,快意预训练模型和对话模型已在行业权威评测榜单上取得显著领先的效果,其中175B版本模型的表现已接近GPT-4

三、AI 小快——具备多模态

人格化能力的情感陪伴机器人

大模型主要有两条落地应用赛道,分别是AI生产力工具和AI消费娱乐伴侣。AI消费娱乐伴侣不仅能满足用户的信息获取、娱乐互动等需求,还能够为各类群体提供社交和陪伴等情绪价值,具备极高的用户粘性,因此受到业内外广泛关注。

快手站内,用户在浏览短视频过程中也有广泛的信息获取、互动讨论以及情感陪伴需求,因此快手AI团队基于快意大模型推出了官方消费娱乐智能助理-AI小快。AI小快主打特点是有用,通过整合多模态视频理解、RAG搜索结果、评论上下文等社区文化知识,AI小快能够解答用户提出的常识和视频内容理解问题,同时,AI小快还具备有趣和有温度的特点,例如,当被问及"什么才是世界上最甜的东西?"时,AI小快能够给出一个充满情商的答案:"世界上最甜的东西,或许是爱情、亲情或者友情中的甜蜜瞬间吧。甜到了心坎里,让人忍不住微笑与感动"。这样的回答不仅符合人类的情感认知,还获得了大量用户的点赞和喜爱,因此在上线的半年时间里,AI小快凭借自身优势迅速涨粉1000万,受到站内外用户广泛关注。

AI 小快实用案例

AI小快具备这样能力的原因,源于快手快意大模型在情感陪伴领域的实践成果。众所周知,ChatGPT/GPT-4等通用大模型落地于互动娱乐场景时,会存在着风格机械、答案刻板的问题,因此难以和用户形成良好的互动共鸣。为了让大模型学会“说人话”,并具备用户喜闻乐见的人格形象,快手AI团队在类人对话方向深入探索,从人物客观背景信息、人物风格化形象呈现、内在人格刻画三个层面,由表及里构建了数万级的人物形象卡片及训练数据,进行快意情感陪伴大模型的微调,从而显著强化了模型在类人对话方面的表现。目前快意情感陪伴大模型已在类人对话权威评测榜单CharacterEval取得总分第一的结果,显著优于情感陪伴赛道同类产品,如Baichuan-NPC,MiniMax,通义星辰等。

此外,要形成良好的人机互动效果,AI小快必须能够理解和处理超长轮次对话。在这个技术领域内,业界还存在诸多待解决难题,例如如何构建超长轮次对话数据、如何加强模型的远程理解和记忆能力、以及如何进行完善的评测。为此,快手AI团队先后提出两项关键技术:在超长轮次对话数据构建方面,团队提出了基于大模型的用户提问模拟器技术(Parrot);在完善评测体系方面,团队提出了长多轮对话评测榜单(DialogBench)。具体来说,在超长轮次对话数据集构建方面,Parrot引入了Learning to Ask的思想,即首先基于大模型学习人类的提问内容和行为,训练出一个"提问模型"(Parrot-Ask Model),之后让该提问模型和人类标注员进行对聊,收集超长轮次的对话数据,并用这些数据训练最终的对话模型(Parrot-Chat Model)。这个方法将业界大模型的多轮对话能力普遍提升7pp以上,并取得同规模参数下MT-Bench/MT-Bench++榜单的SOTA水平。而在评测基准构建方面,快手AI团队创新引入了基于GPT4自动出长多轮考卷的方案,构建了业界首个评测预训练和SFT模型类人对话能力的榜单DialogBench,全面覆盖意图识别、槽位填充、知识/常识/人格特征感知的回复生成等12项任务,最大化规避了人工构建考卷时存在的主题不均衡、先验知识不正确、互动风格单一等不可控因素。两项工作相关论文获得ACL'24和NAACL'24主会高分录用。

值得一提的是,尽管AI小快已经具备一定影响力,其在实践中仍面临诸多挑战,例如多模态内容理解、人格化挑战以及价值观对齐等问题任重道远。快手AI团队将继续致力于解决这些问题,以实现社会视角、公司视角、用户视角三个维度的平衡共赢。展望未来,快手将继续探索大模型落地短视频场景下的技术边界,并努力将AI小快等优秀产品推向更广阔的市场,为用户带来更加丰富多彩的娱乐和消费体验。

内容推荐

大模型技术正在引领行业发展创新浪潮。那么,如何让大模型技术与行业深度融合?如何通过大模型技术为各行各业提供更加智能化的解决方案?在金融、法律、医疗、教育、政府等各行业的实践场景中,又有哪些大模型落地经验?「AI 前线」特别为您精选了刚刚结束的AICon 全球人工智能开发与应用大会上的精彩演讲,并经过嘉宾授权将演讲的精彩 PPT 提供给大家。关注「AI 前线」,回复关键词「行业创新」即可免费获取。

活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。

今日荐文

禁令再升级!拜登政府已不想让中国人在美从事AI工作了,套壳大模型的公司也危险了

老黄急了!为跟华为抢业务,英伟达也得低头降价,但大家已经不买账了?

13分钟颠覆传统电脑!微软Copilot+ PC 抢装GPT-4o、叫板苹果,网友不买账:用大炮打蚊子

老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万

OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型

你也「在看」吗?