实录|粉笔CTO陈建华:AI是教育领域变革的催化剂

发布于: 雪球转发:0回复:0喜欢:0

7月12日,粉笔(02469.HK)智教无界AI发布会圆满举行。发布会上,粉笔推出自主研发的首个专注于职教行业的垂域大模型,并宣布将于8月1日上线粉笔AI老师 “粉笔头”,为学员提供个性化、智能化的辅导服务。

发布会上,粉笔CTO陈建华发表讲话,他表示:“粉笔投入开发自研垂域大模型,基于10年来的教研积累、独有数据搭建RAG系统,采用分治法,力求为粉笔用户提供更加深入、准确且有价值的答案,以及革命性的学习体验”。

以下为陈建华讲话实录。

尊敬的各位来宾、同事、媒体朋友们,大家好!

我是粉笔的CTO陈建华。今天非常高兴能够在这里与大家分享,共同见证我们粉笔大模型产品——粉笔AI老师的正式发布。

在众多行业领域中,教育被广泛认为是大模型技术应用的前沿阵地,其重要性不言而喻。这与我们粉笔科技的使命和愿景不谋而合。

经过近两年的探索,我们在今天正式宣布推出 自主研发的、 首个专注于职教行业的、垂域大模型。

作为一家专注于技术创新的科技教育企业,我们在过去十年,始终致力于将前沿科技与教育实践深度融合。

1)我们推出了预测分的功能,它是基于海量的做题数据和教研对考点的深入理解,通过IRT(项目反应理论)来评估学员对知识点的掌握程度,实现学员考试分数的精准预测。根据我们的实际调研数据,预测分的准确率可以达到85%以上。

2)我们15年就开始自研RTC互动直播系统,可以支持50万人同时在线互动直播,直播的延迟可以控制在300毫秒以内,并有效地解决了上课卡顿的问题;

3)从2015年开始,粉笔智能批改系统就已经应用于学生的主观题的批改中,极大地提升了批改的效率和准确性。17、18年Transformer和BERT等深度学习模型发布后,我们便开始探索如何将BERT应用于论点识别以及论证分析等中;我们的智能批改一直是业界遥遥领先的水平。

4)除此之外,我们在个性化智能练习、无人自习室、智慧教室等等方面也有很多的探索。

取得的这些成绩,归功于我们对“科技+教育”的持续深耕。我们相信,AI不仅仅是技术的突破,更是教育领域变革的催化剂。它不仅会改变教育的形式和内容,还会对教育目标、教学方法和评价体系产生更为深远的影响。

大模型时代到来:落地即应用

早在2022年,我们的就关注到了AIGC生成图片的技术(Midjourney和stablediffusion)。22年底ChatGPT震撼发布,我们更是第一时间进行了体验。我相信,很多人会跟我们一样,不由得赞叹:“它居然真的可以像真人一样的理解和回答各种问题”。这种惊艳感源自AI技术那令人瞩目的指数级的进步。

面对这样的趋势,我们以“大模型技术将如何为我们的业务发展注入新的活力与可能”为出发点与立足点,我们会关注和思考三个方面

1)prompt提示词的重要性是被低估了,还是被高估了?

我们的观察是,更多时候大家低估了prompt的重要性;一个高质量的prompt才能非常好的发挥大模型的能力;而写一个高质量的prompt不仅仅需要很多的技巧和设计,更需要对问题领域的深刻理解和抽象;

2)AGI通用人工智能是不是在短期内就会实现?

我们对AGI的理解,是在现有的大模型基础上面, 还需要叠加长期记忆能力,逻辑推理能力和自我进化的能力。对于AGI的实现,我们长期保持乐观,但是短期内会面临非常大的挑战。

3)垂直领域的大模型有没有存在的必要?

业内一直有一种说法,随着通用大模型能力的不断提升,垂域模型没有存在的必要。对此,我们有不同的看法。基于我们独有的数据、教研的长期积累和对于用户的深度洞察,我们的垂域模型一定可以在职教这个垂直领域做到比通用大模型更好的效果。

带着这些初步思考和判断,我们从2023年第一季度开始摸索大模型和教育的结合。

1)我们发现在某些场景里,通用大模型的表现不能达到我们的期待:

答题场景:我们最初尝试让大模型像学生一样,去解答粉笔题库中的各类题目。在回答行测这类客观题时,它的回答正确率非常低。

命题场景:接下来我们又尝试让通用大模型进行模拟题的命制。在粉笔,为了满足模考大赛、精品班等产品线对模拟题的需求,教研每年大概需要花5万个小时,这是一个非常巨大的工作量。实际测试下来,我们发现,通用大模型只能做到模仿题目的形态,在难度、内容、考点设置上都无法满足需求。

2)但是在点评环节中,我们也有一些惊喜的发现:

面试点评是学员备考环节的刚需,目前主要是由老师人工完成,效率低、单价高。如果借助AI辅助老师来做面试点评,老师的点评时间可以从20分钟缩短到5分钟以内。我们评测下来,AI面试点评的可用率在90%以上。

经过这些尝试,我们的技术团队有一些初步的成果:

1)大模型在B端、内部提效方面更容易落地。例如我们的面试点评场景,通过大模型给出点评内容, 再由辅导老师把关输出到学员侧,可以达到非常好的效果;

2)在学习点评这种受限的小场景下,可以用大模型实现一个非常好的效果,并且比较可控。

3)对准确性要求极高的教育场景下,C端应用的落地,面临着非常大的挑战。其中最大的挑战,就是大模型的“幻觉”问题,例如历史人物类的常识问题有可能张冠李戴。这一点对于教育来说,是“致命“的。

通过不断的实践与思考,我们进一步确认了,将大模型技术应用到教育的实际业务中的路径:

1)垂域大模型开发是必要的

首先垂域大模型开发是必要的。职教考试拥有一套全面、结构化且有特色的考察体系。然而,面对这一体系,通用大模型在其中的表现并不尽如人意。

开发垂域模型,意味着我们可以用更小的模型、更低的成本,实现更好的效果。对于粉笔而言,这不仅是必要的,更是切实可行的。

2)RAG(检索增强生成)辅助,克服幻觉

在学员备考的场景中,例如答疑、学习规划、心理辅导等等,我们也积累了大量高质量的知识库数据,通过RAG的方式,即检索增强生成,可以让大模型的对问题的理解更加契合学员的需求,回答也更加准确和可靠。

经过对大模型的探索和在业务中的实践,再加上教研和技术团队的合作,粉笔又将迎来了一次激动人心的飞跃-粉笔AI老师将会在8月1日与大家正式见面。下面请大家通过一段视频,提前了解一下我们的粉笔AI老师。

相信大家在观看完这段视频后,已经对粉笔AI老师有了初步的认识。我们设计了十大服务场景,这些场景贯穿学员的整个在备考过程,从入班测试,到第一阶段理论学习,再到第二阶段的强化训练、以及模拟套卷阶段,直至最后的冲刺阶段,全程陪伴,助力备考。

用户输入提问后,会通过意图识别,识别出用户想问的服务场景,可能是题目答疑、考情咨询、报考指导等;然后针对具体的场景,基于我们的场景的知识库,通过RAG + 垂域大模型来生成对应的答案。

为了达到全流程的服务,在技术实现过程中,需要不断的进行数据的采集、清洗和整理、标注,垂域模型的预训练和微调,生成效果的评测,整个过程大概重复了十几次。同时还需要把我们的知识库数据进行chunk划分、embedding,接入RAG系统,最后跟我们的整个题库、课程、社区等系统和数据打通。

攻克挑战 垂域大模型落地

在AI老师的整个开发过程中, 我们遇到了很多挑战,在这里跟大家分享两个。

第一个难点就是意图识别:在相对开放的环境下,让垂域大模型真正担任老师的角色回答学生提问时,我们会发现学生提问的方式会比我们想象的复杂得多。比如一道题目,用户既可以问选项,又可以问题干,还可以结合自己对知识点的理解延伸发问。又比如提问方式多变,他可能问:老师这道题太难了,能再给我讲解一遍吗?这是题目讲解;他可能问:老师这道题太难了,中心理解题该怎么做?这是知识点答疑;她还可能问:老师这道题目太难了,行测该怎么学?这是学习规划。

在十多轮数据标注过程中,我们不断明确场景边界,优化算法策略,粉笔AI老师的意图识别准确已经达到98%以上。

第二个难点,如何在避免幻觉的基础上,给出精准的回答。

幻觉是大模型落地的普遍会遇到的一大难题。

众所周知,教育领域本身具备严肃性和专业性,也让我们对错误的容忍度极低。为了解决这个问题,一方面,基于10年来我们在教育领域的教研积累、独有数据,搭建我们的RAG系统,以及利用CoT,即思维链,让大模型按照步骤循序渐进的进行推理,从而让AI老师的回答更加可靠;另一方面,采用分治法,将复杂的问题拆分成足够简单的任务,再让模型去处理,效果远好过于直接将复杂的任务交给模型处理。

1:完全不可用,问题理解错误或回答错误;2:基本不可用;问题基本理解,修改60%以内可用;3: 可以参考;回答正确,修改40%以内可用;4: 基本可用;回答正确,修改20%以内可用;5: 可用性较高;回答正确,几乎不需要修改;图:粉笔AI老师评分解决了一个个的难点后,我们的AI老师终于达到了不错的效果。

这是我们在题目答疑场景上面不同科目的一个评分,该评分经过我们多组教研老师盲评后得出。

大家可以看到,直接使用通用大模型时,各科目的评分普遍在3分以下,这意味着模型的回答需要至少调整40%以上,才能勉强达到可用的标准。

而当我们尝试将通用大模型与RAG(检索增强生成)技术结合后,评分提升至3.5分左右,效果有了明显改善。这时,大约20%到40%的内容调整就能使结果变得可用。

更进一步地,经过多轮的预训练和微调,粉笔垂域大模型和RAG结合,整体评分能够轻松突破4分。这意味着,很多内容不需要修改,就能直接使用。值得注意的是,这些需要调

整的地方大多集中在大模型语言表达略显冗长、举例不够贴切等非核心错误上,属于可快速优化的范畴。

除此之外,我们也深入评估了包括题目答疑、知识点答疑、考情分析及报考指导在内的多个核心服务场景。这些评测结果均令人鼓舞,每个场景均稳定地获得了4分以上的高分评价。这充分证明了

我们的AI老师在应对考生多样化需求时,能够提供准确、详尽且实用的解答与指导。

我们的粉笔AI老师,就像学习路上的GPS导航,可能非常偶尔会犯迷糊,但总会指引你直达正确答案。可以自豪地说,截止到目前,在职教领域没有人比我们能做的更好。

同时,我们更加丰富的AI场景还在开发中。

1)申论AI老师

我们预计今年会上线的申论AI老师,采用启发式答疑的方式,引导审题,查找重点,然后进行作答,同时会结合学员的作答进行批改和讲解。

2)面试AI老师

当学员需要进行面试练习的时候,就可以拉上我们的AI老师进入模拟面试直播间,就跟真人一样的进行面试练习,让学生几乎意识不到自己在和AI对话。

3)此外,我们的事业单位、教师项目的AI老师也在筹备中。

“每个产品都值得用大模型技术重做一遍”,这句话相信不少人都听过。这里的“重做”不是要推倒过去已有的成果,而是借助于大模型,从效率、过程和结果上,重塑整个流程,以提供更多的可能性。粉笔AI老师,这不仅是一个产品,更是我们对教育未来的一次大胆构想和承诺。

未来挑战依然在,但是教育重塑的进程已经不可阻挡,粉笔邀请你来一起见证,谢谢大家!

#粉笔发布首个职教行业AI大模型#

$粉笔(02469)$