【AI大模型展】拓天大模型——高质量数据的专业大模型

发布于: 雪球转发:0回复:0喜欢:0

拓天大模型

该AI大模型由拓尔思投递并参与数据猿与上海大数据联盟联合推出的《2024中国数智产业AI大模型先锋企业》榜单/奖项评选。

拓天大模型是凝聚拓尔思在NLP领域30年技术创新和积累、10余年高质量数据和知识资产建设经验,以及在垂直行业10000多家企业级用户应用实践的人工智能重大成果。

拓天大模型在自主可控、中文特性加强、专业知识加强、实时数据接入、内容安全和价值观对齐、客户私有化部署等方面具有领先优势。

拓尔思自主研发的拓天大模型一体化平台,在媒体、金融、政务、舆情、公安、专利等垂直行业已得到成功应用。

应用场景/使用群体

应用场景:

1.政务:公文辅助写作、政策分析(政策智能解读、政策核心内容解读、政策企业扶持、产业政策支持)、新一代政民互动;

2.金融:风控舆情(风险预警助手、风险报告生成助手、风险知识查询助手)、研报生成(投研搜索引擎、研报生成助手)智能客服(消费者保护)(客服数据智能分析助手、客服投诉处理助手)、自动业务批处理(合同审批助手、消保审查助手、内控审计审查助手);

3.媒体:内容生产智能助手、新一代搜索与推荐、多模态传播与服务;

4.舆情:舆情报告智能写作、舆情分析问答助手;

5.审计:审计依据查找、审计方法查询、审计风险分析、合规知识问答、审计方案设计、合规问题诊断、合规问题诊断、审计报告撰写

使用群体:企业级用户

产品功能

拓天大模型智链平台(TTAgentFlow)是一个创新的智能体平台,它结合了知识库、工具组件以及大型语言模型(LLM)的能力,旨在通过AI Agent技术,简化问答系统搭建和复杂问题处理,通过直观的交互界面,用户可以通过拖拽和配置的方式快速搭建工作流。同时提供问答交互页面,交互页面用户可以自定义展示功能。

产品优势

1.自主可控:拓天大模型吸收开源大模型的精华,进行自主研发,满足自主可控和安全合规等国产化要求。

2.中文特性与专业知识加强:针对目前主流大模型中文特性和专业能力较弱的问题,拓天通过扩充中文词表与海量通用中文语料、在不干扰原模型的情况下适配新增中文词向量等做法实现基座中文特性增强。同时,通过对自有媒体、金融、政务等垂直领域数据集进行清洗与处理,进行专业预训练增强,实现专业能力的提升。

3.实时数据接入:针对大模型训练的成本过高,其生成内容中的数据不能及时更新的问题,拓天通过外挂知识库的方式接入实时数据,结合自研搜索引擎技术实现专业领域实时数据的融合利用。

4.内容安全和价值观对齐:针对大模型可能存在的幻觉问题,拓天从数据源头和专家级的知识标引等方面进行内容安全与价值观对齐。重点数据主要采集主流官方机构可公开访问的数据,如各级政府部门、主流媒体等,这些机构所有对外公开的信息均严格履行“三审三校”制度。所有采集源由人工整理配置,保证了数据源头的“纯净”和完整性。采用专家规范化标引+机器自动标引相结合的方式,对采集的内容资讯进行“精加工”,包括低噪、去重、数据结构化、数据归一化、内容标签化、属性知识化、安全合规核查等,实现数据与主流价值观对齐。

5.客户私有化部署:拓天通过剪枝、量化、稀疏、蒸馏等部署优化方案,可有效降低大模型对算力资源的要求。拓天推出的垂类大模型参数在百亿级,当前市场主流推理卡单卡就可以满足运行要求,实现模型轻量化部署。

技术说明

拓尔思大模型关键技术包括:

1.大模型高性能训练

1.1分布式训练

1.1.1数据并行

数据并行主要针对单卡无法完全存储全部数据集的情况。在数据并行中,数据被划分并分别分配给各个计算device,每个device都保有一份模型副本和不同的数据以便同时进行训练。在进行下一次训练迭代前,每个device需要对模型参数进行同步来保证模型参数的一致性。

1.1.2 Pipeline并行

1.1.3张量并行

1.2存储优化

大模型训练过程中,对显存的消耗也是非常大的,由此带来的带宽消耗也很大,因此系统从减少存储消耗方面来提高大模型训练的存储效率。

1.3模型剪枝/稀疏

深度学习网络模型从卷积层到全连接层存在着大量冗余的参数,大量神经元激活值趋近于0,将这些神经元去除后可以表现出同样的模型表达能力

2.大模型微调优化

2.1多任务指令精调

系统通过多任务指令精调方式,只需做好“微调”,即可避免重复耗费大量计算资源重新训练一个语言模型,实现大规模语言模型的再次有效利用

2.2高性能增量微调

由于模型规模的增大,传统模型调优方法(finetuning)性能难以满足要求,迫切需要更高效率的微调方式。系统采用增量微调(Delta-tuning)的方法,只更新少量参数,同时冻结其余占绝大多数的参数,基于特定任务在预训练模型基础上进行微调,有效提升调优的速度,以适应特定的数据集和任务要求。

3.大模型高性能推理

目前,大模型的推理有三大局限性:

3.1对大规模模型缺乏多GPU支持并满足延迟要求;

3.2在小批量(smallbatchsize)推理时,GPU内核性能有限;

3.3难以利用量化,既包括量化模型来减少模型大小,以及支持量化模型的高性能推理且无需专门硬件来减少延迟。

拓尔思采取推理适应性并行、推理优化内核、灵活的量化支持、使用参考文本无损加速大模型推理等方式优化推理成本和延迟的能力突破这三种局限

4.可控文本内容生成

4.1事实检查与错误修订

为了提升大模型输出的可信度,每一次文本生成结果都通过一份事实溯源报告来证明其合理性,该报告通常包含来自可信来源(例如百科全书或知识库)的一个或多个支持证据。

系统首先使用大模型生成文本,然后检索相关事实依据并最终修改文本以使其与找到的证据一致,同时保留原文本的风格、结构等特征,使修改后的输出能够无缝输出。

4.2价值观对齐

价值观对齐并不是要将语言模型和普遍的“人类价值观“或者”人类偏好”对齐,而是要和具体的安全行业或机构的“价值观”和“偏好”对齐,例如国家安全价值观、国家传媒价值观等。具体包括构建安全领域价值观的训练数据、价值观训练等工作。

4.3安全护栏

通过大模型“安全护栏”给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。一方面,用户诱导大模型生成攻击性代码、输出非法内容的时候,它就会被安全护栏技术“束缚”,不再输出不安全的内容。另一方面,安全护栏技术可以屏蔽来自外界的“恶意输入”,保护大模型不受外部的攻击。

系统聚焦三类安全护栏:话题限定护栏、对话安全护栏和攻击防御护栏。

服务客户

平安银行“审计大脑”稽核专业大模型;人民日报AIGC智能助理;海尔官网“智能助手”专业大模型

关于企业

·拓尔思

拓尔思信息技术股份有限公司创立于1993年,是中文全文检索技术始创者,中国领先的人工智能、大数据和数据安全产品及服务提供商,中国第一家上市的大数据技术企业,股票代码300229。TRS系列产品已被海内外10000家以上的政府和企业客户广泛使用。公司建有大数据中心,涵盖四大数据资产平台,拥有3000亿高质量数据资产。公司自主研发的拓天大模型一体化平台,在媒体、金融、政府、舆情、公安等垂直行业已得到成功应用。

拓尔思

赋能数字经济,致力于成为语义智能技术领导者。

以上由拓尔思投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数智产业AI大模型先锋企业》榜单/奖项

该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场