恒生专题分析2-AI与大模型

发布于: 雪球转发:0回复:32喜欢:11

$恒生电子(SH600570)$ $顶点软件(SH603383)$ $财富趋势(SH688318)$

AI终究是未来的最重要方向或题材,我离开差不多也快一年了。A股AI题材股,业务稳定增长且估值合理或偏低的公司,非常少。恒生是一个,金融AI是打算重仓的另一大理由。

恒生AI发展也就近一年的事,因为去年AI的爆发,当前的恒生,与2023年及之前,本身就有很大的变化了。这点如不能动态的评估与看待,算是不合格的基本面分析

本文主要是信息汇总,围绕产品、场景与技术,按时间顺序大概整理一下;

一、0~1,2023年年中:

金融大模型LightGPT,于2023年6月推出,基于海量金融数据训练而来,使用超2000亿中文tokens和80多项中文金融任务指令微调,覆盖金融多领域应用场景,对金融相关问题的理解比通用大模型更有优势。

考虑了LightGPT在合规性和部署模式上的特性。充分学习中国的金融法律法规,从八大评价维度确保大模型生成内容的安全合规,符合中国金融市场的监管要求。支持云部署和7B/13B/70B的私有化部署,包括大模型接口调用和金融问答服务,以及提供定制化金融预训练和微调服务,满足金融机构个性化需求

经过几轮升级之后,在金融大模型能力评测中,LightGPT的逻辑推理、超长文本处理、多模态交互、代码、金融专业问答等多项能力都表现突出,已经具备为客服、运营、投顾、投研等金融业务场景提供能力支撑的水平

在布局大模型前,恒生电子已能够“玩转”小模型。大模型的推出,也可被看作是其进一步拓展服务范围的表现。在这个过程中恒生电子又是如何结合自身原有业务的?

白硕2002-2016年,他在上海证券交易所工作期间,任上交所总工程师、技术中心主任、党委委员,2012年起兼任领导了核心交易系统、监察系统、企业级数据仓库等一大批重要信息系统的升级换代工程和XBRL上市公司电子化信息披露项目,领导制定了金桥数据中心建设规划。因此前做过恒生电子的外聘专家,并被该公司对新技术的追求和内部创新氛围所吸引,白硕选择全职加入这家企业,并担任首席科学家、恒生研究院院长等职

白硕:恒生聚源是一家为资本市场服务多年的金融数据服务公司聚源数据库可为我们的大模型提供高质量的金融专业数据。(收获,前期对这家子公司的价值认知远远不够

长时间以来,恒生电子就是资本市场AI应用领域的重要厂商之一,我们为客服、运营、投研、合规风控等场景提供AI产品。现在进入大模型,我们也将把自身在AI应用领域积累的数据和经验用于大模型训练中。”基于这些专业的金融语料数据打造成的LightGPT,可以让原本需要很多人力成本处理的工作更加高效智能。例如,大模型应用于金融业务岗前培训场景时,大模型可以自主创作不同的陪练场景,对新员工进行提问,从而提高员工的培训效率,缓解人工考评压力。

对于金融行业而言,安全合规至关重要。LightGPT从数据安全、内容安全等角度出发构建了完善的安全合规体系。针对数据安全和隐私保护,采取了一系列的措施来确保数据的脱敏、合规、授权和追溯,包括去除数据中所有敏感的个人以及机构敏感数据,对收集的所有数据进行匿名化和加密处理,制定严格的数据使用规范和访问控制,记录所有操作行为保证数据来源可追溯等。通过建立可靠的网络安全系统、定期开展安全评估等方式,识别和消除数据安全隐患。针对生成内容的可控问题,构建了包括语料安全、模型安全、模型评估等在内完善的安全机制。在模型安全中,除满足国家基本合规要求外,LightGPT通过加入证监会等最新监管法规条款和金融基础金融书籍和论文等语料,让生成的内容在金融法律法规遵循、金融领域知识真实性上有大幅度提升。模型对于敏感问题、诱导问题也会进行处理。

大模型“中控”平台与智能应用产品

为了解决大模型和实际应用之间的连接问题,在LightGPT大模型基础上,打造了大模型“中控”平台光子,串联“通用工具链+金融插件工具+金融数据+金融业务场景”。白硕:“光子提供的是一种介于应用场景和大模型中间的对接能力。我们发现很多应用场景都会不约而同地需要一些通用的工具能力,比如对接实时行情,文档处理、数据要素识别等。所以我们想把大家所需的能力都放到一个中间层上,统一支持上层的业务应用产品

大模型在证券基金行业可以有很多相关的创新应用场景。要达到这样的目标,一是基于大模型技术全面升级重构客户、员工交互模式;二是基于大模型技术实现场景、业务逻辑、产品的重构;三是基于大模型技术的基础设施和技术架构的升级。

//有句话叫做,基于AI,现在所有的产品值得重新做一遍;其实不夸张。

恒生聚源打造的智能投研平台WarrenQ也是金融大模型应用领域的另一成果。

根据投研场景对于数据分析和智能处理的实际需求,发布基于大模型技术全新升级的WarrenQ,推出两款AI工具产品WarrenQ-Chat和ChatMiner,通过智能对话的方式,帮助分析师和投资经理提高工作效率。”

WarrenQ-Chat是一款金融垂直领域的Chat产品,利用大模型叠加搜索和聚源金融数据库,通过对话指令,轻松获得金融行情、资讯和数据,且每一句生成的对话均支持原文溯源,确保消息出处可追溯,还可以生成金融专业报表,轻松实现“语控万数”。

ChatMiner则是一款金融文档挖掘器,基于大模型和向量数据库构建,可以根据用户对话指令对指定文档进行快速解读,提供精准检索与定位,提取关键信息,还可以将信息进行有效的整合归纳和精炼或拓展,智能化处理海量文本数据

//我作为经常搜索、整合各种信息的老股民,对以上场景的痛点太有感触了。虽然理论上,很多股票的很多数据、信息都是已知的信息,但散户并不容易获取,数据分散,口径不同,信息孤岛,很难搜索到等等。对于PDF财报、公告等,里面很多表格,如想做历年整理和分析,非常耗时,但整理本身并不增值。就以上两个产品的描述,如真能做好,能整合数据,价值绝对很大。

产品架构很清晰:

白硕:LightGPT是以通用大模型为技术底座,在此基础上对接行业主要应用数据和专业内容,从而“站在巨人的肩膀上”,更好地去解决金融大模型的场景应用问题。

裸”的大模型在垂直行业没有太多的生存空间,也很难实现商业化,无法体现大模型的专业价值。只有与其他专业工具、插件和相应资源相结合,才能创造商业闭环。而未来金融信息系统的升级换代需求中,就有了大模型提供嵌入式增值服务的空间;

LightGPT主要有两个特色:一是数据,LightGPT会连接恒生聚源全部的金融数据,包括历史数据、实时数据等,和大模型共同完成金融任务。二是应用,基于恒生在大金融领域全面的产品体系,LightGPT有广泛的机会与各类金融场景创新进行有机结合

二、2023年10月恒生金融技术大会:

刘曙峰:当前金融行业对于大模型技术的关注度和参与度很高,但在大模型实际落地过程中主要存在模型选择难、算力供应不足、应用成熟度不足等问题

白硕发布了基于光子打造的多款大模型应用产品。目前光子赋能下的智能产品可以分为重塑和嵌入两种模式。重塑是指基于大模型能力重构应用,重塑业务流程和服务模式;嵌入是指通过光子将数据、应用、知识库等资源组装成各类插件,将大模型能力无缝集成到原有程序和应用中,为业务系统注入AI力量。

在重塑模式产品方面,正式发布四款大模型应用

光子·文曲是面向投资顾问的一站式内容创作平台,通过丰富创作模版、智能文摘生成、AI问答助手、一键发布导出、图表自动生成等功能,帮助投顾快速完成报告素材搜集、内容生成以及审核发布。

光子·方圆聚焦金融机构投资合规领域,通过法规检索和文件标签化管理、智能投资合规问答、系统指标逻辑解答、一键生成合规设置等功能为合规和业务人员提供服务,提升合规管理质量和效率。

光子·善策聚焦投顾咨询场景,通过会话意图理解、智能服务匹配、智能话术生成、智能工单创建等功能,赋能投顾会话,为投资顾问精准定位客户标签,洞察客户意图,生成专业话术。

光子·慧营定位资管与托管产品运营助手,通过文档智能分片、要素智能提取、文字内容智能匹配、文件内容智能审核、文件内容溯源定位等功能,帮助运营人员提供参数提取、投监规则匹配、审计报告内容抽取等的智能辅助解决方案。

在嵌入模式产品方面,一些传统应用可以不用修改代码,通过光子插件能力与业务系统交互,即可为传统应用现有业务流程注AI能力。目前光子可以提供金融数据插件、知识库问答插件、Agent智能体插件、文档问答插件等各类金融特色插件,用户也可以根据需求自定义业务插件。完成插件集成后,用户可以在原有系统界面上唤起“光子”,与光子形成自然语言交互

如在投顾创作台中,用户可通过光子完成投顾内容改写分析、询问板块行情、查询研报观点等工作;在PB系统中,光子可辅助风控管理、资金调整复核、资产查询等操作;在CRM系统中,光子则可以帮助员工完成拜访日报智能化填写等工作。

白硕:接下来恒生电子将进一步完善光子智能生态,基于光子持续构建智能产品矩阵。持续发布和公测大模型应用新品,如面向金融业务岗前仿真培训的光子·问学,面向业务数据智能管理的光子·数见,面向会议语音内容生成行动AP的光子·会悟等;加快恒生原有业务系统的光子插件嵌入,让光子成为真正的业务智能助手

LightGPT在整体模型效果提升15%,安全合规性上提升13%,推理速度上提升50%,并面向金融机构实现LightGPT-7B的开源,推理和训练全面适配华为昇腾系列;(前两年信创与大模型做了很多准备工作,没有收益更多是成本)

为了系统地评估金融大模型的能力表现,恒生电子与中国信通院共同编写了金融大模型评测标准,包含“L0-L1-L2”三层能力评测,为促进金融大模型的可信发展提供重要保障。通用能力L0层包括基础常识、语义理解、数学计算以及在金融领域尤为重要的多轮对话能力、表格处理能力和安全能力、JSON识别能力等。金融领域能力L1层包括金融法律法规遵循、金融百科问答和实体识别。金融场景能力L2层包含投顾、投研、运营、合规和其他五大场景80种金融专属任务评测

//能够与信通院一起出标准,这说明公司在金融领域大模型绝对有一定实力了

投顾场景, LightGPT通过增加1200多万tokens专业投顾语料,减少财经大V版权语料和日常语料及12类任务指令微调,应对金融术语口语众多、知识幻觉、监管严格等挑战,在安抚话术生成、客户意图识别、实体识别、Json识别等平均超出国内通用大模型13%

投研场景,LightGPT通过使用基于位置编码改进的transformer模型,超200亿tokens的金融信息语料和8类任务指令微调,解决超长文本处理、图表文字混合排布、投研术语众多等问题,在研报观点抽取、舆情事件识别和抽取、资讯摘要、表格处理、公司实体识别等方面平均超出国内通用大模型12%

数据质量决定模型能力

钛媒体App:关于数据的问题。投研、投顾是大家比较期待的场景,但也有一些业内人士表示,目前为止还没有体现出很出色的表现,数据孤岛化、数据质量不高等问题依然存在,极大限制了应用表现。

白硕:谁来连通这些数据,是有讲究的。从我们的实践来看,要有一个类似“光子”这样的东西来拉通各种数据、各种资源。比如在财富投顾场景中,投顾话术的生成需要给大模型提供各类数据,比如来自行情数据库的数据、来自基本面数据库的数据,还有来自证券公司系统里的客户自身的持仓数据等

要有一个“中控”平台,能像一个巫师一样,从四面八方把有用的资源召唤出来,使用在同一个业务场景中。如在投顾场景中,大模型可根据这些资源,进一步进行计算、分析、摘取、生成,最后形成综合了各个方面资源的投顾建议给到投资顾问

这是大模型自身做不到的,需以一种无缝的方式拉通多方面的资源才能做到。而这些工作恰恰是我们最擅长的。

//单个金融大机构搞大模型,注定只能是在自身内部使用,其他金融机构用的它的,肯定担心失去灵魂,比汽车整机厂商用HW方案失去的更彻底。因此第三方金融大模型逻辑上有必要存在或有存在土壤的,这点很重要

钛媒体App:目前金融大模型有开源也有闭源,您怎么看待开源、闭源的路径选择?

白硕:开源分为代码开源和参数开源。一般都能做得到代码开源,真正拉开距离的不是代码,不是训练和推理的框架,而是数据。数据可能决定了模型的能力。用数据这件事情差异还是蛮大的,尽管训练和推理框架都是开源的,但只要数据本身有特色,仍然能够打造具有自己特色的大模型,这是一个我们的基本判断

如涉及到参数开源,参数开源意味着你的上家(底座大模型)用它的数据训练过一次模型,得到了一些参数,而你没有废弃这些参数而是继承,然后在这些参数基础上,用你的数据继续训练,把这些参数向效果更好的方向去迭代修改。在这种情况下,开源参数的质量会很大程度上决定后续的模型质量。

三、2024年新进展:

目前恒生所有终端解决方案均已支持鸿蒙系统。

4月,国家互联网信息办公室发布第五批境内深度合成服务算法备案信息,恒生LightGPT金融领域文本生成类算法名列其中。恒生聚源的Gil-GPT大模型算法也同批次通过备案,该算法主要应用于金融资讯信息对话生成场景。

4月26:东吴证券-恒生电子证券大模型沙龙成功举行,大模型助力金融行业数智化提速

东吴秀财大模型已完成了千亿参数大模型的训练,并已通过算法备案,东吴证券成为国内证券行业首个自研大模型并通过算法备案的券商。(券商自己肯定也会研究并落地大模型)

4月互动:恒生大模型应用产品与多家客户开展共建,目前不对公司收入带来重要影响

规模、参数的近身肉搏之后,落地逐渐成为“百模大战”的共识。得益于数据密集型行业优势,辅以强劲的数字化基础及行业本身对新技术的天然追逐,金融在一众场景中脱颖而出。也是因为这些优势,金融行业得以更快过渡到“冷静期”,将重点调整至价值—应用的价值。“金融行业将是大模型技术落地的最佳领域。”度小满CEO朱光曾做出了这样一个判断。只不过,在应用的“星辰大海”面前,当下的金融大模型仍然面临着复杂的多维挑战。

最后,个人理解,恒生在AI或大模型方面的几点独特优势:

有自己相对完整、高质量的金融数据源;

有丰富的金融IT产品,熟悉业务应用场景,为AI落地提升机会或土壤;非裸模

作为金融科技公司,更有第三方公信力;(没法全吃,但应能吃到其中的一部分)

就算是垂直领域大模型,也会强者越强,越用越好,这跟IT产品逻辑有很大差异;恒生牵头制定标准,发布白皮书等,比金证、顶点等领先优势明显,研发投入差距是明显的;

"它不是一种新武器,而是一个新世界的开始"

精彩讨论

全部讨论

04-29 16:12

2023年:
数据服务业务板块主要由控股子公司恒生聚源为各类金融机构的数据智能化应用提供各类基础数据产品、智能投研产品、行情资讯产品。基础数据产品涵盖权益数据、固收数据、 大理财数据、投研、风险、ESG数据等。
报告期内,数据服务业务线营收增长19.27%,收入增速良好。为3.85亿,推算2022年该板块收入3.23亿。毛利率66.8%,同比提升了6.1个百分点。
业务进展方面:基础数据产品稳健增长,数据库成功新增50多家客户,ESG、EDB、风险数据、财富数据产品分别中标多家券商、基金、资管、银行等机构。
智能投研产品线方面,基于自建大语言模型快速孵化WarrenQ Chat和ChatMiner,WarrenQ的活跃用户数持续增长。大模型应用产品与多家客户开展共建。

05-01 21:32

在金融领域有很多专业化的要求,一个专业性问题,你告诉客户一个错误的答案,由此引发的后果可能是比较严重的,因此金融行业对回答的内容和服务的质量要求非常高,数据的专业化和准确性非常重要。
这个不像是和一个聊天的大模型对话,大家可以相互调侃,它输出的结果大家可能不会特别在意。但金融大模型输出的结果是要提供给实际金融业务的,在这种场景下就不能出错,避免出现知识幻觉。
金融行业有着严格的监管合规要求。金融行业的监管对数据流动、身份(例如是否持牌经营)等有明确限制。恒生通过大模型中控平台“光子”,将公开数据和金融机构的私有数据,像运营、合规、交易等系统产生的数据和一些特色数据,有效地连接起来,形成一个有机的整体。

04-29 18:19

踩雷了

04-29 15:57

人们在谈及大模型的场景结合时,通常会用到一个词—市场教育,用以形容让目标行业接受新技术的过程。唯独一个行业,其市场教育的成本几乎为零已成为圈内共识,这个行业就是金融。
金融大模型的风暴,始于2023年3月。当时外界还停留在大模型“涌现”的狂欢中,最多延伸到对底层算力的焦虑,彭博却推出了为金融界量身定制的大型语言模型BloombergGPT,硬是把一众注意力转向了行业新赛道。
BloombergGPT至今仍被口口相传的原因,不仅在于其全球首个金融大模型的光环,更在于背后海量的金融数据优势。
据悉,作为一家全球商业、金融信息和新闻资讯提供商,彭博依托大量的金融数据优势,创建了一个包含3630亿词例的金融数据集,这些宝贵的垂直数据使其在执行金融任务上的表现远超当时的现有模型。
天风证券曾评价,BloombergGPT在部分金融场景中表现出强于通用大模型的能力,标志着金融领域的GPT革命或刚刚开始。
早在7月末,腾讯研究院发布的一项调研数据就显示,国内参数在10亿规模以上的大模型数量已由5月末的79个增加至116个,其中金融行业大模型18个。
数据规模大、数据类型多、数字化基础强、市场规模大、客户付费能力强、前中后台都有广泛被降本增效的空间……得天独厚的优势累积,“金融+大模型”成了“王炸组合”。
据悉,目前国内金融大模型已经应用在金融资讯、产品介绍内容的文本自动生成,构建虚拟客服在线交互等方面,给用户提供更人性的服务,提升金融机构内容运营的效率。
沿袭着互联网金融时代的模式,国产金融大模型也已分出了明显的两个“流派”。
一派来自于传统金融机构。以银行为例,在2023年半年报中,就有包括工商银行、农业银行、中国银行等在内的多家银行明确提出在探索大模型的应用。
另一派来自于金融系科技企业或互联网企业。今年5月,奇富科技率先宣布推出自研的金融行业通用大模型“奇富GPT”,也被业内称为“国内首个金融行业通用大模型”。同月,度小满推出国内首个千亿级中文金融大模型“轩辕”。
6月,恒生电子发布金融行业大模型LightGPT,拓尔思发布包括金融行业大模型在内的产品;8月,马上消费金融发布了首个零售金融大模型“天镜”;9月,蚂蚁集团正式发布工业级金融大模型AntFinGLM,华为发布三大类10个场景的金融大模型方案……
艾瑞咨询曾测算,2021年AI+金融核心市场规模达到296亿元,带动相关产业规模677亿元,到2026年,核心市场规模达到666亿元,CAGR(复合年增长率)为17.6%,带动相关产业规模1562亿元,CAGR为18.2%。
华西证券也认为,随着大模型技术与业务的深度融合,头部金融科技企业有望实现产品和商业模式的革新,实现从产品+服务收费向SaaS订阅收费、运营分润收费的转变。
金融科技细分领域众多,各细分领域龙头具备技术、行业Know-How等要素,与头部金融机构的长期合作关系有利于补齐数据、场景等要素,相关产品有望率先落地。
落地的1%与99%
8月,波士顿咨询发布了一份报告。以一家拥有约2万名员工的区域性国际银行为例,报告初步梳理了该银行前中后台相关部门应用生成式AI的潜力和效益,并预计生成式AI在首年即可为该银行节省约1.5亿美元的成本,占整体薪酬总包的7%左右。
但金融大模型也存在理想和现实之间的距离。许冬亮曾提到,人工智能在金融行业的应用潜力目前可能只发挥了不到1%。
金融大模型,既不是对通用大模型完全的“拿来主义”,也不是机械地完成大模型和金融的叠加过程。而是需要以金融行业本身的立场、特点为出发点,用基础设施、模型算法、场景应用打造一套量身定制的系统化工程。
沿袭着这套系统化工程的思路,金融大模型的落地也难免遭遇模型选择难、算力供应不足、应用成熟度不够、资源数据壁垒等问题。
以算力为例,许冬亮曾提到,如果从底层开始训练大模型,所需要投入的算力成本非常高,例如千亿级别的通用大模型,训练一次需要付出几千万元的成本。
因此,金融大模型的产业应用需要场景应用方(金融机构)、模型提供方、训练工具提供方等多方共建,共同参与。
工商银行首席技术官吕仲涛曾呼吁,当前国内外算力市场面临着算力供给短缺、多厂商异构算力融合、国产AI生态不足、机房和网络建设等复杂情况,金融机构需要深化与产界各方的合作,共同推动解决大规模算力部署和应用的难题。
而当不成熟的大模型遇上强监管的金融业,安全隐私、科技伦理、可信可解释等方面的隐患也会被成倍放大。其中最典型的就是金融的低容错率与大模型高幻觉几乎成为技术上不可调和的矛盾。
风控是颇具代表性的一个场景。风控需要极致的严谨,大模型恰恰精通自圆其说之道,一旦无法有效捕捉其中的漏洞,就可能导致金融大模型出现理解或判断上的偏差,直接影响风控效果。
此外,金融又是一个由数据高度驱动的市场。
过往大量数据从各个渠道涌入银行、保险、交易所等金融机构,汇聚在一起,成为足以反映客户需求、行业趋势以及市场变化的黄金信息,及时有效地分析、利用这些数据,至关重要。
在数据利用方面,金融和大模型的结合有点“双向奔赴”的意思。但金融行业本身对数据安全和隐私合规的严格要求,注定了金融大模型在采集、传输、加工及处理信息的各个环节都要比通用大模型乃至其他行业大模型多一分甚至十分的谨慎。
数据又是不同金融机构的核心生产力,关系着自身的护城河问题。大模型发展需要高质量数据集,就必然要说服不同业态完成数据共享,如何构建一个合理且安全的机制,考验的是整个行业的智慧。
中国工程院院士、复旦大学金融科技研究院院长柴洪峰曾在演讲中指出,从技术面看,金融数据和知识的私密性限制了共享和构建大规模数据集的能力,金融数据的多模态特性增加了模型处理和建模的复杂性。
就像是互联网爱讲生态,金融大模型有过之而无不及—生态是金融大模型的必要条件,既包括数据的生态、算力的生态,也包括行业的生态、监管的生态,而这些或许就是金融大模型落地所必须的那99%。

05-11 20:09

$恒生电子(SH600570)$
去年一季度极其火爆的AI,到现在情绪已大幅冷落。人工智能931071目前的PB,已经低于2022年年底,AI爆发前期了。
但AI的确是非常确定性的一个大方向。情绪不高时,绩优低估股就值得买入了。A股拥有热门题材,非常的重要。
相对于算力或少数通用大模型,如文心,应用端才是大多数国内企业可以掘金的地方,且这个周期会很长。啥时在收入,利润上体现出来。可能不同行业落地速度不一样。我看好金融,这是与数据、文本分析关联度最高的行业了。且客户或用户是利益驱动,生生不息,只要产品能出来,赚钱是不用担心的。

04-30 12:19

新能源汽车是个方向,早些年很多人都能看到这一点,但可能大多数都会觉得速度不会那么快,新能源汽车占行业销量比例达到30%,感觉会很遥远。现在已经达到了。
AI 在每个领域的推广应用,目前也是早期。故事总是在重复,如果在早期底部买入头部公司,耐心在当方向上等待,结果大概率会很好,但就是等不了。
AI这一次,股市又出题了,这次我还能呢?希望这次我能。选了那么多题材、赛道,总是坚持不下去。AI的方向性应该没问题了,就看行动吧

04-29 15:50

在刘曙峰看来,判断一个创新技术是否实现有效落地,可以从“是否实质性改善用户体验、是否数量级提高业务效率,是否追求盈利而非追求流量”三个角度来判断。相信随着“数据+算法+算力”大模型新范式三大基本要素的不断提升,大模型作为一种创新技术,也将完成对于财富资管领域业务形态和逻辑范式的革新。

05-18 18:30

恒生研究院高级技术专家林金曙:用自驱力,做发光体原创 君宝 恒生电子股份 2020-10-13 13:31
...
林金曙这个名字,对于恒生员工来讲并不陌生。2018年恒生技术功勋人物、恒生研究院高级技术专家、恒生NLP团队负责人…… 无论他有多不愿意重复提及以往的荣光,那个发生在人工智能团队建立之初的故事始终绕不开。
彼时,林金曙作为恒生人工智能团队负责人,正面临着人手短缺、团队经验不足的境遇,与此同时,业内某头部券商在舆情处理方向和智能客服方向正需要人工智能的落地。是否要去做前人从来未曾做过的事情,这是在人工智能领域,林金曙面临的第一个挑战。“当时的竞争对手都非常强,微软、IBM,无论技术还是品牌都是响当当的,我们的团队相当于一个‘创业团队’,怎样获得客户信任,确保方案的先进性和有效性是摆在我们面前的巨大挑战。”团队初期面临巨大挑战
在这种情形下,可以让人发光的“自驱力”,成为了林金曙带领团队向前走的动力。“困难出现只能想办法,我们一是完善团队,二是联系高校、业内同行,通过整合资源,带领团队成员急速成长,三是咨询内部的金融业务专家,判断如何使相关的技术更好地落地在场景中”。经过半年的通宵达旦,恒生NLP团队提出的方案最终获得了该金融机构的独家采购,为恒生进军AI领域打响第一枪。从0到1的飞跃第一个项目用林金曙的话来说,是打开了探索人工智能的大门,经过近年来不断地实践积累,对于人工智能在金融领域到底该怎样做这一问题,这位恒生研究院的高级技术专家有了更清晰的回答。林金曙认为人工智能的四大关键要素为算法、数据、人才、场景。其中,算法经过多年的发展,渐趋稳定,而数据存储技术和数据挖掘技术在近年来的发展则使得数据得以成为智能的基础。人才是技术层面的另一个动因,但倘若没有场景落地,上述三个技术要素就是空壳。在金融领域发展人工智能也需要“因地制宜”寻找到有价值的场景。“这个其实也是自己走过的弯路得到结论,之前做大数据发现单有技术的思维是不够的,还需要有产品的思维。除此之外,金融领域与其它行业的属性完全不同,技术为业务服务,同时需要极强的解释性,我们采用AI处理基本数据结合金工模型,所以在一开始我们团队就在恒生内部进行调研,挖掘可实践的场景(债券违约、财务造假等)。”而在人工智能具体细分赛道上,林金曙的选择是自然语言处理,后者也被誉为“人工智能皇冠上的明珠”。自然语言处理被誉为“人工智能皇冠上的明珠”
“人工智能最为重要的一个部分就是认知智能,这其中就包括自然语言理解。在中文领域的中文分词、实体识别(机构名、人名)、词法分析、句法分析、语义分析、事件抽取等非常复杂。谷歌在2018年发布的BERT模型大幅度刷新了NLP领域的11个方向精度,可以说是近年来最有突破的一项技术。我们基于金融领域数据结合最新算法,生产金融领域专用模型,更好地赋能金融业务系统。”搭建好用、快捷的智能产品CPU近年来,NLP在降低金融机构文本处理智能客服、投研相关工作量等方面已颇有成果。Gartner数据显示,在金融服务以及保险行业对人工智能的投入中,约有20%的预算投入到了自然语言处理(NLP)中,在人工智能各方向中位列第三。对NLP的投入通常在一年左右产生可观的商业价值,这也进一步增强了金融机构对NLP的热情。落实在恒生,恒生公司应用NLP的产品已覆盖智能资讯、智能投研、智能风控、智能营销、智能监管、智能投顾等领域。其中,恒生智能客服已为诸多金融机构提供服务;在智能风控方面,恒生研究院的债券预警模型通过使用宏观、政策、市场、财务等数据以及NLP技术提供的特色事件数据,可以实现较好的预警效果。“其实我对我们团队的定位非常清晰,我们需要为客户提供好用、便捷的智能产品,帮助他们解决业务痛点,提高生产效率、提升用户体验”,林金曙补充道。发光的团队与AI自研产品一同壮大的,还有团队的规模。林金曙认为,提到AI,很多人都会首先想到算法工程师。但事实上,对于完成一个AI产品或项目来说,仅有算法工程师是远远不够的,最不可获缺的就是复合型人才。其中包括“IT+AI”、“业务+AI”与“业务+IT”三种。以“IT+AI”为例,可细分为AI平台研发工程师和算法工程师。前者负责建立AI平台,通过推动自动化实现来帮助数据科学家处理一些“杂活”,例如数据预处理、数据管理、数据可视化的展现等,从而让数据科学家聚焦于业务分析和模型分析;后者主要负责算法的实现。因此,在专业的培养上,这位负责人看重对团队成员的长期培养,并积极让业务与技术融合在一起。而在个人品质方面,林金曙认为,在人工智能领域,每向前踏一步都是前人未走过的路。因此,自驱力、创造力和逻辑也同样重要。业务与技术的融合自驱力、创造力和逻辑也同样重要
“在面试的过程中,我经常问面试对象遭遇过什么挫折。当一个人受到挫折,他还有自驱力走出来的时候,其实代表着他有强大的信念和抗压能力。做AI会碰到太多难题,需要自己想办法解决,我也会特别看重面试者的逻辑和解决问题的能力,在这方面,我通常会问一些奇怪的问题。例如‘为什么会有三毛钱’,‘为什么四大文明古国都在亚热带’等”。经过一步步的踏实向前,林金曙从无到有搭建起了恒生公司的NLP团队,目前团队成员有三十余人,包含了算法工程师、AI架构师、数据工程师等。对于未来,林金曙表示,将继续在图像识别和业务可解释方向继续钻研学习。“就像人脸识别一样,在金融领域,我们目前的公告、财报、票据等,同样也可以利用图像识别的方式,快速鉴别、分析、产生结论,我们依然需要自主驱动,继续再往前走一步。” 林金曙在采访中多次强调了自驱力三个字,而这实际也与他自身的经历息息相关——大学毕业从通讯行业转战至金融IT,从大数据再到人工智能。而回顾这些选择,林金曙笑着调侃说,“自己跟大家一样,努力做好一份工作而已”。
在采访的最后,我问林金曙他觉得AI工程师到底是一类怎样的人群,他说:“总有人觉得AI冷冰冰的,但事实上它是机器和人之间的一个桥梁,而我们这些在中间的工程师们,也是用自己的能量让技术发光的第二道桥梁。”晨曦微光,可以济群。林金曙与人工智能的故事仍在继续。1024恒生技术开放日,林金曙也将作为人工智能技术分论坛的出品人,与各位探讨AI在金融行业的应用,分享技术实践经验。

05-18 18:22

内部技术大牛,2020年5月对AI的理解。看得出恒生的确就开始应用AI了。不是概念股

05-04 18:48

2018年就发布了8款AI产品,虽然是基于小模型,2019年4款区块链产品,从发展历程来看,的确是一直跟上最新技术发展趋势。IT行业想要获得高毛利率其实并不容易,普遍都是项目交付模型下赚取人头费。