拓尔思跌了，写篇随想 2024年4月2日星期二近期在研究大模型相关公司，发现拓尔思就是其中一家很有特色及潜力的企业，93年中文检索起家，比...

2024年4月2日星期二

近期在研究大模型相关公司，发现拓尔思就是其中一家很有特色及潜力的企业，93年中文检索起家，比科大讯飞早6年，百度早7年成立，不被大家熟悉主要是因为以前只服务于G端和B端客户。稍微了解下就会发现公司基本面过硬，在市值不到130亿，股价在15左右波动，成交量渐渐放大，股价慢慢走稳的情况下属于下行风险可控，上行收益可期的标的，还能享受到人工智能逻辑基金持续发酵带来的起飞，长期拓尔思布局赛道潜在空间超千亿、天花板足够大，短期也有操作空间，是非常值得关注的标的。

其主打产品TRS海贝搜索数据库系统V10.0是市场上极少数同时符合搜索数据库标准和向量数据库标准的纯国产自研软件之一。该系统在倒排索引的基础上，引入了高性能的HNSW向量索引，不仅支持常见的文本检索、拼音检索、同义词检索等，还可以搭配大模型（深度学习引擎）实现语义搜索、图片搜索、跨模态搜索以及融合搜索等，可广泛用于企业搜索、检索增强生成（RAG）以及智能问答等应用场景。

TRS海贝搜索数据库系统的主要客户是政府机构和大型企业，覆盖政府、金融、能源、传媒等多个领域，均为行业头部机构，如中g中y办公厅、gwy办公厅、发改委、国家市场监管总局、国家知识产权局、信用中国、海关总署、南方电网、国家开发银行、中国银行、平安集团、人民日报、新华社、科技日报等。

公司在数字政府和公共服务领域的“产品+云服务+解决方案”已经覆盖80%的中央和gwy机构、60%的省级政府和50%的地市政府。公司以内容智能为核心的融媒体行业服务已经覆盖72%的中央媒体、61%的省级媒体和40%的行业媒体机构用户。

而公司的重要产品，搜索性数据库“海贝”，已经服务于安全大数据、媒体大数据、政府大数据以及军队大数据等众多细分行业，拥有gong安部、新华社、国家市场监督管理总局、海关总署、专利局、商标局等一系列客户。在国家层面，几个重大的基础数据库，例如云搜系统、企业信用信息公示系统、专利检索系统等都构建在海贝之上。目前海贝已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作，完全满足信创要求和国产化替换需求。以信用中国项目为例，该项目由发改委、人民银行指导，国家信息中心主办。

以上客户是拓尔思的主要数据来源，自2010年建设大数据中心以来，拓尔思积累了高商业价值的可运营大数据资源，拥有了规模及质量均位列业界前茅的数据资产。目前数据中心总数据量超2000亿，具有信源覆盖全、采集梳理精、更新时效快、数据质量高的特点，有效提升了大模型语料库的规模和数据集的质量。通过多年的积累，拓尔思形成了超过30个专业领域的数据库资产，如语义分析知识库、专利知识库、媒体知识库、金融知识库等，覆盖媒体服务、舆情服务、金融风控、产业投研、金融监管、智能消保、开源情报、政务应用等8大业务场景。

拓尔思在数据要素有三大数据资产平台。在前面一个叫产业大脑，一个叫媒体资讯，一个叫网络舆情，包括2000亿以上的公开类的资源的数据资产，境内境外视频特色都有，然后是上百亿以上的主题类的资源性数据资产，比如说工商产业政策、园区行业会议、投资机构、产品信息研究报告等等，还有专业领域的30 种以上的专业领域的知识资产，就是我们的知识知识库，我们有上万的标签来覆盖整个八大业务场景，包括媒体服务场景，奥情服务、金融风控、产业投研、金融监管、智能消防、政务应用和开源情报发展应用场景。

这些数据资源基于拓尔思自研的数据底座经过采集、清洗、转换、分类、打标等流程完成基础数据治理后，与不同行业知识模型融合处理，被加工成数据资产进入到数据流通与交易环节。这些数据资产可用作大模型的训练语料，具备高质量、高价值的特点，有利于提升大模型的专业性与精准度。

这些数据将形成非常高的壁垒，其他企业很难有这个基础，顺带提下公司海贝数据库是目前国内少有的从底层数据收集，到分词和索引算法，以及储存技术的国产数据库引擎。其核心代码自主率达到 100%，且通过多家国家机构认证，可彻底摆脱对 Elasticsearch 和 Lucene 等国外数据库的技术依赖，满足信创和国产化替换需求，这块业务会不断增长。

为了弥补C端市场的空白，拓尔思开发的拓天大模型即将面向市场，拓天大模型已经服务于政企和媒体，并屡次获奖，多模态能力表现出众，一旦条件成熟，打开c端市场，想象力必将爆发，势不可挡。$拓尔思(SZ300229)$

拓尔思跌了，写篇随想

作者：飞跃韭菜园

全部讨论