科普帖：ASIC与USI-T协议技术详解 ASIC 技术详解一：FPGA与ASIC的比较FPGA是一种现场可编程门阵列。它由大量的逻辑单元、输入输出模块、存储器和...

ASIC 技术详解

一：FPGA与ASIC的比较

FPGA是一种现场可编程门阵列。它由大量的逻辑单元、输入输出模块、存储器和时钟电路组成。FPGA的逻辑单元通常为可编程的逻辑单元，其内部结构由一组可编程查找表和一组D触发器组成。可编程查找表是FPGA构造逻辑的基本单元，可以实现与、或、非、异或等多种逻辑功能。随着时代的发展，现在FPGA还加入了数字信号处理器和嵌入式核等复杂模块，使得FPGA具有了更广泛的应用领域。

ASIC是特定应用j集成电路，它由大量的逻辑单元、模拟电路、存储器和时钟及电源管理等部分组成。ASIC在设计过程中没有可编程的逻辑单元，其逻辑做法是通过经过多次交叉验证的电路设计和模拟得到的。由于ASIC通常是为了特定的应用场景进行设计的，在设计过程中需要特别注意各种因素的影响和相互协作。ASIC的逻辑单元可以通过硬件描述语言进行配置，从而实现特定的逻辑功能。

1：应用领域

FPGA应用广泛，类似于H100，可以应用在训练模型端，也可以应用在推理模型端

ASIC特定应用场景，类似于比特大陆蚂蚁矿机，经过特定的逻辑单元，特定的哈希算法，从而在BTC矿机领域成为行业的领军者

2：可编程性

FPGA具有可编程性强的特点，可以灵活适应各个应用场景

ASIC编程难度大，设计周期长，只适应特定应用场景（类似比特大陆蚂蚁矿机，只能用来挖数字货币）

3：功耗

FPGA的逻辑电路中存在可编程逻辑单元，因此电路功耗较高，对能量消耗有要求的场景有限制。

ASIC采用固定的电路结构，功耗相对较低，通过对供电电压、器件材料和设计等方面的优化，可以进一步降低功耗。

4：性能

以目前FPGA为代表的H100为例，算力FP16为例，为1979 TFLOPS，即为1.979P算力

倘若把H100 改成ASIC，特定服务推理服务器，性能可以增长十倍！即FP16达到20P算力

5：体积

FPGA：以超微服务器为例，8U版本，为一个巨大的机箱

ASIC：以比特大陆蚂蚁矿机为例，为长条形小机箱，ASIC体积更小

6：技术难度与护城河

与FPGA相比，定制 ASIC 设计可以提供更高级别的知识产权 (IP) 保护。通过直接在硬件中实施专有算法和功能，公司可以保护其知识产权免遭逆向工程和未经授权的使用。（硬件中实施算法！类似蚂蚁矿机，十年来无法复制）

7：成本

ASIC在设计端成本高昂，后续量产以后，在大批量供货阶段，ASIC芯片具有无可比拟的价格优势

二：训练服务器与推理服务器分析

训练服务器：主要用于训练机器学习模型。这个过程中通常会涉及到大量数据的计算和存储，因此训练服务器需要有较高的计算能力和大容量的存储空间。同时，为了应对不断变化的数据集和算法需求，训练服务器应具备灵活的扩展能力。由于训练是一个计算密集型的过程，训练服务器通常配备有高性能的CPU、GPU以及其他专门设计的机器学习库，如TensorFlow、PyTorch等，以便能够有效地完成从数据提取特征、训练模型到优化模型参数的任务

推理服务器：则主要负责运行和提供已经训练完毕的机器学习模型的服务。这些模型可能是针对特定任务的，如图像分类、自然语言处理等。推理服务器需要能够高效地处理来自客户端的请求，这通常意味着它需要具备低延迟和高吞吐量的特点。考虑到推理通常是实时的，推理服务器可能需要更加节能的设计，以确保能够在有限的时间内提供准确的预测或推理服务。推理服务器可能不需要像训练服务器那样高的计算能力，但仍然需要足够的处理能力来支持复杂的模型和服务请求

1：分工

训练服务器是前端训练大模型

推理服务器是后端从大模型中抓取数据包

（这个其实是分析的很明白，很通俗易懂，先有训练服务器训练出大模型，随后客户查资料，查图片，需要瞬时在大模型中找到这些资料，随后拼凑成完整一段话，给客户解答，这就是推理服务器需要干的活）

2：存储

训练服务器需要大量DRAM NAND和HBM

推理服务器不需要存储数据，分工不同，推理服务器不需要存储数据，而是从大模型中抓取数据包

3：延迟

推理服务器比训练服务器更需要低延迟，抓取数据包的速度决定了后端AIGC用户端体验感

4：高吞吐量

推理服务器比训练服务器更需要高吞吐量，以应对多客户同时在线调取数据，以ChatGPT为例，目前有约1700亿条数据包，推理服务器需要在这1700亿条数据包内找到客户所需的答案，高吞吐量必不可少

5：用量

训练服务器：推理服务器=1:10

前端大模型构建完毕，后端的推理服务器挂靠在大模型上，需求及其庞大，各行各业都需要推理服务器从大模型中抓取数据包，需求量巨大

6：成本

由于推理服务器需求量巨大，所以成本不得不考虑，倘若让全能H100，既当爹（训练大模型），又当妈（推理抓取数据），第一企业拿不到这么多的H100，其次其价格也是企业无法承受的

7：功耗

因推理服务器用量巨大，功耗问题不得不考虑，目前超微服务器 8U版本功耗为3000W，推理服务器用量巨大，低功耗是必须的

三：推理服务器与ASIC的结合

1：性能

即通过ASIC的算法调整，用低端的GPU，经过算法的优化，即可以达到H100的80%-90%，甚至超越H100

2：能耗比

以蚂蚁矿机为例，蚂蚁BTC矿机能效比实现了90倍以上的优化，单机算力增长超过1,400倍

3：市场占有率

以比特币挖矿为例，ASIC的蚂蚁矿机在BTC矿机市场的占有率一度达到了90%以上。

4：成本

由于ASIC具有无可比拟的价格优势，因此，ASIC更适合推理服务器

5：延迟

由于推理服务器需要低延迟这个特性，而ASIC经过独特的算法优化，可以把延迟控制在0.8MS之内

6：功耗与体积

ASIC因功耗比FGPA更低，而推理端需要大量的服务器，功耗和体积更占优势的ASIC，遥遥领先FPGA

四：推理服务器行业护城河

1：算法

通过优化的ASIC，拥有独特的算法，可以在亿万条数据包中抓取数据，算法是推理服务器第一条护城河，由于ACIS是内嵌算法和功能，具有无法复制，无法逆向工程，护城河不可逾越！

2：接入CUDA

由于目前英伟达的训练服务器都是接入CUDA系统，而目前我们国内前端大模型都以英伟达H系列和A系列为主，后端推理服务器，能否接入CUDA系统至关重要，不能接入CUDA，就等同于不能接入大模型

3：高吞吐量

以华为为例，其搭载昇腾处理的 ATLAS 300i推理卡，为PCIE版本，PCIE 4.0 每秒64GB，PCIE 5.0每秒128GB，而ACIS由于可定制的优势，可以把高速传输芯片直接内嵌在主板上，每秒速度可以达到256G甚至更高，高吞吐量，就意味着低延迟和多命令同时执行，起到降本增效的效果

注意我说的推理服务器三条护城河，一条都不可或缺，首先，ASIC的算法，是这个行业的第一条护城河，大家都知道比特大陆的蚂蚁矿机，凭借着对哈希算法的解码，从2013年上市以来，全球市占率要要领先，到目前为止，无人能敌！

其次就是能否接入CUDA系统，目前主流大模型都是CUDA生态，推理服务器能否接入CUDA是至关重要的！看看国内的寒武纪，摩尔线程，遂原等等GPU厂商，由于不能接入CUDA，导致没有生态，产品不能落地，所以CUDA系统的接入是至关重要，也是极强的护城河！

USI-T技术详解

苏州内夏，核心要点在于拥有三星USI-T接口协议的授权（全球四家USI-T接口协议授权，苏州内夏为中国大陆唯一一家，其余为台湾两家，以及三星半导体），对于LDDI行业来看，V-BY-ONE接口协议从诞生开始，始终占据着主流，台湾三家企业，联咏，奇景光电，敦泰占据了V-BY-ONE大部分专利，但是随着科技和时代的进步，4K，特别是8K电视机在未来的普及，V-BY-ONE接口协议在未来，就面临一些问题，根据资料显示，V-BY-ONE接口协议最高传输速率，3.7Gbps，而三星的USI-T 2.0技术，已经达到4.0Gbps，USI-T2.02版本，更是达到4.4Gbps！随着未来8K电视的普及，以及MINI LED Micro LED的普及，数据传输协议接口，必将重新洗牌！

这就是今天要讲的ASIC和USI-T接口协议的科普帖，仅供参考，资料来源于网络，如有侵权，请联系我删除，谢谢！

$农尚环境(SZ300536)$

科普帖：ASIC与USI-T协议技术详解

作者：重返寂寞

全部讨论