声网母公司发布Q1财报：总营收3302万美元，活跃客户数同比增长3% 北京时间5月23日，声网母公司 Agora, Inc.(NASDAQ: API) 发布了2024年第一季度财报。财报...

北京时间5月23日，声网母公司 Agora, Inc.(NASDAQ: API) 发布了2024年第一季度财报。财报显示，第一季度 Agora, Inc. 实现营收3302万美元，其中，业务聚焦中国市场的声网实现营收1.23亿人民币，聚焦非中国市场的 Agora 实现营收1580万美元。

在客户规模方面，截至2024年3月31日，Agora, Inc. 活跃客户数量达5553个，同比增长3%。其中，声网活跃客户数量3833个，Agora活跃客户数量1720个。

Agora, Inc. 创始人兼CEO赵斌表示，“尽管面临充满挑战的市场环境，我们持续专注于提升产品的核心性能。我们发布了全新的视频质量优化整体方案，并将我们的 SDK 稳定性提升至历史最佳水平。我坚信这些改进不仅为现有客户创造了价值，也为未来更加多元的应用场景创新奠定了坚实基础。此前我们曾预测，生成式人工智能模型将能够与用户直接进行音视频对话，而这一预测正在迅速成为现实。大模型与人的音视频交互将极大地受益于我们的技术积累，有望发展成为实时互动技术重要的应用场景。”

随着 GPT-4o 的发布，让人与 AI 进行实时语音对话成为现实，而 RTC 则是实现这一场景的关键技术之一。近日，声网进一步丰富 AIGC 一站式解决方案，目前已可以提供基于大模型的全链路实时音视频方案，帮助大模型厂商构建实时音视频互动能力，让用户与 AI 进行语音、视频形式的实时互动，并已做到行业内领先的低延时对话体验。

本季度，声网持续聚焦于多元应用场景创新和行业拓展，发布了两款重磅解决方案，分别为声网赛事直播方案和 RTC+AI 教育超级双擎解决方案。声网赛事直播方案，助力直播平台以更低的成本，获得更高质量的赛事直播效果与用户体验。RTC+AI 教育超级双擎解决方案，则助力了在线课堂教学体验的升级以及教学场景的创新。

在出海领域，声网也持续深耕 1v1 社交场景，助力客户在网络环境复杂多变的地区，也能拥有流畅稳定的音视频互动体验，跑赢出海大盘。据数据显示，声网 1v1 社交客户在全球各区域的1v1 App 市场渗透率>70%，其中在中东地区 1v1 社交 App 收入 TOP20中，使用声网 SDK 的 App 就达到了14个，渗透率排名第一。

AIGC 一站式方案助力大模型构建实时音视频能力

近日，GPT-4o 的发布引起了业界的广泛关注与强烈讨论，也透露出一个重要的信号：支持端到端实时多模态将成为当下大模型发展的新趋势，实时文本、音视频传输能力，将成为实时大模型的标配。

相比于 GPT3.5 和 GPT4，GPT-4o 最核心的区别在于文本、视觉和音频由同一个神经网络处理，不仅降低了延时，还捕捉到了更多的信息。此前基于 GPT3.5 或 GPT4 的 AI 语音助手是通过 STT 将语音转成文字再输入给大模型，大模型生成文本响应后再通过 TTS 输出语音给到用户，平均延时达到2.8秒（GPT-3.5）和5.4秒（GPT-4）。

而GPT-4o 直接将语音实时输入给大模型，并大幅提升响应时间，最终实现了与真人聊天一样自然流畅体验，AI 的处理反应已经达到人类的高度和速度，而实现这一跨越式技术进步的关键，一是大模型的进化，二是RTC能力的应用。

针对大模型的交互能力，声网目前已可以提供基于大模型的全链路实时音视频方案，可以帮助大模型厂商构建实时音视频互动的能力，用户可通过麦克风与 AI 进行语音、视频形式的实时互动，并且做到行业内领先的低延时对话体验。

声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK，并支持模块化能力的灵活拼装，包含 RTC 实时音视频、实时消息等多种能力，并支持 API 快速调用，提供开箱即用的场景化 Demo，最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言，可以节省很多开发时间。

发布赛事直播解决方案，延时低至500ms、安全稳定更高清

为了解决赛事直播场景普遍存在的高延迟、低画质、信号传输稳定性差、成本高昂，以及盗链等问题。本季度，声网发布了赛事直播解决方案，助力直播平台以更低的成本，获得更高质量的赛事直播效果与用户体验。该方案主要应用于赛事观看、一起看比赛、大V解说、明星陪看等热门场景。

声网赛事直播解决方案提供了成本可控的云演播厅，直播平台无需租赁线下场地即可让受邀嘉宾在线解说。针对解说嘉宾不同的网络情况，声网也提供多条不同码率和帧率的实时流，并根据解说嘉宾的实际网络情况进行自动切换，即使是1M 带宽，也能实现流畅解说。

超低延迟、稳定传输等技术作为声网的“看家本领”，让声网赛事直播解决方案的优势更加明显。它可以保证在 500ms 内将画面传输到观众眼中，相比传统 HLS、FLV 通道最高降低 90%，观众端直播画面首帧出图时间

基于 NTP 声网赛事直播解决方案可以保证解说嘉宾各端对齐，直播画面差严格小于3帧，解说音轨与赛事画面同步。此外，基于声网凤鸣 AI 引擎的降噪功能，可以有效消除解说嘉宾的环境杂音和外放声音，同时避免人声被抑制采用，为观众带来更“纯净”的观看体验。

针对赛事直播过程中观众侧质量难以追溯的痛点，声网赛事直播解决方案提供了强完善质量工具“水晶球”，不仅可以为平台方提供实时质量监测，还能快速定位卡顿观众端。除此之外，该方案还提供了军工级信号加密，实现端到端传输和内容双重加密，有效防盗链。

发布 RTC+AI 教育超级双擎解决方案驱动教育多维创新

4月27日，声网发布了 RTC+AI 教育超级双擎解决方案，通过 RTC+AI 双引擎驱动在线课堂教学体验的升级以及教学场景的创新，该方案包含了超强互动、丝滑流畅、多维直播、教育硬件适配、AI沉浸课堂、大模型辅助教学等六大特性。可应用于直播大班课、智慧教室、学习机、AI口语老师等在线教育场景。

基于声网的 RTC 技术，可以保障师生随时随地通过上麦、弹幕、文字消息等方式与老师实时互动，教学体验丝滑流畅，确保每堂课程 0 干扰、无卡顿。同时，提供实时直播和录像直播两种教学模式，录像直播搭配教学组件也能达到实时直播的教学效果，有效节省教学成本。该方案可全面适配市面上主流学习机品牌，并实现了低端机型性能优化，具备低内存占用、极小包体、超低功耗等特性，并在行业内率先适配鸿蒙 HarmonyOS NEXT。

声网的智慧教室音频（3A）解决方案具备 AI 降噪、AI 去混响、AI 回声消除等能力，可全面消除教室内各类噪声；无论教室大小及麦克风布局，均能自适应降低混响时长，最大可降低800ms 混响时长，有效提升语言清晰度；实现复杂场景下的回声抑制和近端人声保真，老师端语音保留可达90%，教室回声残留率低至0.1%，深度还原线下教室的上课体验。

声网的教育超级双擎解决方案同样支持大模型辅助教学，运用大模型构建 AI 口语老师场景，学生可通过实时语音与 AI 进行问答互动，从学生发言到 AI 对话响应平均延时仅为1.9s。

助力中东 1v1 社交应用跑赢出海大盘

中东一直是企业出海的热门市场，而在中东的泛娱乐社交出海中，1v1社交凭借社交效率高、新鲜感十足、变现能力强等因素，成为了社交出海的大热场景。声网在助力客户出海的过程中也发现面向中东区域出海1v1社交的客户越来越多，声网也成为中东社交 App 音视频服务首选。据数据显示，声网1v1社交客户在全球各区域的1v1 App 市场渗透率>70%，其中就中东地区，在中东1v1社交 App 收入 TOP20中，使用声网 SDK 的 App 就达到了14个，渗透率排名第一。

中东地区的网络环境复杂多变，保障绝大部分用户在任何情况下都能流畅稳定地进行实时互动是一大难题。声网通过优质网络覆盖、超强的弱网对抗能力，有效解决网络复杂性下的互通难点，为出海中东的泛娱乐社交应用“保驾护航”。对于目前中东出海的几个热门国家地区，如土耳其、埃及、伊拉克在带宽一般、网络稳定性一般甚至较差的情况下，声网也能做到最优效果。

声网母公司发布Q1财报：总营收3302万美元，活跃客户数同比增长3%

作者：DoNews