全息/VR/AR行业发展动态周报2024年第20周(5月13日-5月19日)

发布于: 雪球转发:0回复:1喜欢:0

一、政策环境

【五部门:鼓励支持文博场馆运用VR、AR、元宇宙等建设沉浸体验空间】

5月13日,文化和旅游部办公厅、中央网信办秘书局、国家发展改革委办公厅、工业和信息化部办公厅、国家数据局综合司联合发布《关于印发<智慧旅游创新发展行动计划>的通知》。

《通知》强调,鼓励和支持文博场馆、考古遗址公园、旅游景区、旅游度假区、旅游休闲街区、主题公园、演艺场所、夜间文化和旅游消费集聚区等,运用虚拟现实(VR)、增强现实(AR)、拓展现实(XR)、混合现实(MR)、元宇宙、裸眼3D、全息投影、数字光影、智能感知等技术和设备建设智慧旅游沉浸式体验新空间,培育文化和旅游消费新场景。促进电子竞技、动漫游戏等线上数字场景与线下旅游场景融合发展。鼓励数字文创等智慧旅游产品出海,提升国际传播力和影响力。

二、产业发展

【OpenAI推出新一代大模型GPT-4o!完全免费语音功能震撼登场】

北京时间5月14日,预热已久的Open AI正式向公众发布了语音大模型GPT-4o(全能模型)。

据介绍,GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,可以综合利用语音、文本和视觉信息进行推理,扮演个人语音交互助手。

OpenAI表示,GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。

这一次,Open AI向世人展现了强大且丝滑的语音对话等多模态能力。而语音版GPT-4o将“在未来几周内”开始提供。开发人员将能够使用GPT-4o的文本和视觉模式,并在未来几周内向“一小部分值得信赖的合作伙伴”提供音频和视频功能。

谷歌大会发布「AI 超级全家桶」全面对打GPT-4o!】

5月14日,科技巨头谷歌召开I/O开发者大会上,展示了由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及在硬件方面发布的第六代Tensor处理器单元Trillium芯片。

在大会上,谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。谷歌将向全球150多个国家地区的Gemini Advanced订阅者提供最新模型、拥有100万个token的Gemini 1.5 Pro,支持超过35种语言。

就在OpenAI推出能够实现人类级别响应的智能助手GPT-4o后,谷歌的AI智能体项目Project Astra也重磅登场。在演示视频中,Astra能够通过手机摄像头或智能眼镜看到的内容来分析响应语音命令。

【Anthropic 宣布在欧洲推出 Claude 聊天机器人,精通多种语言 】

5 月 14 日消息,人工智能初创公司 Anthropic 宣布其生成式 AI 助手 Claude 将于当地时间周二在欧洲上线,该公司的基础软件产品已经在欧洲各地的金融和酒店等行业获得了一定的吸引力。

Anthropic还将提供付费订阅版本,名为 Claude Pro,向用户开放其所有模型(包括最先进的 Claude 3 Opus)。此外,Anthropic 还推出了面向企业的 Claude Team 订阅计划,月费 28 欧元。

【字节跳动收购Oladance,有望推出AI智能眼镜】

据消息,字节跳动已于4月份收购OWS公司Oladance品牌大十科技,收购价格在3-5亿元之间,目前字节跳动团队人员已经进驻大十科技。

Oladance是深圳市大十未来科技有限公司旗下的音频品牌,专注于OWS全开放穿戴式音频产品领域,公司创始人和核心技术团队成员全部来自BOSE。如今,Oladance在全球各地拥有超300万用户。

本次收购Oladance,除了探索和推出AI OWS智能耳机外。据称,字节跳动有望借助前几年在AR眼镜项目的经验积累,与Oladance的OWS音频技术结合,先推出类比Meta Ray-Ban的智能眼镜,实现先眼镜+音频+AI、后AR的产品战略。

【艾瑞咨询:2024年全球VR终端出货将突破810万台】

5月12日,艾瑞咨询发布报告称,2023年全球VR终端出货量为765万台。艾瑞咨询预估,2024年全球出货较去年将有小幅上涨,预计超过810万台。屏幕、光学模组和芯片等VR核心硬件构成的工艺成熟与量产进程对设备出货有重要影响,叠加苹果等头部厂商的产品迭代规划,整体出货预计在2027年实现飞跃式增长。

【国际首个城域量子网络取得重大突破!】

5月16日,从中国科学技术大学获悉,科研人员首次采用单光子干涉在独立存储节点间建立纠缠,并以此为基础构建了国际首个基于纠缠的城域三节点量子网络。

该工作使得现实量子纠缠网络的距离由以往的几十米整整提升了三个数量级至几十公里,为后续开展盲量子计算、分布式量子计算、量子增强长基线干涉等量子网络应用奠定了科学与技术基础,为未来大规模量子网络铺平了道路。

谷歌计划全面推动全息视频技术商业化】

日前,谷歌召开了其2024 I/O大会,本次大会核心围绕AI,并发布了一系列引人瞩目的全新产品如Gemini、AI Overviews、Ask Photos等新产品或新能力。

此前,谷歌就通过新闻稿宣布,将与2025年开始推动全息视频聊天技术Project Starline的商业化。如今,谷歌表示,Project Starline是一个突破性的技术项目,可以让朋友、家人和同事在任何距离都感觉对方近在咫尺。该项目利用先进的AI、三维成像和其他技术,可以使用户在通话时就像与对方“同处一室”一样。

【宝马Mini正在研究车载MR技术】

宝马Mini展示了一项名为Mini Mixed Reality的有趣新技术,它将虚拟与现实融为一体,以增强驾驶体验。Mini混合现实系统的核心是一个经过专门改装的高端PC,将运行定制的Mini VR世界软件。

该系统将内容直接传输到VR头显,并通过精确的头显跟踪、同步加速度传感器、环境声音定制和集成车辆界面创建身临其境的响应式驾驶环境。

【售价2299元,盘古AI接入,华为发布新款智能眼镜 】

2024 年 5 月 15 日,华为召开华为夏季全场景新品发布会,正式发布了华为智能眼镜 2 方框太阳镜,售价 2299 元。即日起开启预售,24 日正式开售。

华为智能眼镜 2 方框太阳镜,延续该系列全天候智慧音频体验,升级全新时尚墨镜造型、具备超长45天续航待机模式、轻巧防晒、全天候长续航、高清隐私通话等功能体验。

具体来看,华为智能眼镜 2 全新方框太阳镜,镜框采用 oversize 设计风格,银饰角花巧妙点缀,镜片采用的 UV400 防护镜片,呈现黑色光泽,支持更换带度数的墨镜片。

三、市场动态

苹果(AAPL.US)Vision Pro或于6月开始在国内销售】

据彭博社马克·古尔曼报道,苹果很快将开始在美国境外销售Vision Pro。他指出,苹果目前正在为来自中国、德国、法国、澳大利亚、日本、韩国、新加坡的零售员工举行Vision Pro培训课程。

此外,根据中国质量认证中心显示,苹果Vision Pro和其移动电源(均为A2781)已于5月13日获得3C认证,也就是随时可以在市场上进行销售。

微美全息(WIMI.US)构建基于深度迁移学习的图像分类融合模型】

深度学习在计算机视觉领域得到越来越广泛的应用,尤其是在图像分类任务上。然而,由于数据集的限制和模型的复杂性,深度学习模型在小样本数据集上的表现仍然有待提高。

为了解决这个问题,微美全息将迁移学习引入到图像分类任务中,构建了图像分类融合模型,通过利用在大规模数据集上训练的模型的特征表示来提升小样本数据集上的分类性能。

深度迁移学习可将已经在大规模数据集上训练好的深度学习模型应用于新的任务中。在图像分类中,深度迁移学习可以通过将已经训练好的模型的部分或全部网络参数迁移到新的模型中,从而加速模型的训练过程和提高分类性能。这种方法可以有效地利用已经学到的特征知识,提高图像分类的准确性和效率。

随着深度迁移学习在图像分类任务上的成功应用,未来微美全息将更加注重从跨领域迁移学习、模型解释性和小样本学习等方面对基于深度迁移学习的图像分类融合模型进行探索和改进,以进一步提高图像分类任务的性能和应用范围。

谷歌(GOOG.US)I/O大会公布了一副AR眼镜】

不管是之前跳票的实时翻译眼镜,还是谷歌解雇了AR的相关高层,都让人感觉Project Iris已经是“不存在的项目”了。但可能小看了谷歌,就刚刚在I/O大会期间展示了一款AR眼镜原型机——虽然不经意到一不小心就会错过。

这款眼镜出现在Project Astra的展示视频中,看起来就像一款普通的眼镜。它短暂的出现展示出2个关键问题:其一,它附带有摄像头,能够捕捉环境信息。其二,有显示器向佩戴者显示信息。当然,它还一定包括有扬声器和AI功能。

Meta(META.US)正在测试Quest的虚拟手腕按钮】

Meta Quest v66 PTC版已向参与者推出,在手腕上引入了虚拟菜单按钮,这些按钮充当左侧触摸控制器上的设置按钮和右侧触摸控制器上的Oculus/Meta按钮的替代品,是一项实验性功能。

$谷歌C(GOOG)$ $微美全息(WIMI)$ $Meta(META)$

全部讨论

热点多