06-13 08:09
从人类不同感官获取信息的比例来看,印象中视觉占据70%左右,视觉信息是非线性、并行的,而音频信息是线性、串行的,你没法颠倒顺序倒过来听一句话,也没法同时听十句话,音频信号承载的信息量有限,所以,操作系统层级的ai助手语音交互,虽然可以解决一部分操作需求,省掉很多打开加载界面切换的操作,一步获得结果并语音回复,但大部分仍然需要基于屏幕上APP界面的视觉反馈。
下一代基于ai的主流计算平台,我猜不会是智能手机这种形态,很可能是ar眼镜,眼镜不方便鼠标键盘输入,ai可以获得眼镜上麦克风和摄像头的权限,以及眼镜操作系统层级的权限,可以随时根据需要ai自主编程生成图层加载在现实世界的拍摄画面上,通过语音交互,并可视线控制鼠标,最大的短板,好像还是眼镜的续航能力。