关闭广告

GPT-Realtime-2上线!全球AI巨头加码,语音一夜成了AI圈香饽饽

雷科技371人阅读

2024 年 2 月,OpenAI 发布了 Sora。这个能生成视频的 AI 模型用极短的时间改写了移动互联网时代的内容创作方式,甚至连迪士尼都曾计划为此注资十亿美元,并计划在 Sora 2 中引入自己的核心影视 IP。但就在 26 年 3 月,OpenAI 宣布关闭 Sora,相关 API 也会在 9 月停止提供。

对此,OpenAI 的解释是「将计算资源重新分配至核心企业产品」。

那到底是怎样的产品值得 OpenAI 不惜「壮士断腕」呢?刚刚过去的四月里,OpenAI 先后发布了 GPT-Image 2.0、GPT-5.5 等新服务。5 月 7 日,OpenAI 也乘胜追击,接连上线了 GPT-5.5 Instant 和今天我们要谈的重点——GPT-Realtime-2 系列模型。

GPT RT2让 AI 像真人一样说话

简单来说,GPT-Realtime-2(简称GPT RT2)是一个全面优化 AI 语音能力的模型系列,包含原版(GPT-Realtime-2)、翻译(GPT-Realtime-Translate)和转录(GPT-Realtime-Whisper)三个分支。其中 GPT-Realtime-2 具备 GPT-5 级别推理能力,开发者甚至可以自定义模型的推理深度,在准确性、时效性和算力成本之间找到自己的平衡。



图片来源:OpenAI

而这些新技术的目的有且只有一个——让 AI 能像真人一样说话。

我知道,其实现在不少 AI 模型在 TTS 音色上已经和真人非常接近了,大家平时接到的运营商、银行的骚扰电话,十有八九就是 AI 打出的,在通话的「全损音质」下,想分清对方是真人还是 AI 确实有点难度。

但只要我们一张嘴,这些 AI 客服就会马上露馅,在雷科技看来,这种 AI 语音模型和真人的能力差距,主要体现在复杂任务处理能力上。以一个经典笑话举例:

下班路上买一个西瓜,如果看到苹果,就买两个。

没有推理能力的 AI 会按照自己的想法把「就买两个」的对象当成西瓜或苹果;而有推理能力的 AI 会发现这是个有歧义的病句,反过来要求用户给出更清晰的要求。再举一个例子:你要求车机「折叠副驾驶位,打开零重力模式」时,车机是否能主动推理出你要打开零重力模式的,其实是副驾驶后排的座位呢?

而 GPT-Realtime-2 的出现,就给 AI 带来了真正理解用户需求的能力。

除此之外,GPT-Realtime-2 的平行工具调用(Parallel tool calls)可以一次拉起多个组件,以响应用户的复杂语音指令;GPT-Realtime-Whisper 可以以近乎实时的速度把语音转写成文档,让「实时字幕」成为可能;GPT-Realtime-Translate 的同步翻译功能可以在对方还在说话时直接生成语音译文,效率堪比同声传译。



图片来源:OpenAI

毫不夸张地说,GPT-Realtime-2 的出现,很有可能会改变未来 AI 的交互方式,让语音交互取代文字,成为未来日常 AI (非工作等生产力 AI)的主要交互模式。

「老登」习惯打字,年轻人爱动口?

但话又说回来,在语音交互赛道上发力,其实是近几年 AI 赛道的共识了:

5 月 7 日千问 PC 端上线 AI 语音输入,用极强语义解析能力打造了可以用于工作场景的 AI 用例,在此之前,豆包、Claude、ChatGPT、Gemini等AI均已支持桌面语音模式,允许用户用嘴与AI交互,包括编程;4 月 27 日影石 Insta360 联手字节跳动 AI 编程平台 TRAE 推出了适用于 Vibe-Coding 的领夹麦克风;4 月 23 日涂鸦在全球开发者大会上发布了 PVAD 自训练模型和 TTS增强引擎,提出了 LUI(语言交互界面,与图形交互界面 GUI 对应)的概念。

甚至在就在今天,马斯克也在 X 上为 xAI 的打造的Grok Voice Think Fast 1.0 语音助手宣传造势。



图片来源:X

那为什么 2026 年的 AI 战场会落在语音交互界面上呢?OpenAI CEO Sam Altman 就提到了一个观点:

顺便提一句,年轻人似乎更喜欢通过语音与 AI 互动,而老年人以及中间年龄段的人更喜欢打字。我想知道这会不会改变。

在雷科技看来,这一现象背后不仅是习惯问题,也是年轻人与中年人思维模式的差异。对于在全时在线、触屏环境中长大的 00 后、10 后(以及诞生于语音交互时代的 20 后)来说,键盘带有浓厚的「班味」,除了打游戏外几乎不会碰。



图片来源:X

顺着这个角度想,在过去 20 年里,键鼠组合高效、精准的输入方式为 PC 的生产力工具的身份打下了基础,但也限制了我们「必须在电脑前才能工作」。而 LUI 的出现改变了这个刻板印象:起身接杯水也好、下楼透气也好,甚至只是瘫在椅子上思考时,AI 都能通过我们的「只言片语」跟上我们的思维,让灵感随时在线。

事实上,语音输入「有效信息含量低」的特点,也确实只有 AI 可以解决。以千问今天上线的 PC 端上线 AI 语音输入为例,雷科技简单体验了一下。除了基础的语音输入外,千问 PC 语音输入还可以自动过滤掉说话过程中那些没有意义的语气词、填充词。

比如在输入图中这个需求时,我几乎在每一个停顿处都加入了大量的「呃」「就是」,千问也能直接过滤掉。



图片来源:雷科技

不可否认的是,在办公室等公共场所使用语音输入,多少会对其他同事产生影响。但 AI 语音能力的提升,确实让语音输入在工作场景也具备了「实用性」,如果你像年轻人一样说话跳脱、思如泉涌、「脑子比嘴快」,又或者喜欢用语音输入,那千问的语音输入功能对你确实很有帮助。

从这个角度看,拥抱语音交互,本质上是 AI 巨头们在抢占这些年轻用户的市场。谁能把语音交互做稳,谁就能垄断这些年轻人碎片化时间的「交互主权」。

其实这种迎合下一代使用习惯,超前建立用户粘性的做法也并非新鲜事,MacBook Neo、Chromebook、iPad 等电子产品在海外烧钱发力教育市场,背后也是同样的逻辑。

只不过在雷科技看来,除了面向下一代的超前布局外,AI 巨头不约而同发力 LUI,背后还有别的推动力:LUI 和 AI 的的终极目标一致,都带有「永远待命、随时可用」的属性。

文字界面(TUI、命令行)也好、图形界面(GUI)也罢,经过多年的发展,这类视觉交互能覆盖的场景早已到头。但在开车、锻炼、下厨、洗澡这些「手脚被占用」的场景里,语音交互的价值仍未被完全挖掘。

以最常见的驾驶场景为例:为了填补实体按键缺失带来了交互空白,国内新能源品牌早已在 LUI 语音交互界面上发力;对着车机下超长复杂指令,也成为了大家体验智能座舱时的保留节目。

作为回应,不少车企也开始与头部 AI 企业合作,利用外部的语音大模型完善智能座舱的体验。比如在去年的广州车展上,不少车企就向雷科技透露自己的车机「融入了豆包」的能力。



图片来源:雷科技

可以说,在 AI 市场风起云涌的 2026 年,哪家 AI 企业能抢先完善 AI 语音,带领行业从 GUI 交互走向 LUI,谁就能抢先一步吃上「新的蛋糕」。

语音成了AI硬件交互的入口

即使我们抛开 LUI 这种长远命题不谈,从用户、智能硬件的角度来看,语音交互其实也是加速 IoT 设备转型为 AIoT 设备的捷径。

以往的智能硬件要变「聪明」,需要堆屏幕、堆算力芯片。而 AI 语音对设备端的硬件要求极低,一个用来收音的麦克风、一个处理音频数据的计算模块、一个用于跑端侧模型的算力平台(这个对部分 AI 硬件来说甚至是可选项)再加上最基本的网络连接能力,任何一个曾经不起眼的 IoT 产品,都能摇身一变成为 AIoT 硬件。



图片来源:雷科技

为雷科技报道海外展会和高管群访立下汗马功劳的钉钉 A1 录音卡就是最好的例子。过去雷科技也试过不少智能录音设备,甚至买过运行端侧本地模型的智能录音笔。但受模型能力限制,这类「智能录音笔」效果通常都不尽如人意。

不过钉钉 A1 就没有这个问题了:手机里装着完整的大模型,能以近乎同步的速度输出翻译结果。而把转写、翻译的任务交给手机后,A1 里的端侧小模型也能将更多的资源用在语音拾取、降噪等方面,从源头优化录音效果。

在录音、转写、翻译这三大功能外,钉钉 A1 录音卡也充分发挥了 AI 智能体的能力,可以将录音内容直接转化为符合标准格式的会议记录、待办事项,甚至可以在基础上对内容进行二次深度理解。

而从产品多样性的角度看,除了给传统 IoT 设备「赋能」外,AI 语音交互的出现甚至催生了不少 AI 新概念产品。像科大讯飞就基于其在语音识别领域多年的技术积累,打造了包括 AI 翻译机、AI 墨水屏办公本、会议耳机、AI 眼镜甚至是 AI 键盘、AI 鼠标等产品。

尽管产品品类繁多,但按照其对 AI 技术的应用,雷科技认为这些 AI 产品依旧有一条横跨品类的「主线」——用语音 AI 丰富硬件的交互方式,从而优化产品的体验。



图片来源:讯飞

以讯飞的 AI 办公本为例,受限于像素响应时间,电子墨水屏设备天然就不适合键盘输入。用过 Kindle 的朋友应该对 Kindle 连 Wi-Fi、打密码的流程深有体会。这种输入手段的缺失让电子墨水屏设备长期以来只能当作单纯的「显示设备」,不具备真正的办公能力。

但 LUI 的出现改变了电子墨水屏「只有输出没有输入」的局面:讯飞星火大模型的外语和方言识别能力,解锁了电子墨水屏的输入能力,让墨水屏从「显示器」真正升级成了「办公本」。搭配图片理解等多模态输入能力,讯飞早已将电子墨水屏设备打造成了「全能办公设备」。

可以说,无论从产品、用户还是 AI 供应商的角度看,语音交互对 AI 的重要性都毋庸置疑。

中国AI的优势:更会听/说中文

另外,发力 AI 语音交互对国内 AI 巨头来说,其实还有另一个意义——中国的 AI 公司,天生更懂中文。

按第一语言(母语)来算,中文是世界使用人数最大的语言;按照总使用人数(母语+第二语言)来计算,中文是世界使用人数第二大的语言。

可能有人认为「懂中文」只对国内用户有意义,上升不到国际角度,但事实并非如此。雷科技前段时间去美国旧金山参加了追觅的发布会,更早之前也在巴塞罗那、柏林等非英语城市参与了海外展会的报道。

就雷科技的所见所闻而言,大量一代移民即使身处海外,也只会说中国话(主要为粤语)。很多上年纪的华人即使在温哥华、旧金山、巴塞罗那、墨尔本等移民城市生活多年,依旧过不了最基本的入籍语言关。

很显然,他们也有使用 AI 的需求,甚至对于不会打字的老人群体来说,语音交互是他们使用电子产品的唯一手段。但无论 Google 的 Gemini、OpenAI 的 ChatGPT 或 xAI 的 Grok,其对中文语音的支持都相当有限。以 ChatGPT 为例,过年策划主流 AI 助手中文和方言支持时,雷科技就发现 ChatGPT 并不能稳定、持续输出广东话,说着说着就会自动切换回英语。

对 ChatGPT、Gemini、Grok 来说,「说中文」是个不小的挑战;但对豆包、千问、Kimi、讯飞等国内 AI 服务来说,这恰恰是「与生俱来」的优势。



图片来源:豆包

相比英语,中文存在大量的倒装、省略以及「只可意会」的潜台词。再加上中国庞大的方言体系,广东话、四川话、东北话……每一个方言背后都是一套独立的文化逻辑。海外巨头的大模型虽然能翻译中文,但在处理带口音的口语、特定语境下的俚语时,往往无从下手。

而这恰恰为豆包、千问、讯飞等国内头部品牌建立了天然的护城河。像刚刚提到的千问 PC 端语音输入能力,甚至可以对语音素材进行规整,精准找到用户语音中的重点,不需要用户「意思意思」。前几年,商汤甚至还推出了首个面向粤语用户的 AI 服务「日日新」。

不可否认,无感 AI 交互是一切 AI 服务的终极目标。但在这种主动感知 AI 交互普及之前,语音依然是最高效、最直接的桥梁。国内 AI 行业通过死磕中文和方言,实际上也换来了「海外华人」这一被海外 AI 巨头长期忽略的用户群体,找到了一条跻身世界头部品牌的快车道。

2026 年,AI 竞争逻辑已经倒转:以前的 AI「需要人学」,现在的 AI「拼命学人」。随着语音交互、LUI 等概念的普及,那个对着输入框抠字的日子,真的该翻篇了。



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

雷佳音回应作品太多惹人烦,自己新剧也牵涉其中

手工制作阿歼 浏览 2635

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 2178

美乌代表:佛州会谈"富有成效和建设性"

上观新闻 浏览 2033

伊姐周日热推:电视剧《重案解密》;电视剧《21世纪大君夫人》......

伊周潮流 浏览 506

媒体:南博获捐的137件书画中 《江南春》算不上顶级

红星新闻 浏览 6952

股价年内涨近127%!汇量科技是如何做到的?

览富财经网 浏览 2345

涉及中国 日本高官公开道歉并撤回错误言论

环球时报国际 浏览 7630

热巴近照好肿!状态变化被质疑生过娃,狗仔曾曝孩子属兔三岁了

萌神木木 浏览 379

美防长抨击美军士兵肥胖后 一张照片火了

环球网资讯 浏览 10925

美印友谊的中流砥柱被FBI大张旗鼓拘捕 被控"串通中国"

澎湃新闻 浏览 10681

神舟二十号飞船以无人状态安全顺利返回,面对新挑战,更多任务细节公布

上观新闻 浏览 1630

英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天

机器之心Pro 浏览 2298

两场硬仗,一个拐点,蔚来穿越最长谷底

雪豹财经社 浏览 2435

内存成本持续大涨,买手机电脑会越来越贵该怪谁?

江瀚视野 浏览 1858

S妈现身大S雕像揭幕仪式,S家人穿黑衣现身,纪念碑刻着“S”字样

素素娱乐 浏览 1577

美军参联会主席警告:对伊朗动武可能带来重大风险

央视新闻客户端 浏览 1299

版博会观察:冰箱贴凭啥成文创顶流?AI+版权如何焕新意?

南方都市报 浏览 2534

最长纯电续航335km 智己LS8动力曝光

车质网 浏览 1857

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 1834

谁的自动驾驶算法更厉害?这场比赛在京沪同步开赛,定义未来出行安全边界

文汇报 浏览 1915

城区油耗2L级 长安逸动/CS75 PLUS蓝鲸超擎抢订价7.99万起

网易汽车 浏览 455
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1