斗鱼首创直播 AI 字幕:针对游戏场景 识别精准度达 90%

静音环境下如何看直播?海外主播讲外语听不懂怎么办?最近这一需求得到了解决。

关注英雄联盟 LPL 夏季赛的用户不难发现,斗鱼官方直播间新增了一项 “不同寻常”的功能。当用户选择 “字幕线路”后,直播间底部即会出现一行动态文字,从 BP 环节的运筹帷幄,到赛场上的瞬息万变,解说的激情讲解句句不落,直播内容均得到了较为准确的翻译。

据了解,这是斗鱼全新上线的 AI 字幕功能,它不仅能够将直播视频流中的音频进行实时语音识别转化为文字,以字幕的形式同步显示在直播视频流上,而且支持中、英、韩等多语种互译。目前,斗鱼已将这一功能先后面向数十个直播间开放体验,覆盖了英雄联盟 S10、英雄联盟 LPL 夏季赛等大型赛事。

行业首创 “游戏语言识别模型” 响应速度达毫秒级

通过将机器算法与直播场景结合,斗鱼率先突破了 AI 字幕的技术壁垒。值得注意的是,相较市场上存在的同声传译、影视剧字幕等翻译产品,在游戏场景内,AI 字幕的落地并非易事。

由于游戏直播的特性,主播直播的内容存在大量的游戏术语,尤其是在专业较强的赛事直播中,譬如 “腕豪”“雷欧娜”“集火输出”“阵容强势期”等,常规翻译软件通常难以理解。因此,斗鱼 AI 字幕技术针对游戏直播内容的识别,更 “重义”而非 “重音”。

与此同时,赛事直播间中解说、游戏和赛场的嘈杂声音,不仅需要识别,还需要打磨工程协同。才能处理好字幕与语音之间的延迟、字幕悬停时长、断句等细节体验。为此,斗鱼制定了 “定制化游戏语言识别模型”,提升了对硬核语义,如战队名、队员 ID、装备、技能等内容的理解能力,同时过滤 “垃圾话”等。并且通过 ASR、NLP 算法,在主播声、游戏声等复杂的语音环境中,实现了高精度识别,并能支持英语、日语、汉语等多种语言的识别与互译,覆盖不同人群的语言习惯。

据粗略统计,斗鱼 AI 字幕在保证毫秒级响应速度的同时,翻译精度亦能保持在 90% 以上。未来,在使用过程中,受益于日积月累的数据沉淀与机器自我学习,AI 对于游戏用语、游戏梗的理解精确度也将逐渐提升,不断迭代提升观众的使用体验。

支持中、英、韩等多语互译 拓展多元化场景需求

AI 字幕功能上线的背后,是斗鱼对用户使用痛点的精准捕捉,也是对直播产品体验的严格要求,更是对拓展多元化业务的摸索与沉淀。

其一,AI 字幕能够满足用户的多元化场景需求,大幅提升了直播观看体验。随着 5G 技术的演进,用户观看直播的场景从住所、网吧等,逐渐向公交地铁、商场等公共场所转移。一方面,AI 字幕能够将用户的双耳从嘈杂的环境音中解放出来,让直播的收看更加方便;另一方面,特有的中日英韩多语互译功能,也能让大多数用户能够看懂海外比赛,削减了观看过程中的语言障碍。

其二,AI 字幕满足了听障人群的使用需求。据统计,我国的听力残障人士约 2780 万人,占全国残障人群的 30% 以上。今年两会的《政府工作报告》也明确提出,数字产品在设计时应当贴合社会中的弱势人群。而 AI 字幕的上线能够解决他们难以理解直播内容的难题,让广大听障人士获得和正常人一样地观看直播。

其三,AI 字幕能够解决海外主播语言不通的痛点,从而吸纳更多的海外人气主播加入斗鱼;另一方面,通过对多语种实时互译技术的打磨,斗鱼将有条件支持直接翻译发布会内容,如苹果和微软的新品发布会,从而打开商业合作的多元化前景,为其商业化提供想象空间。

在赛事期间,大量玩家反馈语音识别的便利性,尤其是 “静音环境用户”在直播间展开了热烈的讨论,尤其表达了对该功能的认可。

据了解,斗鱼长期投入技术研发,致力于优化用户的使用体验,已在直播技术领域建树颇多。针对赛事直播场景,斗鱼曾推出过实时回放功能、精彩时刻锚点功能,能够实现对直播内容的全程回顾与快速定位,以及能够减少直播卡顿的 SRT 推流技术等。AI 字幕功能的推出,也充分体现了斗鱼对用户需求的强大洞察力。随着平台技术实力的不断升级,斗鱼将以更加细致化的技术革新,带给用户更加极致的产品体验。


免责声明:凡本网注明 “来源:XXX(非经济参考网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

上一篇:智能主动降噪 三星 Galaxy Buds Pro 带你感受声音的魅力
下一篇:返回列表