人工智能在视频通信中实时翻译和字幕生成的应用

Journal: Advances in Computer and Autonomous Intelligence Research DOI: 10.12238/acair.v3i4.17901

李福霞, 付学涛, 李明慧

博鼎实华(北京)技术有限公司

Abstract

全球化远程协作深度普及的当下,语言障碍已成为制约跨区域视频会议效能的关键桎梏。本文系统梳理AI驱动的实时翻译与字幕生成技术研究进展:首先阐述语音识别(ASR)、神经机器翻译(NMT)及低延迟边缘计算的技术机理,重点解析Transformer架构在声学建模与语义映射中的创新实践;其次深入剖析光学字符识别(OCR)字幕识别、多语言翻译引擎与动态渲染的全流程技术细节,结合数据对比主流平台在不同噪声场景、语种组合下的性能表现;最后指出复杂噪声干扰、小语种语料稀缺、实时性与准确率平衡及数据隐私合规等核心挑战,提出基于自监督学习的鲁棒性优化、联邦学习驱动的小语种扩展、轻量化模型部署及同态加密隐私保护等发展方向。研究可为视频会议系统测试工程、技术标准化建设及跨语言协作生态构建提供重要参考。

Keywords

人工智能;视频通信;实时翻译;字幕生成;边缘计算

References

[1] Fortune Business Insights.Video conferencing market size, share & trends analysis report 2024–2032[R].Pune:Fortu
[2] A Survey on State-of-the-art Deep Learning Applica
[3] 天翼云开发者社区.边缘计算与云服务器协同:低延迟场景下的分布式架构设计[EB/OL].2025-05-16.https://www.ctyun.
[4] Niehues J,et al.Low-latency neural speech translation
[5] Wang,G.,Zhao,Q.,Zhou,Z.,& Liu,Y.(2025).Research on Real-
[6] 冯笑,杨雅婷,董瑞.基于回译和集成学习的维汉神经机器翻译方法[J].兰州理工大学学报,2022,48(5):99-105.
[7] 陆雯洁,谭儒昕,刘功申.基于半监督学习的小语种机器翻译算法[J].厦门大学学报(自然科学版),2019,58(2):200-208.

Copyright © 2025 李福霞, 付学涛, 李明慧

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License