边缘计算与隐私保护在方言数据采集与处理中的应用研究

Journal: Advances in Computer and Autonomous Intelligence Research DOI: 10.12238/acair.v3i4.17903

陈后松, 王可越, 李卓林, 邹晓芳, 袁平

广西职业师范学院

Abstract

方言作为地域文化的重要载体,其快速消亡正引发对语言多样性保护的迫切关注。传统采集方法受限于效率低下、传输压力与隐私泄露风险,难以适应大规模、可持续的方言保护需求。为此,本研究提出一种融合边缘计算与隐私保护技术的协同处理架构。该架构通过“终端—边缘—云端”三级分层设计,将音频特征提取、数据清洗等预处理任务下沉至边缘节点,显著减轻了网络带宽与云端存储负担;并系统集成差分隐私、联邦学习及同态加密等技术,实现从数据采集、传输、存储到分析的全流程隐私防护。实验结果表明,该方案可大幅降低数据传输延迟与存储开销,同时有效遏制针对用户声纹等敏感信息的推理攻击,在保障方言关键特征可用性的前提下,显著提升了数据采集的安全性与效率。本研究为方言资源的数字化保存与合规利用提供了一种高效且安全的技术路径。

Keywords

方言数据采集;边缘计算;隐私保护;分布式处理;语言资源保护

References

[1] 久西草,更太加,金弟,等.多模态技术在藏语安多方言生理语音研究中的应用进展[J].青海科技,2025,32(04):180-188.
[2] 吕晓东.面向边缘智能的AI服务管理系统的研究与实现[D].北京邮电大学,2024.
[3] 曹达钦,刘世界,陈昕.数字化时代语料数据伦理研究:概念、问题、原则与路径[J].外语电化教学,2025,(05):23-29+104.
[4] 翁毅,王璐,孔江平.双方言语音及嗓音特征分析研究——以粤—普人群为例[J].中国语音学报,2024,(02):65-74.
[5] 杜逸超.面向低资源场景的端到端语音和文本翻译方法研究[D].中国科学技术大学,2025.

Copyright © 2025 陈后松, 王可越, 李卓林, 邹晓芳, 袁平

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License