北京第二外国语学院发布大语言模型翻译质量评测报告

科学技术迭代日新月异，但语言所承载的文化内涵、认知模式与表达方式的复杂性，仍需专业研究者与译者的深度参与和持续探索。

2025年6月23日，北京第二外国语学院发布《大语言模型翻译质量评测报告BISU-AiTQA（v1.0）》。该评测突破国际现有评测以英语为核心的现状，构建了以汉语为核心，覆盖多语种、多领域的大语言模型翻译质量评测体系。

据悉，北二外集中英语、日语、俄语、法语、阿拉伯语五个语种师生力量，面向ChatGPT、Claude、Gemini、Grok、DeepSeek和通义千问六个国内外语言大模型，从当代文学、党政文献和外事新闻三个领域开展翻译质量测评研究。该测评从语言特征维度、神经网络维度构建了包括词汇多样性、句法复杂度、篇章衔接度、语言可接受度等在内的六项指标体系，着重关注译文的语言使用特性，可有效识别模型在词法、句法和篇章衔接方面的能力，同时考察模型对语义的理解与语言表达能力。

从评测结果来看，即使生成式人工智能目前也不完全具备处理复杂语言的能力，在借助人工智能技术时，使用者必须具有判断力，培养这种判断力正是外语教育重要的育人功能之一。

研究组表示，通过以汉语为核心、以中国特色文本为基础，该测评以实证方式检验了模型对中国话语、文化意涵与政策表述的处理能力，填补了“以汉语为核心”的多语种评测空白。项目中的多语种多领域语料及翻译评测指标在未来或可广泛应用于翻译课程、语言测试、语言分析等教学场景。