首页 互联网 > 内容

Meta的最新人工智能模型将以数百种语言提供内容

时间:2022-11-23 15:20:03 来源:
导读 该公司周三宣布,Meta已经开源了一个可以翻译200种不同语言的人工智能模型——此举应该向更广泛的受众开放不同的技术和数字内容。该模型名

该公司周三宣布,Meta已经开源了一个可以翻译200种不同语言的人工智能模型——此举应该向更广泛的受众开放不同的技术和数字内容。该模型名为“不遗余力”,可以翻译200种语言,包括55种非洲语言,并具有高质量的结果。

“少数几种语言——包括英语、普通话、西班牙语和阿拉伯语——主导着网络,”该公司在一篇博文中指出。“以这些广泛使用的语言为母语的人可能会理所当然地认为用自己的母语阅读东西是多么有意义。NLLB将帮助更多的人用他们喜欢的语言阅读东西,而不是总是需要一种经常能表达情感的中间语言或内容错误。”

Meta当然使用NLLB来改进自己的产品,但通过开源模型,技术人员可以使用它来构建其他工具——比如在爪哇语和乌兹别克语等语言中运行良好的AI助手,或者斯瓦希里语或用于宝莱坞电影的Oromo。

NLLB几乎使单个最先进的AI模型涵盖的语言数量翻了一番。Meta表示,现有翻译工具无法很好地支持或根本无法支持其中的许多语言,例如Kamba和Lao。目前得到广泛使用的翻译工具支持的非洲语言不到25种。

与之前的人工智能研究相比,该模型还将翻译质量平均提高了44%。对于一些基于非洲和印度的语言,NLLB-200的翻译准确度提高了70%以上。为了确定翻译质量,Meta进行了自动度量评估和人工评估。

为了帮助确保翻译质量,Meta研究人员构建了FLORES-200,这是一个帮助他们评估NLLB在40,000种不同语言方向上的表现的数据集。

除了开源NLLB-200模型外,Meta还向开发人员提供FLORES-200数据集,以及模型训练代码和用于重建训练数据集的代码。

此外,该公司还向研究人员和非营利组织提供高达200,000美元的赠款,以表彰其对NLLB-200的有效使用,这些组织的举措侧重于可持续性、食品安全、基于性别的暴力、教育或支持联合国可持续发展目标的其他领域.

在其自己的产品中,Meta预计该模型每天可支持超过250亿次翻译。除了翻译内容和提供更好的广告外,该模型还将用于发现有害内容和错误信息。

Meta的NLLB研究也被应用于维基百科编辑使用的翻译系统。Meta与托管维基百科和其他免费知识项目的非营利组织维基媒体基金会合作,帮助改进维基百科上的翻译系统。维基百科有300多种语言的版本,但大多数文章的数量远远少于英文的600万多篇文章。

编辑们可以通过维基媒体基金会的内容翻译工具,使用NLLB-200背后的技术,将文章翻译成20多种低资源语言(那些没有大量数据集来训练AI系统的语言)。

标签:
最新文章