首页 生活 > 内容

NASA与IBM合作开发用于高级科学研究的INDUS大型语言模型

时间:2024-06-26 16:51:20 来源:
导读 通过《太空法案协议》与私人非联邦合作伙伴的合作是NASA跨部门实施和先进概念团队(IMPACT)工作的关键组成部分。与国际商业机器公司(IBM)的...

通过《太空法案协议》与私人非联邦合作伙伴的合作是NASA跨部门实施和先进概念团队(IMPACT)工作的关键组成部分。与国际商业机器公司(IBM)的合作开发了INDUS,这是一套全面的大型语言模型(LLM),专门针对地球科学、生物和物理科学、太阳物理学、行星科学和天体物理学领域,并使用从各种数据源中提取的精选科学语料库进行训练。

INDUS包含两种类型的模型:编码器和句子转换器。编码器将自然语言文本转换为LLM可以处理的数字编码。INDUS编码器在包含天体物理学、行星科学、地球科学、太阳物理学、生物和物理科学数据的600亿个标记语料库上进行训练。其由IMPACT-IBM协作团队开发的自定义标记器通过识别生物标记和磷酸化等科学术语改进了通用标记器。

INDUS包含的50,000个词汇中有一半以上是用于训练的特定科学领域所独有的。INDUS编码器模型用于对大约2.68亿个文本对(包括标题/摘要和问题/答案)微调句子转换器模型。

通过为INDUS提供领域特定词汇表,IMPACT-IBM团队在生物医学任务基准、科学问答基准和地球科学实体识别测试中取得了优于开放的非领域特定LLM的卓越表现。通过针对各种语言任务和检索增强生成进行设计,INDUS能够处理研究人员的问题、检索相关文档并生成问题的答案。对于延迟敏感的应用程序,该团队开发了更小、更快的编码器和句子转换器模型版本。

验证测试表明,INDUS擅长从科学语料库中检索相关段落,以回答NASA整理的约400个问题的测试集。IBM研究员BishwaranjanBhattacharjee对整体方法进行了评论:“我们不仅拥有自定义词汇表,还拥有用于训练编码器模型的大型专业语料库和良好的训练策略,从而实现了卓越的性能。对于较小、更快的版本,我们使用神经架构搜索来获得模型架构,并使用知识提炼来对其进行训练,并对较大的模型进行监督。”

INDUS还使用NASA生物和物理科学(BPS)部门的数据进行了评估。NASABPS开放科学项目经理SylvainCostes博士讨论了整合INDUS的好处,“将INDUS与开放科学数据存储库(OSDR)应用程序编程接口(API)集成使我们能够开发和试用聊天机器人,该聊天机器人提供更直观的搜索功能来浏览单个数据集。我们目前正在探索如何利用INDUS来改进OSDR的内部管理数据系统,以提高我们管理团队的工作效率并减少每天所需的手动工作量。”

在美国宇航局戈达德地球科学数据和信息服务中心(GES-DISC),INDUS模型使用来自领域专家的标记数据进行微调,将特别引用GES-DISC数据的出版物分类到应用研究领域。

标签: