摘要
传统模型在处理生物医学文献时可能因无法准确理解术语含义和跟上知识更新速度而出现理解偏差。
美国伦斯勒理工学院和斯坦福大学医学院的研究人员联合开发了BioMamba模型,旨在更有效地分析生物医学文本。
BioMamba基于Mamba架构,该架构通过结构化状态空间模型和线性时间复杂度,提高了处理长序列数据的能力,特别适合处理包含复杂句子结构和专业术语的生物医学文献。
在预训练和微调阶段,BioMamba在多个生物医学NLP任务上展现出卓越性能,包括问答、文本分类和实体识别等,其准确率和精确率显著优于现有模型。
生物医学文献中充斥着大量的专业术语、缩写词以及特定的语义和语法结构,这些对于传统模型来说很难处理。
例如,生物医学领域中的术语常常具有多义性,同一个词在不同的语境中可能有完全不同的含义。传统模型可能会因为无法准确把握这些术语的具体含义而产生误解,从而导致对文献内容的理解出现偏差。
生物医学领域的知识更新换代非常快,新的术语和概念不断涌现。传统模型可能无法及时跟上这些变化,导致在处理最新的生物医学文献时显得力不从心。
为了更好地分析生物医学文本,美国伦斯勒理工学院和斯坦福大学医学院的研究人员,联合开发了专业分析大模型——BioMamb。
BioMamb基于Mamba架构开发而成,可有效克服传统Transformer架构模型在处理长序列时遇到的计算效率瓶颈的难题。
传统的Transformer模型虽然在许多任务上表现出色,但由于其时间复杂度随序列长度呈二次增长,因此在处理较长文本时效率较低。
而Mamba通过采用结构化状态空间模型,将参数作为输入的函数,实现了线性的时间复杂度,从而大大提高了处理长序列数据的能力。这种特性对于生物医学文献尤为重要,因为这些文献往往包含大量的专业术语和复杂的句子结构,需要模型能够捕捉到更长范围内的上下文信息。
BioMamba的开发过程包括预训练和微调两个阶段:在预训练阶段,BioMamba 首先使用 Mamba - 130m 模型的权重进行初始化,然后在包括 PubMed 摘要在内的大量生物医学文本语料库上进行进一步训练。
PubMed是一个免费且非常全面的数据库,主要用于获取生命科学和生物医学主题的参考文献和摘要,是研究人员、医疗保健专业人员和学生的重要资源。
尽管Mamba 模型在初始训练时可能会遇到一些生物医学数据,但这些数据的比例通常非常小。因此,在针对生物医学语料库进行进一步预训练对于增强模型捕捉领域特定模式和术语的能力至关重要。
此外,BioMamba采用了自回归的预训练方法,通过预测给定上下文中下一个单词的方式来学习语言模型。这种方法允许模型从左至右地理解文本流,非常适合于生成连续且连贯的文本内容。
在微调阶段,BioMamba 在特定的下游任务上进行监督学习,以调整模型的参数来优化任务性能。在本研究中,重点关注的是问答(QA)任务。为了进行实验,研究人员使用了 BioASQ 事实数据集,该数据集被重新格式化为与斯坦福问答数据集(SQuAD)的结构相匹配。
在微调过程中,BioMamba 在 BioASQ 数据集上进行训练,该数据集包含生物医学 QA 对。通过微调,BioMamba 能够利用其预训练的知识并适应生物医学问答的特定要求,从而有效地解决生物医学语言的细微差别并提供准确的答案。
研究人员对BioMamba模型进行了广泛的测试和评估,使用了多个生物医学NLP任务的数据集,包括问答、文本分类和实体识别等。
实验结果显示,BioMamba模型展现出了卓越的性能,其准确率、精确率等指标均显著优于现有的生物医学NLP模型。
一枝梧桐(https://www.yzwt.cn)