关于AI模型生成病毒基因序列的研究

论坛>计算机科学>软件综合>算法研究

文号929241

2696

关于AI模型生成病毒基因序列的研究

chenghangtian2024/02/08软件综合，生物学 IP:江苏

关键词

生成式人工智能病毒毒株基因序列

研究生成式人工智能与基因技术结合的论文，本来想在arxiv网站上发表，但网站对本文似乎开启了“人工审核”模式，到目前为止文章仍然没有正式刊登。

摘要

伴随着美国OpenAI公司旗下的聊天AI程序“ChatGPT”在全球范围内的爆火，生成式人工智能逐渐向传统的科研领域渗透。而在此基础上，行业内的众多研究机构又相继开发并开源了多款人工智能模型，比如说中国清华大学团队开源的GLM（Generative Language Model）模型。生成式人工智能除了可以完成自然语言处理（NLP）任务，还可以用于生成病毒的基因序列。本文利用Transformer算法，通过学习一种登革热病毒毒株的基因数据开发了AI模型，可以生成新的病毒基因序列。生成式人工智能的发展为AI合成病毒基因序列奠定了基础，同时也带来了防扩散、安全和伦理方面的挑战。

关键词：生成式人工智能；病毒毒株；基因序列

1 AI模型与病毒基因序列

1.1 病毒基因序列的基本概念和特性

病毒基因序列是构成病毒基因组的基本单位，它们携带着控制病毒生长、复制和致病性的关键信息，对其展开深入研究有助于医学领域预防和治疗病毒性疾病，有助于生物工程领域研发新的药物和疫苗。然而，病毒基因序列的特性多种多样，包括但不限于长度、序列复杂性、二级结构等。其中，序列复杂性是指病毒基因序列中的碱基组合方式多样，这使得病毒具有高度的变异性和适应性。此外，病毒基因序列的二级结构也是其特性之一，这直接影响到病毒蛋白的结构和功能。为此，传统的基于规则和统计的方法在处理此类问题时面临诸多挑战。比如说特定病毒序列的复杂性制约了人类科学家增强病毒的某些功能或者使用基因编辑技术改造病毒的某些位点。而大语言模型的出现，为解决这一问题提供了新的可能性。微调后的模型通过模拟自然语言的复杂性和多样性，能够生成具有高度相似性的病毒基因序列，并且达到较高的准确率。这对于病毒基因预测、疫苗设计等领域具有重要的应用价值。

1.2 大语言模型的基本原理和优势

大语言模型的基本原理是利用Transformer算法预训练模型，通过大量的数据进行训练，使得模型能够理解和生成内容。Transformer算法问世于2017年，在传统的深度神经网络结构的基础之上引入了自注意力机制。具体的，基于Transformer算法开发的模型有编码器（Encoder）和解码器（Decoder）两组神经网络，这两组神经网络又分别嵌入了多层输入和输出，每一层网络都同时间关联。具体的，原始输入内容首先输入进编码器子网络中，通过多层多次地变换得到中间输出；中间输出再输入进解码器子网络中，进一步地被多层多次变换得到最终输出。这样一来，只要训练模型的数据内容和标注可靠，模型就可以通过堆积网络层数、设定网络复杂度和增加数据量来实现极为强大的内容生成效果。因此，Transformer算法取代循环神经网络算法成了当前人工智能行业的技术热点。考虑到大模型高效的表达能力和灵活性，可以用来模拟出自然语言的复杂性和多样性，并生成具有高度相似性的文本。因此，本文打算研究使用Transformer算法训练AI模型生成病毒基因序列。

文献[1]给出了一种思路，来自瑞典查尔姆斯理工大学的开发团队使用生成对抗网络算法从复杂的多维氨基酸序列空间中设计目标功能蛋白序列，该文的研究结果从侧面印证了机器学习算法用于合成生物学的可靠性。本文首先构建病毒基因序列数据，通过对序列数据的学习，模型能够理解病毒基因序列的结构和功能，推理基因序列的前后关联特征，从而生成具有高度相似性的新的病毒基因序列。这不但可以为病毒基因预测提供更准确的结果，也为人工改造病毒序列提供了更多可能。

2 大模型生成病毒基因序列的实验

2.1 数据集和预训练模型

考虑到当下行业内流行的人工智能大模型均为聊天AI，适用于处理对话型文本数据。而本文研究的对象是病原体的基因序列。因此，本文不能直接通过简单地微调模型来生成所求解的基因序列，必须基于Transformer算法的整体架构从头开始训练模型。

具体的，本文选取中国国家生物信息中心网站收录的病毒基因数据，GenBase数据库中有一种登革热病毒的毒株。该种毒株碱基长度9246bp，识别号为ACCESSION：OQ511271，具体细节参考文献[2].

（中国国家生物信息中心官网的URL链接：XXXXXXXXXXXXXXXXXXXXXX/）

将GenBase数据库中的毒株基因序列拆分，原序列可以写成每行10个碱基排列的txt文件，共852行；进一步的，这852行碱基组合又可以被拆分成426行的训练集和426行的验证集；每一行可能出现：腺嘌呤（a）、鸟嘌呤（g）、胞嘧啶（c）和胸腺嘧啶（t），还有分子缺位（n）；通过训练集数据可以建立模型，然后模型利用验证集数据检验准确率。在将训练集数据输入进模型之前，考虑到模型不能直接处理英文字符，还需要分别对训练集和验证集编码独热码。

2.2 独热码编码和准确率计算说明

在常见的机器学习任务中，数据取值有可能是具有离散特征的分类值，此时为了让程序展开矩阵运算，就必须要将原始数据编码为独热码数组。上述数据有五种互相独立的状态，也就需要五位状态寄存器；进一步的，独热码数组可以编码如表1：

基因序列中任意一个碱基分子都可以编码为一个长度为5的一维数组；数据集中每一行都有10个分子，组合起来就是一个尺寸为10*5的二维数组；前5个碱基对应的5*5的二维数组承担提示词的功能，后5个碱基对应的5*5的二维数组承担答案的功能。以此类推，程序需要处理训练集的426个二维数组和验证集的426个二维数组，数据维度约为21300，属于适量规模的数据集。对于大模型生成病毒基因序列的任务，让模型训练海量基因数据并不合适。因为病毒从其生物学本质而言序列特征存在多样性，且具有活性的病毒在环境中传播的过程中会不断变异，进一步地增加了碱基组合的复杂性。对于单一一种病毒毒株，能产生活性一定包含了某种定量性质的机理，只不过以人类当下的科技水平无法解析地按照物理学领域通用的还原论思维用偏微分方程组表达“病毒毒株产生活性需要具备的函数特征和需要满足的边界条件”；在人工智能技术成熟之前，科学家只能采用数值方法，编写计算机仿真程序，基于测序结果展开模拟计算。在大语言模型问世之后，科学家直接可以通过将毒株的基因数据特征化从而调用成规模的神经网络去挖掘基因序列之间的在逻辑上的关联，并在满足一定准确率的情况下生成病毒可能存在的新序列。考虑到基因编辑技术的发展，如果一种毒株序列被证明存在的可能性较高，那么科学家可以很轻易地通过PCR设备在现实中合成该种毒株。

本文涉及到的大语言模型遵循一个基本框架——Transformer算法。其核心要义有两点，一是增加模型的参数量和网络层数，二是增加训练模型的数据量，双管齐下就能取得相较于单一神经网络算法更强大的生成效果，初步实现“弱人工智能”，通俗概况起来就是“大力出奇迹”。但同样的科研范式并不适用于合成生物学，首先，堆积模型参数量和网络层数必然伴随着训练效果的算术增长和训练成本的指数爆炸；以美国OpenAI公司开发的两款大模型“GPT-3.5”和“GPT-4”为例，GPT-3.5模型参数量为1746亿，训练时长为228*A100*100个GPU日；GPT-4模型参数量约为18000亿，训练时长则暴涨为25000*A100*100个GPU日（单张GPU完整运行一个地球日的时间是该款GPU的一个GPU日）；不难看出，其它条件不变，模型的参数量增长10倍，消耗的GPU数量增长约100倍。科学家在一定时间内能够为模型提供的算力有上限，模型的性能很快会趋近阈值，难以再有显著性的提高。倘若生成病毒基因序列的准确率要求高而成本阈值对应的准确率低，就无法再简单堆积算力。其次，考虑到毒株种类的多样性，表达性状相差甚远的两种或多种毒株内在的逻辑关联并不强，模型综合海量规模的数据挖掘内在“关联”，生成特定毒株的准确率不会太高；所以，控制训练数据集的规模可以有效提高合成单一种类病毒的准确率，减少无效结果的生成。

本文引入机器学习领域中常用的MSE指标，即计算输出和标签之间的均方误差来计算模型的准确率，MSE指标能够对误差较大的项施加更低的准确率，更好地反映模型生成序列的效果。一旦AI取得了很高的训练准确率便可为人类科学家实际展开病原体的工程化改造提供参考依据。但较高的训练准确率和较小规模的数据集特别容易出现过拟合现象，行业内仍需就“减少生成的基因序列出现过拟合现象的可能”继续进行研究。

3 实验过程与结果分析

3.1 模型超参数设置与实验结果

本文基于Transformer算法构建了用于生成病毒基因序列的AI模型，将其命名为“玛雅2402”模型，以纪念历史上毁灭于大流行病的玛雅文明。模型分为编码器部分和解码器部分，具体超参数设置如下：

考虑到本文选取的数据集规模并不大，因此为了降低训练成本，本文没有选择行业内常用的3090或者A100显卡训练模型，而是选择租用单张1080Ti显卡搭建云端环境训练模型，环境的硬件和软件配置如下：

3.2结果分析

经过了100个回合的训练，可以得到玛雅2402模型的pth文件。在训练过程中，MSE损失值从0.47逐渐降低并收敛到0.0072.为了避免过拟合现象发生，训练回合数设定为100.图1展示了训练损失值的变化情况：

图1：模型训练过程损失值-回合数变化图像

由图1可知，在训练的前10个回合，模型的MSE损失值下降较快。模型通过迭代不断更新自身的参数，到了第50个回合，训练损失值已经小于0.1，此时的模型趋于收敛。模型在完成训练之后，利用验证集数据验证了性能，验证回合数设定为100.图2展示了验证损失值的变化情况：

图2：模型验证过程损失值-回合数变化图像

由图2可知，预训练模型已经具备了较高的准确率。在验证过程中，模型可以进一步优化Transformer神经网络组合的权重和偏置，以便更进一步降低损失值。在第80个回合之后，模型的MSE损失值已经小于0.003，此时可以认为玛雅2402模型在本文所选的登革热病毒毒株数据集上取得了最佳的验证效果。如果盲目增加训练或者验证回合数，模型极有可能出现过拟合现象，损失值不降反升。所以，本文为避免过拟合现象的发生所采取的措施是卓有成效的。

4 总结与展望

4.1 本文研究的不足

实验结果显示，AI模型在生成病毒基因序列的任务上表现优秀。生成的基因序列不仅具有高度的相似性，而且多样性丰富，能够覆盖多种不同的病毒类型和亚型。相比之下，传统的基于规则和统计的方法生成的基因序列虽然在一定程度上保持了相似性，但在多样性上却有所不足。此外，AI模型还能有效地基于自然语言的复杂性生成更接近于真实情形的病毒基因序列。这样的优势可以应用于病毒基因预测、疫苗设计等具体任务场景。例如，通过对已知病毒基因序列的分析，模型可以预测出可能的新病毒基因序列，从而为疫苗设计提供依据。在生物医学领域，传统的疫苗设计方法通常需要大量的实验和时间投入，而且在面对新的病毒株时，可能无法快速有效地设计出有效的疫苗。AI模型的引入为解决这一问题提供了新的可能性。通过训练可靠的AI模型，我们可以模拟出病毒的基因序列，并根据这些序列设计出针对性的疫苗。这种方法不仅可以大大减少实验的时间和成本，而且可以根据新的病毒株快速调整疫苗的设计。此外，AI模型还可以用于预测病毒的变异趋势，帮助我们更好地理解和应对传染病病毒的威胁。

但本文的研究也存在诸多不足。首先，AI模型的生成能力依赖于大量的训练数据，而获取和处理这些数据是一项耗时且复杂的任务。此外，虽然AI模型能够生成具有高度相似性的病毒基因序列，但其生成的序列的生物学意义和功能仍需进一步验证。特别的，考虑到常见的病毒碱基序列较长，复杂的分子组合以及分子在空间中的结构进一步提升了对生成序列可靠性的要求。因此，未来的研究需要在提高AI模型的训练效率和生成质量的同时，开展更多的实验以验证其在病毒基因预测、疫苗设计等领域的应用价值。

4.2 生成式人工智能与生物恐怖主义

本文的实验结果表明，Transformer算法除了可以用于开发大语言模型，在生成病毒基因序列方面的表现也优于传统方法；生成的基因序列更接近真实病毒基因序列，且能适应病毒在传播过程中发生的变异。文献[3]探讨了截至到2021年，合成生物学领域的重大科研进展。随着人工智能大模型的发展和成熟，机器学习算法将不可避免地会与合成生物学相结合。可简单地搭建多层反向传播的神经网络来生成基因序列，也可以搭建复杂的、成规模的神经网络组来完成生成任务。本文就利用Transformer算法搭建神经网络组合学习了一种登革热病毒的毒株的基因数据。可以预见到，在将来，科学家会开发更为强大的模型，学习生物学领域目前已知的所有病毒的基因数据。但不断升级的人工智能所展示的强大能力也带来了一些伦理和安全方面的问题，为国际社会开展生物武器防扩散工作带来挑战。例如，如果AI模型被用于生成有害的生物序列，就可能会对公众健康造成威胁。如果恐怖组织掌握了AI模型，就会给社会造成潜在的生物恐怖袭击的风险。因此，如何在保证AI模型应用的安全性和可控性的同时，充分发挥其在合成生物学领域的潜力，是未来研究需要面对的重要挑战。总之，尽管面临着许多挑战和问题，但我们相信，随着技术的进步和应用的深入，AI模型将在合成生物学领域发挥越来越重要的作用。

5 参考文献

[1] Repecka D, Jauniskis V, Karpus L, et al. Expanding functional protein sequence spaces using generative adversarial networks [J]. Nature Machine Intelligence, 2021, 3(4): 324-333.

[2] Amorim,M.T., Hernandez,L.H.A., Naveca,F.G., Essashika Prazeres,I.T.,Wanzeller,A.L.M., Silva,E.V.P.D., Casseb,L.M.N., Silva,F.S.D., daSilva,S.P., Nunes,B.T.D. and Cruz,A.C.R. Emergence of a New Strain of DENV-2 in South America: Introductionof the Cosmopolitan Genotype through the Brazilian-Peruvian Border [J]. Trop Med Infect Dis 8 (6), 325 (2023)

[3] Li M, Lin ZJ, Liao WB, et al. Application of artificial intelligence in synthetic biology: a review [J]. Journal of Integration Technology, 2021, 10(5): 43-56.

[修改于 14天11时前 - 2024/07/12 21:51:17]

来自：计算机科学 / 软件综合，生物医药 / 生物学严肃内容：预印本

全部只看作者

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

~~空空如也

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929242

1楼

@1379号监听员欢迎来本文页面探讨防扩散的话题。其实AI生成病毒基因序列可以加快生物疫苗的研制，但也可以用于其它用途。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929244

2楼

开源论文使用的训练数据、验证数据：

dengue_train.txt 4.99KB TXT 4次下载

dengue_valid.txt 5.21KB TXT 1次下载

dengue_train.txt和dengue_valid.txt分别是训练集和验证集数据。基于Transformer算法开发的AI在训练集和验证集上表现优异，玛雅2402模型差不多是合成生物学领域的GPT-1了。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929246

3楼

论文训练和推理的玛雅2402模型：

Maya202402.pth 633.01KB PTH 2次下载

公众惊叹于GPT-4的神奇，期待GPT-5能比前一代更上一层楼。但论GPT系列模型的开山之作，GPT-1，其实生成功能没有现在的模型这么强大，无论是从数据集规模还是网络参数数量方面来讲。GPT生成效果的增强是靠一点点堆数据和参数堆出来的。合成生物学的AI模型也可以堆积数据和参数，最终实现“人类程序员根据提示词随心所欲地快速定制新病毒”的愿景。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929257

4楼

@1379号监听员论坛有很多爱好者钻研的特种科技爱好触碰了管控的雷区，现在只能朝向计算化，AI化，理论化的方向发展，开发出可靠的AI模型或者计算算法就是个人爱好者追求的目标。线下的实验只能尝试联络体制内的研究所，由具备条件的研究所合法合规开展实验验证爱好者的理论成果。即爱好者只承担科研全流程的部分环节。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

虎哥

5个月19天前 IP:四川

929258

5楼

引用chenghangtian发表于4楼的内容

@1379号监听员论坛有很多爱好者钻研的特种科技爱好触碰了管控的雷区，现在只能朝向计算化，AI化，...

有没有这样一种可能：爱好者一开源，体制内就自主成功了，反过来还要想办法搞死爱好者，免得老底被揭穿 sticker

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929259

6楼

引用虎哥发表于5楼的内容

有没有这样一种可能：爱好者一开源，体制内就自主成功了，反过来还要想办法搞死爱好者，免得老底被揭穿

爱好者和体制内的研究员约定好，爱好者专攻理论，研究员专攻实践。论文一作作者是体制内研究员，二作或者通讯作者是学生（爱好者）。这样双方皆大欢喜，毕竟爱好者钻研技术单纯是热爱，不追求获得现实利益。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

chenghangtian作者

5个月19天前修改于 14天11时前 IP:江苏

929260

7楼

体制内的研究员要是对爱好者太苛刻，一定会寒了爱好者的心。做开源的如果越来越少，体制内玩闭源又是左手倒换右手，体系只会是低水平重复。难以取得突破性的进展。

另外如果大环境打击开源的话，爱好者可以自己开发出成果，上传到去中心平台上，别的需求方可以用矿币打赏原作者或者互相分享成果。版权，垄断，闭源等在去中心平台上都将不复存在，需要审核的内容写入区块链更是没法删除和溯源。当然这也触碰到了更大的管控瓶颈（雷区）

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

虎哥

5个月19天前修改于 5个月19天前 IP:四川

929262

8楼

明知是雷区为什么要去触碰？让做就做，不让做就不做，很简单的事情，受损的又不是爱好者。不让做又十分想做无法自拔怎么办？卷铺盖去让做的地方就行了。不要把简单问题复杂化。请阅读《增量规则》中的“实施精神控制”禁令。如果继续讲这些与研究无关的东西会把文章移江湖科学区或心理调节室。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

想参与大家的讨论？现在就登录或者注册。

所属专业

软件综合生物学

所属分类

算法研究

上级专业

计算机科学生物医药

同级专业

医学计算机电子学

chenghangtian

开除学籍

文章

学术分

2022/08/14注册，7天4时前活动

Artificial Intelligence

主体类型：个人

所属领域：无

认证方式：身份证号

IP归属地：江苏

名片私信

作者最新文章

对比研究：两篇基于强化学习算法的智能导航论文

软件综合 chenghangtian 19天3时前

AI学习战斗机历史飞行数据

军事 chenghangtian 1个月24天前

让AI设计小型无人机——P蛇模型

软件综合 chenghangtian 3个月24天前

关于AI模型生成病毒基因序列的研究

软件综合 chenghangtian 5个月19天前

尝试让AI学习固体火箭数据

软件综合 chenghangtian 1年1个月前

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

当前账号的附件下载数量限制如下：

请选择违规类型：

空空如也