辉瑞疫苗到底搞了些什么动作?
科创喵2021/01/04科创通讯 IP:四川

本文根据Reverse Engineering the source code of the BioNTech/Pfizer SARS-CoV-2 Vaccine (XXXXXXXXXXXXXXXXXX/articles/posts/reverse-engineering-source-code-of-the-biontech-pfizer-vaccine/ )编译。

部分译文转自公众号新智元,科创喵补充编译了一些内容。为便于阅读,编译并未严格遵照原文。 

最简单的生物学背景知识

让我们先来回顾一下生物学知识,这里,我们将透过程序员的眼睛看待生命编码。

DNA和程序的种种相似的地方,但与计算机使用0和1不同,生命使用A、C、G和U/T来编码。 

在自然界中,A、C、G和U/T都是分子,以链的形式储存在DNA(或RNA)中。

在计算机中,我们把8位编入一个字节,字节是处理数据的典型单位。

自然界将3个核苷酸组合成一个密码子,而这个密码子是典型的处理单元。

密码子包含6位信息(每个DNA字符2位,3字符= 6位,这意味着2⁶ = 64种不同密码子值)

其次,疫苗是一种液体,我们该如何谈论源代码?

疫苗如何生产

让我们从疫苗的一小部分源代码开始,下图为世界卫生组织公布的BNT162b(也称为Tozinameran或Comirnaty)前500个字符。

  upload_downloader_1609689448338_94412197.png        

mRNA新冠疫苗BNT162b的核心就是这个数字代码。它有4284个字符长,在疫苗生产过程的最开始,将这段代码上传到DNA打印机,然后打印机将磁盘上的字节转换成实际的DNA分子。

upload_downloader_1609689448369_87538015.png

DNA打印机,型号BioXp 3200

从这样的机器中产生了少量的DNA,在经过大量的生物和化学处理后,最终成为疫苗瓶中的RNA。

30毫克的剂量实际上含有30毫克的RNA。此外还有一个巧妙的脂质(脂肪)包装系统,可将mRNA导入我们的细胞(这是一个关键环节,不过本文并不涉及)。

DNA就像生物的闪存。DNA非常耐久,有大量冗余并且十分可靠。但是,就像计算机不能直接从闪存执行代码一样,在执行之前,代码会被复制到更快,功能更强但更脆弱的系统——内存中。RNA就是DNA被读取到“内存”的版本。

但是RNA非常脆弱,因此辉瑞的mRNA疫苗保存的条件很苛刻,需要特别的冷链。

每个RNA字符的重量为 0.53·10⁻²¹克,一针疫苗里有2万亿段重复的代码,总共相当于25 Pb的数据量。

代码做什么?

疫苗的作用是教会我们的免疫系统如何识别病原体。从历史上看,这是通过注入弱化或丧失能力的(减毒)病毒来教育我们的免疫系统而实现的。

mRNA疫苗可以精准的达到相同目的(“教育我们的免疫系统”)。相对于“减毒疫苗”把有用没用的东西一股脑注射进人体,mRNA疫苗只“教授”关键的知识。

注射液中含有描述SARS-CoV-2的'Spike'蛋白的遗传物质。通过巧妙的化学手段,疫苗设法使这种遗传物质进入细胞,细胞根据这些遗传物质(代码)产生关键的蛋白质,由这些蛋白质对免疫系统进行教育。

免疫系统面对大量的标志性的蛋白质,产生强烈的响应,从而使身体下次遇到这些蛋白质(被真的病毒入侵时),迅速采取防御措施,最终避免感染。

源代码分析

让我们来看世卫组织文件披露的一页:

upload_downloader_1609689448028_61268901.png        

首先,“帽子”是什么?就像你不能在计算机上的一个文件中输入操作码然后运行它一样,生物操作系统需要头文件、链接器和调用约定之类的东西。

疫苗的编码由以下两个核苷酸开始: 

upload_downloader_1609689448029_61461533.png    

这可以与以MZ开头的DOS和Windows可执行文件,或以#!开头的UNIX脚本进行比较。在生活系统和操作系统中,这两个字符都不会以任何方式执行。但他们必须在那里,否则什么都不会发生。

mRNA“帽”具有许多功能。首先它将代码标记为来自细胞核。对于我们来说代码显然来自疫苗接种,但是细胞并不知道。上限使我们的代码看起来合法,从而保护了代码免遭破坏。

未翻译区5 'UTR

生命由蛋白质组成。当RNA转化为蛋白质时,这被称为翻译。

RNA分子只能从一个方向读取。令人困惑的是,阅读开始的部分被称为5'UTR。读数在3 'UTR停止。

UTR(Untranslated Regions)即非翻译区,是mRNA分子两端的非编码片段:

upload_downloader_1609689448850_20473721.png        

在这里,我们遇到了第一个惊喜。正常的RNA特征是A、C、G和U。U在DNA中也被称为「T」。但在这里我们发现了一个ψ。

怎么回事?

这是关于疫苗的一个特别聪明的地方。我们的身体运行着一个强大的反病毒系统,由于这个原因,细胞对外来RNA非常冷淡,并且在它做出任何反应之前就要破坏它。

这对我们的疫苗来说是个问题——它需要潜入免疫系统。经过多年的实验,人们发现,如果RNA中的U被一种稍作修饰的分子所取代,我们的免疫系统就会失去兴趣。

所以在辉瑞疫苗中,每个U都被1-甲基-3 ' -伪尿酰(ψ)所取代,它能帮助我们的疫苗逃过免疫系统这一关。

在计算机安全领域,我们也知道这个诀窍:有时可能传输某些被稍微损坏的东西,虽然这会引起防火墙和安全解决方案的怀疑,但这仍然被后端服务器接受,然后就可能被黑。

很多人问,病毒能否也用ψ技术来打败我们的免疫系统?

这是不太可能的。因为生命根本没有制造1-甲基-3 ' -伪尿酰核苷酸的机制,而病毒需要依靠生命的机制来繁殖自己。而mRNA疫苗在人体内迅速降解,ψ修饰后的RNA不可能在那里复制。

回到5 ' UTR。这51个字符是做什么的?如同自然界的一切事物一样,几乎没有任何事物有一个明确的功能。

当我们的细胞需要将RNA翻译成蛋白质时,这需要使用一种叫做核糖体的机器。核糖体就像蛋白质的3D打印机。它摄取一串RNA,在此基础上释放出一串氨基酸,然后折叠成蛋白质。

1.mp4  点击下载

这就是我们在上面看到的情况。底部的黑色丝带是RNA。出现在绿色部分的缎带是正在形成的蛋白质。进出的东西是氨基酸和使它们适合RNA的适配器。

这个核糖体需要坐在RNA链上才能发挥作用。一旦就位,它就可以开始根据它摄入的RNA进一步形成蛋白质。从这一点上,你可以想象它还不能读出它首先降落的地方。

这只是UTR的功能之一:核糖体着陆区。UTR提供“导入”。

S糖蛋白信号肽

如前所述,疫苗的目标是让细胞产生大量刺突蛋白。到目前为止,我们在疫苗源代码中遇到的大多是元数据和调用约定。现在我们进入病毒蛋白质的领域。

然而,我们还有一层元数据需要处理。一旦核糖体制造出一个蛋白质,这个蛋白质仍然需要去某个地方。这是编码在「S糖蛋白信号肽(扩展先导序列)」。

了解这一点的方法是,在蛋白质的开头有一种地址标签,作为蛋白质本身编码的一部分。在这个特定的例子中,信号肽表明这种蛋白质应该通过「内质网」离开细胞。

「信号肽」不是很长,但是当我们看代码时,病毒和疫苗的RNA是有区别的:

  upload_downloader_1609689450046_82217376.png        

怎么回事呢?我们知道,在生物学中,三个RNA字符组成一个密码子。每个密码子都对特定的氨基酸进行编码。而疫苗中的信号肽与病毒本身的氨基酸完全相同。

那么RNA是怎么不同的呢?

有4³=64个不同的密码子,因为有4个RNA字符,一个密码子中有3个。然而只有20种不同的氨基酸。这意味着多个密码子对同一种氨基酸进行编码。

下表映射了RNA密码子和氨基酸之间的编码关系:

upload_downloader_1609689452636_30660739.png  

RNA密码子表(维基百科)

在这个表中,我们可以看到疫苗(UUU -> UUC)的修改都是同义的。疫苗的RNA编码不同,但会产生相同的氨基酸和蛋白质。

如果我们仔细观察,我们会发现大部分的变化发生在密码子的第三个位置,上面有一个' 3 '。如果我们检查通用密码子表,我们会发现第三个位置通常与产生的氨基酸无关。

所以,这些变化是同义的,但为什么会有这些变化呢?仔细观察,我们发现除了一个变化之外,所有的变化都会导致更多的C和G。

你为什么要这么做?如上所述,我们的免疫系统会对「外源性」RNA进行攻击,为了逃避检测,RNA中的「U」已经被ψ所取代了。

然而,事实证明,含有更多G和C的RNA也能更有效地转化为蛋白质,这已经在疫苗RNA中实现了只要有可能就用G和C替换许多字符。

真正的刺突蛋白

疫苗RNA的下3777个字符类似于「密码子优化」,可以添加大量的C和G。

upload_downloader_1609689450170_80179194.png        

这里我们看到同义的RNA变化。例如,在第一个密码子中CUU变成了CUG。这给疫苗增加了另一个「G」,我们知道这有助于提高蛋白质的生产。

当我们比较疫苗中的整个刺突蛋白时,所有的变化都是同义的。除了两个,这就是我们在这里看到的。

上面的第三和第四个密码子代表了实际的变化。那里的K和V氨基酸都被P或脯氨酸所取代。对于「K」,这需要改变三次(「!!」),而对于「V」,这只需要改变两次(「!!」)。

事实证明,这两个变化极大地提高了疫苗的效率。

那么这里发生了什么?如果你看一个真正的冠状病毒粒子,你可以看到刺突蛋白:

upload_downloader_1609689450121_88579495.webp

这些刺钉被安装在病毒体内(「核衣壳蛋白」)。但问题是,我们的疫苗只会产生刺突,我们不会把它们植入任何一种病毒体内。

结果是,未经修饰的,独立的刺突蛋白崩溃成不同的结构。如果作为疫苗注射,这确实会使我们的身体产生免疫力。但只针对崩溃的刺突蛋白。

真正的冠状病毒是带着尖刺的。在这种情况下,疫苗不会很有效。

那么该怎么办呢?

2017年,有人描述了如何在正确的位置放置一个双脯氨酸替代,将使SARS-CoV-1和MERS S蛋白形成「预融合」结构,即使不是整个病毒的一部分。这是因为脯氨酸是一种非常坚硬的氨基酸。它就像一种夹板,在我们需要向免疫系统展示的状态下稳定蛋白质。

蛋白质的末端,下一步

如果我们浏览其余的源代码,我们会在刺突蛋白的末端遇到一些小的修改:

upload_downloader_1609689450149_42412953.png       

在蛋白质的末端,我们会发现一个「停止」密码子,在这里用小写的「s」表示。这是一种礼貌的说法,表示蛋白质应该到此为止。最初的病毒使用UAA终止密码子,疫苗使用两个UGA终止密码子,也许只是为了更好的措施。

3 'UTR

就像核糖体在5 '端需要引入,我们发现了' 5UTR,在蛋白质的末端我们发现了一个类似的结构,称为3 ' UTR。

关于3 ' UTR有很多说法,但这里引用维基百科的说法:「3 ' UTR在基因表达中起着至关重要的作用,它影响mRNA的定位、稳定性、输出和翻译效率。尽管我们目前对3 ' -UTRs有了解,但它们仍然是相对神秘的。」

我们所知道的是,某些3 ' UTR在促进蛋白质表达方面非常成功。根据世卫组织的文件,辉瑞疫苗3 ' UTR是从「split (AES) mRNA的氨基末端增强子和编码12S核糖体RNA的线粒体中提取的,以保证RNA的稳定性和高总蛋白表达」。

upload_downloader_1609689451063_20240444.png       

编码AAAAAAAAAAAAAAAAAAAAAA的出现结束了一切

mRNA的最末端是聚腺苷化的。这是一种以「AAAAAAAAAAAAAAAAAAAAAA」的奇特结尾。

似乎,就连mRNA似乎也受够了这个糟糕的2020年!

mRNA可以重复使用很多次,但在这个过程中,它也会在末端失去一些A。一旦A耗尽,mRNA就不再起作用而被丢弃。这样,「多聚腺苷酸尾(Poly-A Tail)」就可以防止其退化。

有研究表明,对于mRNA疫苗来说,A的最佳数量是多少。我在公开文献中读到,这个数字在120左右达到了顶峰。

BNT162b2疫苗的是:

upload_downloader_1609689450791_68176764.png       

这是30个A,然后是「10个核苷酸连接体」(GCAUAUGACU),再后面是70个A。

总结

如果上面的一切让你感到云里雾里,作者在这里为您准备了一份「太长不看版」:

  • 帽子来确保RNA看起来像普通的mRNA

  • 已知的成功和优化的5 ' UTR

  • 密码子优化信号肽,将刺突蛋白送到正确的位置(100%从原始病毒复制)

  • 原始刺的密码子优化版本,有两个「脯氨酸」替代,以确保蛋白质以正确的形式出现

  • 一个已知的成功和优化的3 ' UTR

  • 一个有点神秘的多聚腺苷酸尾(Poly-A Tail),里面有一个无法解释的「连接器」

  • 密码子优化在mRNA上增加了大量的G和C。与此同时,用ψ(1-甲基-3 ' -伪尿酰ψ)而不是U来帮助逃避我们的免疫系统,因此mRNA会停留足够长的时间,所以我们实际上可以帮助训练免疫系统

参考:

XXXXXXXXXXXXXXXXXX/amazing-dna/ 这是一个给程序员看的生物学教程,非常有趣

XXXXXXXXXXXXXXXXXXXXXX/r/technology/comments/kkvri2/reverse_engineering_the_source_code_of_the/ 这是reddit上对本文的讨论页面之一,许多网友贡献了扩展知识,或者指出了文章的不足。

[修改于 4年0个月前 - 2021/01/04 03:19:54]

+10  科创币    放牛党主席    2021/01/05 很好
来自:生物医药 / 生物学
8
13
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
航模发烧友
4年0个月前 IP:广东
888794

上帝是个出色架构师,架构出那么复杂的生命系统

引用
评论(4)
5
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
westwarded
4年0个月前 IP:广东
888799

目前世界上还没有一款成功的mrna疫苗。这个成功了就是疫苗有个新的方向。

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
虎哥
4年0个月前 IP:四川
888805

mRNA疫苗相关基础发现得诺奖应该是早晚的事。

引用
评论
1
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
毁灭天使
4年0个月前 IP:山东
888851

DNA打印机打印的疫苗,不是灭活疫苗,超出想象了


引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
UICalc
4年0个月前 IP:浙江
888867

这种技术能用于制造HIV疫苗吗

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
薛定谔的猫
4年0个月前 IP:四川
888896

sql注入

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
肖特基的救赎
4年0个月前 IP:内蒙古
888897

刚才仔细看了一下,这个太强了 sticker

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
m24h
4年0个月前 IP:上海
888938

感觉好牛啊

如果新冠上的免疫敏感信息(新冠的免疫排斥性特强)

结合特殊的靶点设计

比如可以和被感染的t细胞或者癌细胞结合

又避开普通的细胞

打印出来再增殖

不就变成特定靶向药物么

不是自己干掉坏细胞

而是给免疫系统一个拼命排斥的标志

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

所属专业
上级专业
同级专业
科创喵
进士 小编 机友
文章
74
回复
28
学术分
0
2018/06/14注册,6个月6天前活动

扫描最新重大科技成果
聚焦科技事件深度细节

主体类型:个人
所属领域:无
认证方式:手机号
IP归属地:四川
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}