我们的灵长类亲戚可以教给我们关于我们自己的基因组

一种新的算法训练通过自然选择可以找到人类致病变种
2023年6月13日下午12:55等
运动: 业务

最初发表在Illumina公司新闻中心

每个人的遗传密码港口数以百万计的变体,从一个人到另一个不同,差异在健康和疾病的风险。越来越多的人类基因组测序,更多的数据研究人员比较和预测哪些变异最有可能导致疾病。尽管全世界科学家和临床医生的集体努力,绝大多数的这些变异的功能仍然是未知的。

和遗传风险预测遭受了种族偏见。百分之七十八的全基因组关联研究目录中的数据来自欧洲血统的人;当主要欧洲基因组数据用于训练多基因风险分数,它导致不均匀时的性能应用于其他民族。

测序更大的多样性是解决方案的一部分,但即便如此,只能告诉我们这么多。“主要的问题是,人类是很瓶颈,”凯尔Farh解释说,人工智能的Illumina公司副总裁。“尽管我们有80亿人,我们的遗传多样性仍然看起来像原来的10000人口共同祖先我们所有的后裔。只是没有足够的信息来收集来自人类物种。几年前很明显,真正理解人类基因组,数据中包含的人类基因组测序是不够的。”

出头鸟DNA记录几百几千年的进化史。但为了避免偏见和更了解自己,科学家们正在扩大搜索的数百万几年来研究我们的更遥远的家人,灵长类动物。

DNA作为生活的历史

进化是世界上最长的实验。一代复一代,自然是通过随机测试基因mutation-variants危害动物的健康正迅速从基因库中,和那些中立的或有益的生存了。“这些实验的结果记录在每一个物种的基因组,”Farh说。“他们在这里。这是一个生活文档。”

分类顺序“灵长类动物”包括超过500种,包括大猩猩、猴子、原猴亚目的像狐猴和loris-and我们。我们都是同一个祖先的后裔,尽管我们非常不同的形式,现存的灵长类动物份额超过90%的我们的DNA。突变发生在黑猩猩和倭黑猩猩也发生在人类,和从Illumina公司科学家表明,如果一个变体是由自然选择容忍另一个灵长类动物,它是我们99%的可能不引起疾病。这不是真的更多的远亲mammals-a无害的老鼠和狗的变化,例如,可能在大猩猩和人类致病。

数百万年的灵长类物种并行发展,突变导致疾病已经被自然选择淘汰。通过测序现代灵长类动物,我们可以提高我们的知识的变体引起疾病。

Illumina公司的科学家们,在与那些来自24个国家的合作,只灵长类动物基因组的大量研究的结果发表在《华尔街日报》四篇论文科学。研究测序超过800个人从233种灵长类动物,代表所有16个家庭和生活属的86%以上。但是测序只是第一步:一旦他们所有这些数据,他们需要一种方法来解释它。所以他们PrimateAI-3D开发。

进化算法训练

大语言模型ChatGPT得到了生成人类关注的能力应对任何提示。人工智能是训练有素的大规模数据集的现有写作,所以它可以准确预测下一个句子,最自然的声音根据对话这一点。

PrimateAI-3D算法是建立在深度学习语言架构类似于那些用于ChatGPT,但设计模型基因组序列,而不是语言。通过呈现变异,排除疾病在我们的短尾猿和猩猩表兄弟,其开发人员有效地利用自然选择训练参数。神经网络学习的良性变异的基因表示,通过消除的过程,如果突变区域可能会导致疾病。通过这种方式,它在人类学会了如何准确地预测致病性变异比任何人类都可以。

这项研究发表在科学PrimateAI-3D对15个其他机器学习方法相比在四个病人cohorts-one神经发育障碍,一个用于自闭症谱系障碍,一个用于先天性心脏病,英国生物库。前三个军团是一些最大的研究到目前为止,测序都受影响的儿童及其影响的父母;相比之下,英国生物库的一百万基因组多半来自健康人群的成员。这项研究还评估了算法在美国国立卫生研究院的ClinVar数据库和其他数据集。

在6个不同临床基准,PrimateAI-3D大幅度超过所有其他现有方法。这些发现将有助于研究人员优先考虑少量的变体,最有可能影响一个人的健康。

此外,PrimateAI-3D展示了令人印象深刻的改善预测人们患常见疾病在英国生物库人群中,尤其是在非欧洲民族。“我们发现,97%的健康的人一般人群进行高度可行的变异对临床相关的条件,“Farh说,该研究的主要作者之一。“到目前为止我们已经知道你需要基因组测序如果你有一种罕见的疾病或汉姆实际上看起来每一个健康的人在人口高度有效的变体在我们的临床相关的基因组,是重要的了解。”

回馈长臂猿和狒狒

对人类健康的好处,这些努力也可能是灵长类动物保护的工具。“我们匆忙来收集这些数据,因为大多数的这些物种灭绝的快车道,“Farh说。遗传多样性记录在一个动物的DNA不仅告诉我们有多少个人保持物种的人口,它还告诉的故事,人口的规模随着时间的推移,通过一代又一代。”,告诉我们物种的速度下降,和多少时间他们都离开了。这是在他们的基因。”

PrimateAI-3D的开发人员发现其性能直接与数据集的大小尺度用于训练它,所以更多的灵长类物种序列,工具会变得越好。猴子和猿可以帮助我们,我们可以帮助他们。“我认为我们只是在开始的时候,“Farh说。“有大量可以在这里学到的。和你可以了解更多关于我们自己的物种与其他物种,我觉得非常浪漫。”

PrimateAI-3D将广泛用于基因组学社会连接的Illumina公司即将发布的软件产品。188bet网址怎么打不开