Início ANDROID Revolucionário mecanismo de busca de DNA está acelerando a descoberta de genes

Revolucionário mecanismo de busca de DNA está acelerando a descoberta de genes

45
0

Doenças genéticas raras podem agora ser detectadas em pacientes e identificadas mutações específicas de tumores – um marco alcançado pela sequenciação de ADN que transformou a investigação biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de próxima geração) impulsionou uma onda de avanços. Por exemplo, durante 2020 e 2021, estes métodos permitiram a descodificação rápida e a vigilância global do genoma do SARS-CoV-2.

Ao mesmo tempo, cada vez mais investigadores estão a tornar públicos os seus resultados de sequenciação. Isto levou a uma explosão de dados armazenados em grandes bases de dados, como o SRA (Sequence Read Archive) dos EUA e o ENA europeu (European Nucleotide Archive). No total, estes arquivos contêm actualmente cerca de 100 petabytes de informação, aproximadamente o equivalente à quantidade total de texto encontrado em toda a Internet, onde 1 petabyte equivale a 1 milhão de gigabytes.

Até agora, os cientistas biomédicos precisavam de enormes recursos computacionais para pesquisar estas vastas bibliotecas de genes e compará-las com os seus próprios dados, tornando quase impossíveis pesquisas abrangentes. Pesquisadores da ETH Zurique desenvolveram agora um método para superar essa limitação.

Pesquisa de texto completo em vez de baixar todo o conjunto de dados

A equipe criou uma ferramenta chamada MetaGraph que simplifica e agiliza muito esse processo. Em vez de baixar todo o conjunto de dados, o MetaGraph permite pesquisas diretas em dados brutos de DNA ou RNA, como se fosse um mecanismo de busca na Internet. Os cientistas simplesmente inserem a sequência genética de interesse no campo de busca e, dependendo da consulta, em segundos ou minutos, veem onde a sequência aparece nos bancos de dados globais.

“Este é o Google do DNA”, explica o professor Gunnar Rätsch, cientista de dados do Departamento de Ciência da Computação da ETH Zurique. Anteriormente, os pesquisadores só podiam pesquisar metadados descritivos e depois tinham que baixar o conjunto de dados completo para acessar as sequências brutas. Este método é lento, incompleto e caro.

O MetaGraph também é muito econômico, segundo os autores do estudo. Representar todas as sequências biológicas disponíveis publicamente requer apenas alguns discos rígidos de computador, e consultas grandes não custam mais do que US$ 0,74 por megabase.

Dado que o novo motor de busca de ADN é rápido e preciso, poderá acelerar significativamente a investigação, especialmente na identificação de agentes patogénicos emergentes ou na análise de factores genéticos associados à resistência aos antibióticos. O sistema pode até ajudar a encontrar vírus benéficos que destroem bactérias nocivas (fagos) escondidas nesses vastos bancos de dados.

Compressão 300x

Em seu estudo publicado em 8 de outubro naturezaa equipe da ETH demonstrou como funciona o MetaGraph. A ferramenta organiza e compacta dados genéticos usando diagramas matemáticos avançados para estruturar as informações de forma mais eficiente, semelhante à forma como o software de planilha organiza os valores. “Matematicamente, é uma matriz enorme com milhões de colunas e trilhões de linhas”, explica Rätsch.

Criar índices para tornar grandes conjuntos de dados pesquisáveis ​​é um conceito comum na ciência da computação, mas o que se destaca na abordagem ETH é como ela conecta dados brutos com metadados e, ao mesmo tempo, alcança taxas de compactação extraordinárias de cerca de 300x. Esta redução é muito parecida com o resumo de um livro – elimina a redundância ao mesmo tempo que preserva a narrativa e as relações essenciais, mantendo todas as informações relevantes num formato mais pequeno.

“Estamos ultrapassando os limites do possível para manter o conjunto de dados o mais compacto possível sem perder as informações necessárias”, diz o Dr. André Kahles, que, como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurique. O método dos pesquisadores da ETH é escalável em comparação com outras máscaras de busca de DNA atualmente em estudo. Isso significa que quanto maior a quantidade de dados consultados, menos poder computacional adicional a ferramenta requer.

Metade dos dados já está disponível

O MetaGraph foi lançado pela primeira vez em 2020 e tem sido constantemente aprimorado. A ferramenta agora pode ser pesquisada publicamente (https://metagraph.ethz.ch/search) e indexou milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, quase metade dos conjuntos de dados de sequências globais disponíveis estão incluídos, e o restante deverá ser concluído até o final deste ano. Como o MetaGraph é de código aberto, ele também pode atrair o interesse de empresas farmacêuticas que gerenciam grandes quantidades de dados de pesquisas internas.

Kahles ainda acredita que os motores de busca de DNA poderão um dia ser usados ​​de forma privada: “Nos primeiros dias, nem mesmo o Google sabia para que um motor de busca era realmente usado. Se a tecnologia de sequenciamento de DNA continuar a se desenvolver rapidamente, uma identificação mais precisa de plantas de varanda poderá se tornar comum”.

Source link