Um trabalho de três investigadores de instituições portuguesas pode abrir caminho a estudos mais rápidos e mais baratos no campo da sequenciação de genomas. Vinicius Vielmo Cogo e Alysson Neves Bessani (do LASIGE – ULisboa) e João Tiago Paulo (do INESC-TEC e da Universidade do Minho) combinaram uma nova técnica de deduplicação de dados baseados em semelhanças e padrões encontrados nos ficheiros de sequenciação de genomas humanos e uma codificação das alterações para a recuperação desses dados.
O ponto diferenciador desta abordagem é que substitui a descrição completa dos dados genómicos sequenciados por pequenos apontadores descrevendo-se apenas as alterações necessárias para a recuperação dos dados originais, reduzindo-se consequentemente o espaço necessário e o custo de armazenamento.
O comunicado de imprensa salienta que assim os hospitais e biobancos conseguem economizar no armazenamento dos dados e ao mesmo tempo permite que os investigadores leiam esses dados de forma mais rápida. Ao sabermos que estas instituições são responsáveis por guardar e distribuir milhões de amostras biológicas para investigadores de todo o mundo e que estão sob pressão para armazenar também os dados genómicos sequenciados a partir destas amostras conseguimos perceber melhor que estas poupanças terão um impacto significativo no seu quotidiano.
A aplicação em infraestruturas que já usam algoritmos de compressão genéricos nestes dados beneficiam de uma redução adicional de custo e espaço de armazenamento de cerca de 22% e permite que os investigadores acedam aos dados até cinco vezes mais rapidamente.
No futuro próximo, os investigadores pretendem disponibilizar a solução em código aberto, melhorar os resultados através de estudos mais aprofundados sobre os padrões e adaptar as conclusões para a sequenciação de genomas de outras espécies. O estudo destes investigadores foi publicado na IEEE no dia 14 de maio e pode ser consultado aqui.