Proposto e o objetivo do trabalho

Published:

This essay has been submitted by a student. This is not an example of the work written by our professional essay writers.

1 Introdução

Este capítulo apresenta uma breve explicação da origem deste projeto, destacando a motivação para a realização deste estudo sobre o tema proposto e o objetivo do trabalho. A estrutura do texto é explicada logo em seguida.

A integração entre biologia e informática vem crescendo muito nos últimos anos, principalmente na parte de representação, armazenamento e distribuição dos dados. Os bancos de dados em biologia molecular são um dos principais recursos da informática utilizados pela biologia, visando armazenar e posteriormente analisar bioseqüências, funções moleculares, estruturas de proteínas, modelos metabólicos, e diversas outras estruturas moleculares, podendo inclusive armazenar dados complementares sobre as estruturas que auxiliam em análises e comparações. Muitos sistemas utilizam bancos de dados públicos como o National Center of Biothecnology Information (NCBI), DNA DataBank of Japan (DDBJ) e European Molecular Biology Laboratory (EMBL), e textos da literatura. Os bancos de dados em biologia ainda fornecem algoritmos para recuperação e análise destes dados.

Atualmente existem inúmeros dados de biologia armazenados que se não fosse pelo auxílio de banco de dados, dificultaria muito a análise plos pesquisadores. O objetivo deste trabalho é apresentar uma revisão sobre o assunto, focando na análise de uma ferramenta que utiliza diversos bancos públicos para análise por pesquisadores.

Este trabalho teve origem na disciplina de Bancos de Dados Não-Convencionais de 2009.2, ministrada pelo professor doutor Sean Siqueira. Esta disciplina é optativa e faz parte da linha de banco de dados do currículo de Bacharelado em Sistemas de Informação da Universidade Federal do Estado do Rio de Janeiro (Unirio). A disciplina aborda modelos de bancos de dados que vão além dos modelos tradicionais mais utilizados de bancos de dados relacionais.

1.1 Estrutura do Texto

Este relatório está subdividido em quatro capítulos, onde cada um apresenta um tema a ser abordado pelo estudo. A lista de capítulos é apresentada a seguir:

  • Capítulo 1 - introduz o tema, apresentando motivação e objetivos, assim como a estrutura do texto
  • Capítulo 2 - introduz o tema de Bioinformática, focando em bancos de dados biológicos
  • Capítulo 3 - apresenta uma análise da aplicação NCBI Genome Workbench para análises biológicas, que utiliza diversos bancos de dados públicos
  • Capítulo 4 - apresenta a conclusão final

2 Bancos de Dados Biológicos

O termo Bioinformática foi criado por Paulien Hogeweg em [HOGEWEG, 1978] e atualmente é utilizado para se referir ao desenvolvimento e aplicação de ferramentas e técnicas computacionais para tarefas relacionadas à biologia, como a coleta de dados, análise, armazenamento, gestão e visualização. No início, o principal objetivo da bioinformática era o desenvolvimento e manutenção de bancos de dados biológicos, como seqüência de nucleotídeos e aminoácidos.

Todos os dados de análises biológicas em laboratórios são armazenados em bancos de dados biológicos. Cada laboratório desenvolveu o seu próprio, existindo diversos bancos de dados privados no mundo, mas que não trocavam informações. Era muito comum o retrabalho de mapear seqüência inteiras quando estas já estavam mapeadas por outros laboratórios. A solução para isso foi a criação e promoção de banco central de informações em constante evolução destinado a toda comunidade de pesquisa. Isso possibilitou a economia de recursos como tempo, pesquisadores e ferramentas.

Com o avanço tecnológico, o número de dados biológicos vem aumentando exponencialmente, como mostra o gráfico do GenBank do NCBI que apresenta a evolução durante os anos do número de seqüência e pares armazenados.

[NCBI 2004] apresenta uma definição para banco de dados biológicos dizendo que "constitui um grande conjunto de dados persistentes, geralmente associado a um software projetado para atualizar, consultar e recuperar componentes dos dados armazenados no sistema.". Dados biológicos podem ser armazenados em arquivos em formato de texto, arquivos estruturados (XML por exemplo) bancos de dados relacionais, bancos de dados objeto-relacionais, bancos de dados orientado a objetos. E não existem padrões, cada banco central pode ter o seu o que determina os formatos tratáveis pelas ferramentas.

Muitas vezes não há verificação de qualidade dos dados, o que também dificulta o trabalho dos pesquisadores quanto à veracidade dos dados. Nos bancos centrais mais utilizados, essa verificação é feita, no entanto.

A seguir, uma lista de alguns tipos de bancos de dados biológicos, mostrando a variedade de dados e conseqüentemente, de formatos:

  • Bancos de dados primários de seqüência (nucleotídeos e aminoácidos) -GenBank, UniProt
  • Bancos de genomas - Mouse Genome Database, NCBI Genomic Biology
  • Bancos de dados especializados - Flybase, Wormbase, CGAP
  • Bancos de dados de vias bioquímicas - KEGG
  • Bancos de dados de estrutura de proteínas - PDB, SCOP
  • Bancos de dados de microarrays- ArrayExpress, SMD
  • Bancos de dados de interações proteína-proteína - STRING, BioGRID
  • Bancos de Cadastro de recursos naturais - Amazon Link, ENDS, National Whale and Dolphins Stranding Database

O padrão para o modelo de dados do NBCI é o ASN.1. A implementação disto é feita pela biblioteca de programação NCBI C++ ToolKit que ainda mapeia ASN.1 e XML. Este modelo é estável e é utilizado por toda a estrutura de dados do NCBI. A seguir um exemplo genérico de como os dados são representados em ASN.1:

SEQUENCE indica que os itens listados aparecem em ordem, no caso do exemplo, um conjunto de identificadores, uma descrição, uma instância da sequência e um conjunto de anotações sobre a sequência.

As sequências referenciam diversos tipos de elementos da biologia, podendo ser também, novas sequências criadas por pesquisadores ou partes de sequências existentes. As anotações representam anotações de partes específicas da sequência, como alinhamentos e repetições.

Para a busca em bancos de dados biológicos há dois principais algoritmos utilizados, principalmente para buscas de alinhamentos entre sequências. Alinhamento é a comparação de duas ou mais sequências em todo o seu comprimento, identificando as subseqüências comuns. Para cada alinhamento pode ser calculada uma pontuação de signifiância.

  • FASTA - Lipman e Pearson, 1985, é o primeiro programa que utiliza algoritmos para identificação de alinhamentos, dada uma sequência de entrada, realiza uma busca em bancos de dados públicos, retornando sequências similares.
  • BLAST (BasicLocalAlignmentSearchTool) - Semelhante ao FASTA, o BLAST também identifica alinhamento, se diferenciando por ser mais preciso que o FAST, embora seja menos abrangente.

3 Análise da Aplicação NCBI Genome Workbench

NCBI Genome Workbench é uma aplicação integrada utilizada para análise e visualização de dados biológicos extraídos de bancos de dados públicos do Center of Biothecnology Information (NCBI). Esses dados podem ser comparados com dados privados pela ferramenta. Genome Workbench foi desenvolvida pelos pequisadores da NCBI através do NCBI C++ ToolKit. C++ ToolKit é um framework de desenvolvimento de aplicações em C++ que suporta o modelo de dados do NCBI.

Genome Workbench permite a visualização dos dados de diversas formas, podendo ser utilizado em diferentes plataformas como Windows 2000/XP/Vista, Linux, MacOS X e diversos sistemas Unix. O ambiente é organizado em Workspaces e Projetos, sendo que os primeiros contem os segundos.

A principal funcionalidade da ferramenta em relação à busca de dados em bancos de dados é o "data mining view", a visão de mineração de dados. Ela permite a busca em diversos bancos de dados públicos utilizando o sistema Entrez Gene no NCBI. O Entrez e o Genome Workbench suportam diversos formatos, dentre eles:

  • Arquivos FASTA
  • GFF2/GTF e futuramente GFF3
  • RepeatMasker .out
  • Sequin-style 5-Column Feature Table
  • árvores filogenéticas Newick-format
  • Arquivos Phrap/ACE
  • AGP
  • Objetos NCBI ASN.1 objects (ASN.1 em texto, binário ou XML)

3.1 Experiência Prática - Verificando semelhanças entre duas sequências de DNA

Este capítulo apresenta um tutorial básico de utilização da ferramenta.

3.1.1 Introdução

Este tutorial demonstrará como identificar alinahmentos entre sequências de DNA, utilizando a funcionalidade "Find Overlaps".

3.1.2 Buscando sequências para alinhamento

A seguir deve-se abrir o "data mining view" para importar sequências. Para isso, deve-se fazer uma busca. No exemplo utilizamos:

  • "Search NCBI Public Databases
  • "Find what:"AC040978.8, AC115836.5
  • "Database:"Nucleotide

Selecione os elementos listados para alinhamento e clique com o botão direito, selecionando "Add to project". Crie uma pasta, nomeando-a, no novo projeto e inclua as duas sequências nessa pasta.

Pode-se renomear projetos (pasta na cor verde na árvore de projetos ("project tree")) clicando com o botão direito e selecionando "Properties". Renomeie o projeto para "AC040978.8_AC115836.5_alignment".

3.1.3 Gerando alinhamento

O próximo passo é gerar um alinhamento para estas duas sequências, um alinhamento de sobreposição. Selecione as duas sequências na árvore de projetos e siga os comandos Tools->Alignments->Find Overlap Between DNA Sequences no menu principal.

Na janela aberta, selecione AC040978.8comoSequence 1eAC115836.5comoSequence 2. Utilize os parâmetros default para o alinhamento e clique em OK. Após a finalização do processo de alinhamento, um novo ícone aparece na árvore de processos.

3.1.4 Visualizando alinhamento

Selecione o ícone de alinhamento na árvore de projetos (vermelho). Para visualizar este alinhamento, siga os comandos View->New Composite View-Multi-pane Cross Alignment Viewdo menu principal que retornára três visões o alinahmento como na figura abaixo. Há uma Dot Matrix (matrix que verifica alinhamentos identificano diagonais formadas por genes que combinam) e duas visões gráficas, cada uma para cada sequência, apresentando repetições, variações e anotações.

3.1.5 Visualizando detalhes

Para visualizar detalhes do alinhamento nos diagramas, pode-se ar um clique duplo na barra roxa e alinhamento em qualquer uma das visões gráficas. Em caa janela será visto o zoom para o nível o alinhamento. Selecione o alinhamento em uma janela e este mesmo alinhamento será destacado na outra janela, inclusive na visão e Dot Matrix. Marcas grossas nas barras de alinhamento indicam sequências sem alinhamento.

3.1.6 Outras visões: Alignment Table View

O Alignment Table View é uma visão de resumo do alinhamento em um format e tabela, incluindo inormações como comprimento a sequência, não alinhamentos e números de gaps. Para obter esta visão, siga o commando View->New View->Alignment Table View selecionando o ícone de alinhamento na árvore e projetos.

3.1.7 Outras visões: Alignment Span Table View

O Alignment Span Table View apresenta informações sobre cada segment de um alinhamento. Nos casos de alinhamentos não contínuos, as informações sobre cada segmento o alinhamento é representada em uma linha. Para obter esta visão, siga o View->Alignment Span Table View selecionando o ícone de alinhamento na árvore e projetos. Ao abrir a visão, clicar com o botão direito selecionando Settings e aumentar o Threshold para 500. O papel e a definição do Threshold serão definidos em futuros releases da ferramenta.

4 Conclusão

Banco de dados biológicos é bastante amplo, envolve diversos formatos de armazenamento e algoritmos de recuperação. é a principal fonte para os biólogos que trabalham com dados biológicos e, portanto, esses bancos de dados promovem a diminuição de retrabalho, economizando recursos.

O principal desafio está em centralizar cada vez mais os dados, e aumentar a integridade dos mesmos, promovendo de alguma forma, a revisão e aprovação de dados enviados por pesquisadores. Um dos principais fatores é padronizar o formato de armazenamento dos dados, de forma que diferentes aplicações possam tratar facilmente dados recuperados públicos.

Referências Bibliográficas

  • MOUNT, D. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory, 2001.
  • http://www.ncbi.nlm.nih.gov/project ls/gbench/
  • NCBI http://www.ncbi.nlm.nih.gov
  • Hogeweg, P. (1978). Simulating the growth of cellular forms. Simulation 31, 90-96; Hogeweg, P. and Hesper, B. (1978) Interactive instruction on population interactions. Comput Biol Med 8:319-27.
  • Gibas, C.; Jambeck, P.; Desenvolvendo Bioinformática: ferramentas de software para aplicações e, biologia; Rio de Janeiro, Ed. Campus, 2001

Writing Services

Essay Writing
Service

Find out how the very best essay writing service can help you accomplish more and achieve higher marks today.

Assignment Writing Service

From complicated assignments to tricky tasks, our experts can tackle virtually any question thrown at them.

Dissertation Writing Service

A dissertation (also known as a thesis or research project) is probably the most important piece of work for any student! From full dissertations to individual chapters, we’re on hand to support you.

Coursework Writing Service

Our expert qualified writers can help you get your coursework right first time, every time.

Dissertation Proposal Service

The first step to completing a dissertation is to create a proposal that talks about what you wish to do. Our experts can design suitable methodologies - perfect to help you get started with a dissertation.

Report Writing
Service

Reports for any audience. Perfectly structured, professionally written, and tailored to suit your exact requirements.

Essay Skeleton Answer Service

If you’re just looking for some help to get started on an essay, our outline service provides you with a perfect essay plan.

Marking & Proofreading Service

Not sure if your work is hitting the mark? Struggling to get feedback from your lecturer? Our premium marking service was created just for you - get the feedback you deserve now.

Exam Revision
Service

Exams can be one of the most stressful experiences you’ll ever have! Revision is key, and we’re here to help. With custom created revision notes and exam answers, you’ll never feel underprepared again.