Fixed Gap2Caf Tools for MIRA 4.x Genome Assembly


In past days I was trying to assemble , using denovo method of course, mapped SOLiD reads using MIRA assembler  and the results were successful. The mira assembler generate full assemblie formats like caf or maf  and other formats like fasta, quality value, wig and tcs files, I’m sure that you will need to convert formats to reach some tools like assembly viewers, editors or scaffolders.

The sanger software tool Gap2caf converts a gap4 database to a CAF (common assembly format) file.

The CAF specification can be found at:

when you will try to compile Gap2Caf you will get some errors at compilation time  :

[jacob@sentli gap2caf-2.0.2]$ make
Making all in src
make[1]: Entering directory `/home/jacob/Downloads/bio/sanger/gap2caf-2.0.2/src'
make  all-am
make[2]: Entering directory `/home/jacob/Downloads/bio/sanger/gap2caf-2.0.2/src'
STADENROOT=/opt/staden ; export STADENROOT; . $STADENROOT/staden.profile ; gcc  -g -O2   -o gap2caf  gap2caf.o cl.o readline.o -L/opt/staden/lib/staden/-binaries -ltk_utils -lgap -lseq_utils -L/usr/lib64 -ltcl8.5
/usr/bin/ld: cannot find -ltk_utils
collect2: ld returned 1 exit status
make[2]: *** [gap2caf] Error 1
make[2]: Leaving directory `/home/jacob/Downloads/bio/sanger/gap2caf-2.0.2/src'
make[1]: *** [all] Error 2
make[1]: Leaving directory `/home/jacob/Downloads/bio/sanger/gap2caf-2.0.2/src'
make: *** [all-recursive] Error 1

The solution is to change some gcc compilation flags in the generated Makefile files

1. Open every Makefile in the main gap2caf source directory including subdirectories

2. Replace the following lines

 STADENLDADD = -L/opt/staden/lib/staden/-binaries -ltk_utils -lgap -lseq_utils
LDADD = -L/opt/staden/lib/staden/-binaries -ltk_utils -lgap -lseq_utils 

use this :

 STADENLDADD = -L/opt/staden/lib/staden/ -ltk_utils -lgap -lseq_utils
LDADD = -L/opt/staden/lib/staden/ -ltk_utils -lgap -lseq_utils 

Gap2Caf Makefile list:




tested on CentOS Linux Server 6.4 :D

How to De Novo Sequence Assembly using SOLiD reads? (first part)

El ensamblado “De Novo” se refiere a ensamblar la secuencias de cada lectura en contigs o scaffolds sin una secuencia de referencia, caso contrario cuando al alineamiento de las lecturas se usa una secuencia de referencia que comúnmente le denominan en ingles “re-sequencing” o “referenced assembly”.

Por lo pronto dejo disponible un diagrama del flujo del proceso del ensamblado de novo usando lecturas de SOLiD.

Los programas que vamos usar  para este proceso son SOLiD de novo accesory tools version 2, SAET, Velvet y Mummer para visualizar el resultado, aunque podríamos usar el “ma” resultante con otras aplicaciones para visualización.

En el próximo post veremos como hacer este proceso paso a paso, incluso con un screencast disponible para todos libremente.

Cabe señalar que el diagrama lo elaboré con Dia , muy buen programa.