getXSQ v0.1 for SOLiD 5500 instrument

No Comments

if you want to copy your results from your SOLiD 5500 instrument to Server Storage you could use following bash script

There is a basic script , the main idea is that you can convert your XSQ files to colorspace, quality and fastq (ECC) values.

My current getXSQ WorkFlow:

S5 means SOLiD 5500

SS means Server Storage

SOLiD5500 –> scan xsq results(S5) –> copy xsq results to server storage(S5) –> convert xsq results to csfasta/qual/fastq (SS)–> minimal reads counting(SS)

#!/bin/bash

# GetXSQ v0.1 allows to copy from SOLiD 5500 instrument results to Custom Server Storage
# by Jacob Israel Cervantes Luevano jacobnix@gmail.com

# GetXSQ is free software; you can redistribute it
# and/or modify it under the terms of the GNU General Public
# License as published by the Free Software Foundation;
# either version 3 of the License, or (at your option) any later version.

# GetXSQ is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
# See the GNU General Public License for more details.

# You should have received a copy of the GNU General Public License
# along with GetXSQ; if not, write to the Free Software Foundation,
# Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301 USA

CWD=$PWD
storage=$2
user=$4
remotedir=$6

echo "getXSQ.sh allows to copy from SOLiD 5500 instrument results to Custom Server Storage"
echo "Copyright 2012 by Jacob Israel Cervantes Luevano"
echo "usage: getXSQ.sh --storage ip_address --user remote_username --remotedir dir"

for XSQ in `tree -i -f | grep xsq`
do
 xsqFile=`readlink -f $XSQ`
#printf "`$xsqFile` \n"
 printf "copying xsq file $xsqFile to Storage $storage \n"
 scp $xsqFile $user@$storage:$remotedir
 printf "xsq file $xsqFile copied successfully !!\n"
#convert to csfasta/qual/fastq from xsq @ storage
done
-- INSERT --

This script is partially finished if you want to help ..email me

HPC Cluster Maintenance Issues

No Comments

In past days I was performing maintenance routine for two hpc clusters (PsscLabs/Roche 454 hpc machine and custom hpc cluster machine) .

A minimal list of possible maintenance options that I’m currently checking :

  1. Daily Backups (NAS, External USB Hard Disk, External USB Tapes Drives, Network Storage Solution) (daily)
  2. Proper Air Flow , Proper ambient Temperature  (weekly)
  3. System Functionality Tests (Slave Node Connectivity , Test your PBS or SGE system, Run parallel jobs and check results)
  4. Check RAID Array Storage Availability. (weekly)
  5. Check Data Storage Availability. (almost everyday)
  6. Check Linux Kernel Messages (dmesg information could be useful  ;) )
  7. Check Security (login users, network, kernel and user spaceland proc)
  8. What else ? help me..

unofficial patch XSQ Tools/Linux Mint 12 Lisa

No Comments

Hi guys , I’m still alive ..

I developed simple patch for Life Technologies/Applied Biosystems XSQ Tools.

This patch allows to run XSQ Tools in Debian based linux distributions like Linux Mint 12 or Ubuntu Linux

1. Download XSQ Tools from official website.

2. Decompress tar file

$ tar -zxvf XSQ_Tools_20120109.tgz

3. Download patch tar file , decompress it and copy patch to XSQ Tools directory

4. Change into XSQ Tools directory and  apply patch

$ patch -Np1 -i convertFromXSQ.sh.patch convertFromXSQ.sh

5.  Let’s go to test !!

./convertFromXSQ.sh -linux debian -c data/Frag.xsq -o data/

Download convertFromXSQ.sh.patch.tar.gz

That’s all

EBI Wise 2 plus updated SQUID available.

No Comments

The Wise2 package is entirely open source licensed for use by both commerical and academic sites. This means that anyone can modify and
redistribute the source code without restriction. However, the use of the source code as part of a larger, and potentially propietary package depends on which portions of the source code you wish to use. Each directory has a seperate LICENSE or GNULICENSE file which you
should read, but the gist is given below.

Download updated EBI Wise 2 from here

Download from EBI  (outdated version)

Installation instructions here or INSTALL

Currently I’m packaging (deb and rpm) EBI Wise 2 binaries for Debian and Red Hat based linux distros.

Jacob

[Fixed] EBI Wise 2 runs on Linux Mint 12 Lisa

1 Comment

I fixed SQUID C library for EBI Wise2 bioinformatics software application.

Wise 2 was developed in C by Ewan Birney. EBI Wise 2 software compares a protein sequence to a genomic DNA sequence, allowing for introns and frameshifting errors.

I will explain step by step how to fix SQUID and install Wise 2 in your current Linux Mint “Lisa” OS (aka Ubuntu)

1. Install GNU C compiler (aka gcc)

$ sudo apt-get install gcc

2. Install tcsh shell (tcsh is a Unix shell based on and compatible with the C shell (csh))

$ sudo apt-get install tcsh

3. try to compile Wise 2

$ tar -zxvf wise2.2.0.tar.gz

$ cd wise2.2.0; cd src

$ make all

ok when you try to compile sqio.c source file you will get an error

gcc -c -O -DPTHREAD -c sqio.c
sqio.c:232:1: error: conflicting types for ‘getline’
/usr/include/stdio.h:671:20: note: previous declaration of ‘getline’ was here
make[1]: *** [sqio.o] Error 1
make[1]: Leaving directory `/home/jacob/Downloads/bio/wise2.2.0/src/HMMer2'
make: *** [realall] Error 2

how to fix it ?  you will need to edit src/HMMer2/sqio.c at line 232

/* Function: getline()
 * Date:     SRE, Tue Mar  3 08:30:01 1998 [St. Louis]
 *
 * Purpose:  read a line from a sequence file into V->sbuffer.
 *           If the fgets() is NULL, V->sbuffer is NULL.
 *           Trailing \n is chopped.
 *           If a trailing \n is not there, raise the
 *           lastlinelong flag in V; either we're at EOF or
 *           we have a very long line, over our fgets() buffer
 *           length.
 *
 * Args:     V
 *
 * Returns:  (void)
 */
static void
getline(struct ReadSeqVars *V)
{
  char *cp;

  if (fgets(V->sbuffer, LINEBUFLEN, V->f) == NULL)
    *(V->sbuffer) = '\0';
  else {
    cp = strchr(V->sbuffer, '\n');
    if (cp != NULL) { *cp = '\0'; V->longline = FALSE; }
    else            V->longline = TRUE;
  }
}

Follow this steps:

1. from current wise2.2.0 directory cd into src/HMMer2 subdirectory

$ cd src/HMMer2

2. rename sqio.c source file

$ mv sqio.c sqio.c.bk

3. try to search getline string and replace it using getlineSeq string

$ sed 's/getline/getlineSeq/g' sqio.c.bk > sqio.c

4. try to test using grep command

$ grep -n "getline" sqio.c

check output

216:/* Function: getlineSeq()
232:getlineSeq(struct ReadSeqVars *V)
302:    getlineSeq(V);
330:    getlineSeq(V);
339:    getlineSeq(V);
348:  getlineSeq(V);            /* skip next line, coords */
362:    getlineSeq(V);
380:    getlineSeq(V);
392:    getlineSeq(V);
414:      getlineSeq(V);
423:    getlineSeq(V);
441:    getlineSeq(V);
452:      getlineSeq(V);
485:    getlineSeq(V);
489:    getlineSeq(V);
518:  getlineSeq(V);
538:    getlineSeq(V);
558:  while (V->longline && ! feof(V->f)) getlineSeq(V);
563:    getlineSeq(V);
590:    getlineSeq(V);
599:    getlineSeq(V);
623:    getlineSeq(V);
639:  getlineSeq(V);  /*s == "seqLen seqid string..."*/
650:    getlineSeq(V);
672:    getlineSeq(V);
684:  while (strncmp(V->sbuffer, "NAM ", 4) != 0) getlineSeq(V);
692:      getlineSeq(V);
724:      getlineSeq(V);
731:      getlineSeq(V);
739:    getlineSeq(V);
819:  getlineSeq(dbfp);
836:  getlineSeq(sqfp);
856:    getlineSeq(sqfp);
952:    getlineSeq(V);

f) ready !! , now we can compile EBI WISE 2.

cd into /wise2.2.0/src directory then type

$ make all

h) you will need to create and to set WISECONFIGDIR and WISE2_PATH to their proper directories (wisecfg and bin)

$ sudo vim /etc/profile.d/wise.sh

copy following text and paste in /etc/profile.d/wise.sh file

export WISECONFIGDIR=/home/jacob/Downloads/bio/wise2.2.0/wisecfg/
WISE2_PATH=/home/jacob/Downloads/bio/wise2.2.0/src/bin
export PATH=$PATH:$WISE2_PATH

save changes

i) testing

$ source /etc/profile.d/wise.sh
$ genewise -help
genewise ($Name: wise2-2-0 $)
genewise <protein-file> <dna-file> in fasta format

j) that’s all works for me !!

Mi Minuta Talleres Bioinformática Ciencias Genomicas UNAM 2012

No Comments

Gracias a la invitación de Jerome Verleyne y Romualdo Zayas la cual agradezco mucho, participe como ponente en los talleres internacionales de bioinformática 2012 los cuales se llevaron a cabo en el Centro de Ciencias Genomicas de la UNAM del 16 al 27 de enero de 2012.

Durante mi estancia en los talleres encontré a personas conocidas con quien pude al menos intercambiar un saludo.

Fue un excelente evento, realmente aprendes muchos temas muy interesantes y lo mejor es que todos tienen el mismo espíritu de compartir y una buena vibra !! a mi realmente me sorprendió que algunas de las personas conocieran mi pequeño blog de bioinformática y estuviesen al pendiente del mismo, gracias !! gracias por la buena vibra con la que me contagiaron durante el evento y gracias a todos las personas que se me acercaron para platicar un poco, cuentan con mi apoyo siempre.

Básicamente me toco impartir dos platicas, la primera sobre las experiencias y problemas en mi trabajo y la segunda platica aborde el tema sobre una aplicación web llamada “Query Sequence Visualizer” que desarrollamos hace 5 años en el Laboratorio Nacional de Genomica para la Biodiversidad en el Cinvestav, la cual se uso para visualizar y consultar información sobre el genoma del maíz palomero.

El material, presentación online y detalles de la aplicación Query Sequence Visualizer es:

http://www.langebio.cinvestav.mx/bioinformatica/jacob/projects/qsv/

Me gusto mucho añadir que el proyecto Query Sequence Visualizer que desarrollamos fue sin más ni más “HECHO EN MÉXICO”

La presentación en formato pdf de la platica de las Experiencias y Problemas Experiencias y Problemas

Algunas de las fotografías que tome :

Es importante empezar a desarrollar algoritmos para el GPU para el análisis de la información biológica y minimizar tiempos, aunque no estoy muy de acuerdo en la platica de la persona que toco el tema de NVIDIA CUDA , pues finalmente Rocks es Software Libre y si en un momento dado cambiara el esquema de licencia , podemos hacer un fork de Rocks, juntar programadores y administradores quienes estén interesados en que el proyecto Rocks siga libremente y para ello existen mas del 70% de gente en el mundo que seguro estarán de acuerdo y con el animo de participar , soy el primero en apuntarse a continuar con el desarrollo de Rocks, es cierto que puede haber soluciones comerciales y que bueno que existan pero por no por ello podemos con fundamento decir que es la panacea y que por ello debemos migrar a dicha solución comercial.

Muchas gracias a Clemen Olivares del IBT por todo tu apoyo !!! Clemen Graciassss !!

Muchas gracias Cei Abreu por tu apoyo !! :D

Gracias a todos todos y como dijera Pablo Vinuesa , nos vemos el próximo año.

No olviden inscribirse a la Sociedad Iberoamericana de Bioinformática

Jerome Verleyne

my simple Galaxy script

No Comments

Al trabajar con Galaxy y empezar a “indexar” los genomas de referencia para distintas herramientas NGS , me vi en la necesidad, en el caso de Blast, de complementar usando bash un script en python que permite preparar una base de datos para Blast en el formato adecuado para Galaxy.

Basicamente el flujo es:

Fasta File  (in) – - >  set_galaxy_blastdb.sh  (process) – - > Galaxy Fasta File (out) – - > Blast Reference Seq

Detalle :

Fasta File  – - > set_galaxy_blastdb.sh  – - > Fasta File Temp  – - >  Galaxy megablast-prepdb.py  – - >  Galaxy Fasta File

Galaxy Fasta File  – - > set_galaxy_blastdb.sh – - > Blast Format Database  – - > Blast Reference Sequence

mapping IonTorrent data using Omixon Letter Space Toolkit

2 Comments

Mapping  Ion Torrent data using Omixon

you will need

  1. fastq files
  2. reference file
  3. Omixon Letter Space shell scripts and java jar files.
  4. Omixon properties file
  5. Omixon Profile file ( 454, Ion Torrrent..)

Ok let’s see,

How to run :

[jacob@localhost omixon-letter-space-toolkit]$ ./orm.sh orm.properties.workcopy

orm.sh is a shell script that allows to run omixon java jar file :

#!/bin/bash
config=$1;
java -Xmx1000M -jar omixon-letter-space-toolkit.jar -config $config;

orm.properties.workcopy it is my own profile properties file to set input and output files

###################################################
# main control section, which of the steps to run #
###################################################
# the name of this process
toolkit.process=orm
# whether or not to use all available processors, default false
toolkit.useAllProcessors=false
#toolkit.useAllProcessors=true
############################
# orm input/output files   #
############################
# the input reference url to use
orm.referenceUrl=testingData/reference/e_coli_dh10b.fasta
# the url of where to write the output
orm.outputUrl=testingData/test2.sam
# the url to use for the input fastq file
orm.inputUrl=testingData/reads/R_2011_04_07_12_44_38_user_CB1-42-r9723-314wfa-tl_sample_data.fastq
##################
# orm profiles   #
##################
# the easiest way to run orm is with the built-in profiles
# see the orm.default.properties file and/or the README.txt for more
orm.profile=

Output

User parameters:
orm.inputUrl=testingData/reads/R_2011_04_07_12_44_38_user_CB1-42-r9723-314wfa-tl_sample_data.fastq
orm.outputUrl=testingData/test2.sam
orm.profile=
orm.referenceUrl=testingData/reference/e_coli_dh10b.fasta
toolkit.process=orm
toolkit.useAllProcessors=false

Progress message: Preparing reference and input
Progress message: Running alignment
Progress: 0%
Progress: 1%
Progress: 2%

Progress: 98%
Progress: 99%
Progress message: Preparing results
Progress message: Done

Ouput Sam file: test2.sam

You will need implement pipeline to convert sam to binary sam file then you could use bam stats scripts.

xsq-tools on CentOS Linux 6

No Comments

Follow this unofficial tutorial step by step to run xsq-tools on CentOS Linux 6 and OpenSuse Linux

1. If you are using CentOS Linux 6, OpenSuse Linux check which GNU LIBC version you have   installed. you can use this command

[jacob@localhost xsq-tools]$ ldd – -version
ldd (GNU libc) 2.12

Copyright (C) 2010 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.

to run xsq-tools you will need GNU libc version 2.5+ !!

2. Get Official xsq-tools software package distribution from LifeTech/ABI

3. Open your favorite Linux console command and untar/unzip xsq-tools package.

4. If you want to convert your xsq solid 5500 output files you will need to use the convertFromXSQ.sh shell script.

5. Backup the official convertFromXSQ.sh shell script.

6. Download unofficial convertFromXSQ.sh shell script and save in your official xsq-tools directory,

7. Download script from here

8. Rename script convertFromXSQ.sh1.txt to convertFromXSQ.sh

9. Set execution permission to shell script ( chmod +x convertFromXSQ.sh )

10. Change to xsq-tools directory using linux command line (cd XSQ_Tools)

11. Extras: You can run unofficial convertFromXSQ.sh shell script like this samples

$ remember, cd XSQ-Tools first

(A) $ ./convertFromXSQ.sh -c data/Frag.xsq

(B, from any location)

$ convertFromXSQ.sh -c /home/jacob/XSQ-Tools/data/Frag.xsq -o $HOME

(C) $ ./convertFromXSQ.sh – -rootXSQ `pwd` -c data/Frag.xsq (- – rootXSQ paramater is useful to myXSQ application)

That’s all.

Notes:

[1] If you do not set XSQ_TOOLS environment variable, the  unofficial convertFromXSQ.sh set XSQ_TOOLS environment variable  automatically.

[2] Follow LifeTech/ABI official readme documentation to install xsq-tools, the   unofficial script updates your .bashrc ,bash_profile in user home   directories but I disabled exporting PATH environment variable because I   need to do some tests, if you want to run unofficial convertFromXSQ.sh from any   location you will need to update and export your PATH environment   variable manually.

I hope that help you , it works for me !!

http://solid.community.appliedbiosystems.com/groups/bioinformatics/blog/2011/11/04/script-launch-xsqtools

Follow this unofficial tutorial step by step to run xsq-tools on CentOS Linux 6 and OpenSuse Linux

1. If you are using CentOS Linux 6, OpenSuse Linux check which GNU LIBC version you have   installed. you can use this command

[jacob@localhost xsq-tools]$ ldd – -version
ldd (GNU libc) 2.12

Copyright (C) 2010 Free Software Foundation, Inc.
This is free software; see the source for copying conditions.  There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.

to run xsq-tools you will need GNU libc version 2.5+ !!

2. Get Official xsq-tools software package distribution from LifeTech/ABI

3. Open your favorite Linux console command and untar/unzip xsq-tools package.

4. If you want to convert your xsq solid 5500 output files you will need to use the convertFromXSQ.sh shell script.

5. Backup the official convertFromXSQ.sh shell script.

6. Download unofficial convertFromXSQ.sh shell script and save in your official xsq-tools directory,

7. Download script from here

8. Rename script convertFromXSQ.sh1.txt to convertFromXSQ.sh

9. Set execution permission to shell script ( chmod +x convertFromXSQ.sh )

10. Change to xsq-tools directory using linux command line (cd XSQ_Tools)

11. Extras: You can run unofficial convertFromXSQ.sh shell script like this samples

$ remember, cd XSQ-Tools first

(A) $ ./convertFromXSQ.sh -c data/Frag.xsq

(B, from any location)

$ convertFromXSQ.sh -c /home/jacob/XSQ-Tools/data/Frag.xsq -o $HOME

(C) $ ./convertFromXSQ.sh – -rootXSQ `pwd` -c data/Frag.xsq (- – rootXSQ paramater is useful to myXSQ application)

That’s all.

Notes:

[1] If you do not set XSQ_TOOLS environment variable, the  unofficial convertFromXSQ.sh set XSQ_TOOLS environment variable  automatically.

[2] Follow LifeTech/ABI official readme documentation to install xsq-tools, the   unofficial script updates your .bashrc ,bash_profile in user home   directories but I disabled exporting PATH environment variable because I   need to do some tests, if you want to run unofficial convertFromXSQ.sh from any   location you will need to update and export your PATH environment   variable manually.

I hope that help you , it works for me !!

Talleres Internacionales de Bioinformática / International Workshops on Bioinformatics – 2012

No Comments



Nos es grato informarle que el Nodo Nacional de Bioinformática
(NNB-UNAM) y la Sociedad Iberoamericana de Bioinformática (SOIBio), con
el apoyo del Centro de Ciencias Genómicas (CCG-UNAM), el Instituto de
Biotecnología (IBt-UNAM), la Licenciatura en Ciencias Genómicas
(LCG-UNAM) y EMBnet organizan los Talleres Internacionales de
Bioinformática - 2012, que se llevarán a cabo del 16 al 27 de enero de
2012 en las instalaciones del CCG en Cuernavaca Morelos, México.

En la semana del 16 al 20 de Enero se impartirán 2 talleres de nivel
básico dirigido a principiantes en el área. En la semana del 23 al 27 de
Enero se ofrecerán 2 talleres especializados, uno dirigido a gente
trabajando en análisis de datos generados por secuenciadores de nueva
generación y otro para Administradores de Sistemas.

Para los detalles de los programas y procedimiento de registro, favor de
visitar el sitio web del evento:

http://congresos.nnb.unam.mx

Comité Organizador
TIB -2012
---------------------------
We are pleased to announce that the National Node of Bioinformatics
(NNB-UNAM) and the Iberoamerican Society of Bioinformatics (SOIBio),
with support from the Center for Genomic Sciences (CCG-UNAM), the
Institute of Biotechnology (IBT-UNAM), the Undergraduate Program in
Genomics Sciences (LCG-UNAM) and the EMBnet, organize the “International
Workshops on Bioinformatics – 2012” which will be held from January 16th
to 27th, 2012 in the CCG facilities in Cuernavaca Morelos, Mexico.

Two Basic or introductory workshops will be offered during the first
week (January 16th-20th), geared towards beginners in the field. Two
advanced workshops will be offered during the second week (January 23rd
to 27th), one designed for people working with data generated by next
generation sequencers, and the other for System Administrators.

For the details on the programs and registration procedure, please visit
the event website:

http://congresos.nnb.unam.mx

Organizing Committee
IWB - 2012

myXSQ

No Comments

En mi tiempo libre desarrolle una aplicación, myXSQ , que básicamente permite convertir fácilmente el nuevo formato XSQ a CSFASTA+QUAL que genera como resultado del proceso de secuenciación el instrumento SOLiD 5500xl.

BioScope: validar genomas de referencia

No Comments

Comentando con Leonardo Varuzza , le decía que el plugin de ma.to.bam de BioScope generaba un error y aunque nuestro mapeo a nuestra referencia era correcto y completo , nuestro formato bam no se generaba y por ende cualquier otro tipo de análisis que dependiera de este formato ya no seria viable.

Pues una sugerencia de Leonardo, gracias Leonardo :D , era verificar el genoma de referencia y más pronto que un calcetín recordé el script “reference_validation.pl” que en ocasiones pasadas lo había probado con buenos resultados.

En ocasiones puede que por las prisas no le demos un buen vistazo a nuestras referencias, y BioScope tiende a darnos sorpresas al intentar generar los ficheros bam resultantes del proceso de mapeo hacia nuestra referencia.

Para ello una buena solución pueden ser las siguientes:

1) Desarrollas tu propio script y validas el formato fasta de tu referencia.

2) Usas el script “reference_validation.pl” que viene con BioScope el cual precisamente permite validar tu genoma de referencia.

Para evitar reinventarnos la rueda usaremos la opción 2.

un ejemplo:

$reference_validation.pl -r ATH_TAIR10.dna.complete.fa -o ATH_TAIR10.dna.complete.valido.fa

Hecho lo anterior no debes tener problema al usar BioScope en tus análisis.

FAQ

¿Donde existe el script?

En tu cluster de computo , previa instalación de BioScope.

¿Cómo lo uso?

Así no mas

$reference_validation.pl -r miGenoma.fasta -o miGenomaVALIDO.fasta

el parámetro -r es para definir tu genoma de referencia
el parámetro -o es para definir el genoma de referencia valido y usable en BioScope

Amenaza de Explosivos en Cinvestav Langebio Guanajuato

2 Comments

Todo transcurrió el sábado 27 de Agosto del presente año 2011, me dirigía hacia el Cinvestav Langebio básicamente apoyar en algunas cuestiones laborales , al llegar a mi trabajo, alrededor de las 8:15 am nos comentaron que no había acceso al laboratorio ya que había una amenaza de bomba, para ese entonces , el personal del laboratorio y vigilancia ya había realizado el contacto con las autoridades correspondientes.

Posteriormente llegaron cuerpos de la policía municipal , protección civil, bomberos, policía federal y el ejercito mexicano.

Todo mundo con la inquietud, tensión e incertidumbre de la posible amenaza de bomba.

Tome algunas imágenes y vídeo con mi iPhone:

Posteriormente se dio la orden de desalojar los laboratorios para evitar cualquier daño a la integridad de trabajadores (internos y externos) y personal en general de las instituciones.

No cabe duda que la inseguridad no solo ocurre en ciudades grandes como México D.F. , Monterrey y Guadajalara, tengamos muy en cuenta que los delincuentes están a la orden del día casi en cualquier lugar y a cualquier hora, sin embargo personal del todo el Cinvestav, el Langebio, autoridades federales y estatales todos comprometidos apoyando en la medida de lo necesario con un poco de miedo por la bomba , pero aún así con la camiseta puesta.

UNC researchers identify seventh and eighth bases of DNA

11 Comments

For decades, scientists have known that DNA consists of four basic units — adenine, guanine, thymine and cytosine. In recent history, scientists have expanded that list from four to six. Now researchers from the UNC School of Medicine have discovered the seventh and eighth bases of DNA.

UNC researchers identify seventh and eighth bases of DNA

Yi Zhang, PhD Media contact: Les Lang, (919) 966-9366, llang@med.unc.edu

Thursday July 21, 2011

CHAPEL HILL, N.C. – For decades, scientists have known that DNA consists of four basic units — adenine, guanine, thymine and cytosine. Those four bases have been taught in science textbooks and have formed the basis of the growing knowledge regarding how genes code for life. Yet in recent history, scientists have expanded that list from four to six.

Now, with a finding published online in the July 21, 2011, issue of the journal Science, researchers from the UNC School of Medicine have discovered the seventh and eighth bases of DNA.

These last two bases – called 5-formylcytosine and 5 carboxylcytosine – are actually versions of cytosine that have been modified by Tet proteins, molecular entities thought to play a role in DNA demethylation and stem cell reprogramming.

Thus, the discovery could advance stem cell research by giving a glimpse into the DNA changes – such as the removal of chemical groups through demethylation – that could reprogram adult cells to make them act like stem cells.

“Before we can grasp the magnitude of this discovery, we have to figure out the function of these new bases,” said senior study author Yi Zhang, PhD, Kenan Distinguished Professor of biochemistry and biophysics at UNC and an Investigator of the Howard Hughes Medical Institute. “Because these bases represent an intermediate state in the demethylation process, they could be important for cell fate reprogramming and cancer, both of which involve DNA demethylation.” Zhang is also a member of the UNC Lineberger Comprehensive Cancer Center.

Holden Thorp, UNC chancellor and Kenan Professor of Chemistry in the College of Arts and Sciences, said Zhang’s discovery was a significant development that holds promise for a variety of areas. “Research such as this, at the intersection of chemistry, biology, physics and medicine, show the value of scientists like Yi Zhang who tackle both practical problems and fundamental scientific mysteries,” said Thorp. ”Having devoted a large part of my research career to understanding the fundamental processes in nucleobase and nucleotide oxidation, I’m particularly excited to see this signature result at Carolina. The concept of sequential nucleobase oxidation as an epigenetic signal is tantalizing.”

Much is known about the “fifth base,” 5-methylcytosine, which arises when a chemical tag or methyl group is tacked onto a cytosine. This methylation is associated with gene silencing, as it causes the DNA’s double helix to fold even tighter upon itself. Last year, Zhang’s group reported that Tet proteins can convert 5 methylC (the fifth base) to 5 hydroxymethylC (the sixth base) in the first of a four step reaction leading back to bare-boned cytosine. But try as they might, the researchers could not continue the reaction on to the seventh and eighth bases, called 5 formylC and 5 carboxyC.

The problem, they eventually found, was not that Tet wasn’t taking that second and third step, it was that their experimental assay wasn’t sensitive enough to detect it. Once they realized the limitations of the assay, they redesigned it and were in fact able to detect the two newest bases of DNA. The researchers then examined embryonic stem cells as well as mouse organs and found that both bases can be detected in genomic DNA.

The finding could have important implications for stem cell research, as it could provide researchers with new tools to erase previous methylation patterns to reprogram adult cells. It could also inform cancer research, as it could give scientists the opportunity to reactivate tumor suppressor genes that had been silenced by DNA methylation.

The research was funded by the Howard Hughes Medical Institute and the National Institutes of Health. Study co-authors from UNC include Shinsuke Ito, PhD; Li Shen, PhD; Susan C. Wu, PhD; Leonard B. Collins and James A. Swenberg, PhD.

¿Cómo instalar TopHat para RNA-Seq sin morir en el intento?

1 Comment

TopHat te permite alinear lecturas de RNA-Seq a un genoma para identificar “splice junctions” de exon a exon y está desarrollado usando parte del código de Bowtie.

TopHat lo puedes ejecutar en Linux y Mac OS X, TopHat necesita de SamTools para compilarse.

Descomprime el archivo tar.gz de TopHat , básicamente tienes a la mano el código fuente de TopHat escrito en C++ .

Para evitar problemas con la compilación de TopHat , abre el archivo ax.bam.m4 , básicamente contiene los tests para probar la librería de SamTools (libbam.a) y es una manera de darte cuenta que tienes que hacer ciertas burradas para que TopHat pueda compilarse usando los fuentes de SamTools.

un extracto de la macro :

dnl first we check the system location for bam libraries
if test “$ac_bam_path” != “”; then
BAM_LDFLAGS=”-L$ac_bam_path/lib”
BAM_CPPFLAGS=”-I$ac_bam_path/include”
else
for ac_bam_path_tmp in /usr /usr/local /opt /opt/local ; do
if test -d “$ac_bam_path_tmp/include/bam” && test -r “$ac_bam_path_tmp/include/bam”; then
BAM_LDFLAGS=”-L$ac_bam_path_tmp/lib”
BAM_CPPFLAGS=”-I$ac_bam_path_tmp/include”
break;
fi
done
fi

Se puede observar claramente que es necesario los directorios include/bam y lib.

No creí que tuvieras :O que crear un directorio include/bam y lib para ahí copiar las cabeceras de los fuentes en C++ de SamTools y la librería (libbam.a) para que TopHat pudiera ser capaz de  si quiera hacer el configure.. ¿algún voluntario para añadir configure a SamTools?

La solución es mas sencilla pero parecía muy compleja en un inicio , solo tienes que compilar SamTools , crear un par de directorios y copiar unos cuantos archivos y asunto solucionado.

Los pasos son:

1. Descomprimir SamTools ( tar zxvf  samtools-0.1.16.tar.gz)

2. cd samtools-0.1.16

3. ejecuta make  ,espera que termine de compilar y al termino observaras el binario samtools en el directorio actual.

4. crea 2 directorios “include/bam”  y otro directorio “lib”

samtools-0.1.16 $ mkdir -p include/bam; mkdir lib

5. copia todos las cabeceras de los fuentes hacia include/bam

samtools-0.1.16 $ cp *.h include/bam/; cp libbam.a lib/

6. Descomprime TopHat de la misma manera que descomprimiste SamTools, cámbiate al directorio de TopHat y ejecuta lo siguiente:

./configure – -with-bam=/home/jacob/Downloads/bio/galaxy/dependencys/samtools/samtools-0.1.16

a continuación veras el chequeo de las dependencias que necesita TopHat para compilarse, si no hace falta nada más deberás ver la siguiente salida:

– tophat 1.3.1 Configuration Results –
C compiler:          gcc -Wall -Wno-strict-aliasing -m64 -O3  -DNDEBUG
C++ compiler:        g++ -Wall -Wno-strict-aliasing -m64 -O3  -DNDEBUG -I/home/jacob/Downloads/bio/galaxy/dependencys/samtools/samtools-0.1.16/include
GCC version:         gcc (Ubuntu/Linaro 4.4.4-14ubuntu5) 4.4.5
Host System type:    x86_64-unknown-linux-gnu
Install prefix:      /usr/local
Install eprefix:     ${prefix}

7. Ejecuta make para compilar los fuentes.

8. Ejecuta el test de TopHat, para ello descarga y descomprime en el directorio de tu elección los archivos de ejemplo.

Recuerda que es necesario añadir al PATH el directorio donde se encuentran los binarios de TopHat o prueba ejecutar el comando sudo make install para instalar los programas de TopHat en /usr/local

$ tophat -r 20 test_ref reads_1.fq reads_2.fq

[Mon Jul 18 23:42:45 2011] Beginning TopHat run (v1.3.1)
———————————————–
[Mon Jul 18 23:42:45 2011] Preparing output location ./tophat_out/
[Mon Jul 18 23:42:45 2011] Checking for Bowtie index files
[Mon Jul 18 23:42:45 2011] Checking for reference FASTA file
[Mon Jul 18 23:42:45 2011] Checking for Bowtie
Bowtie version:             0.12.7.0
[Mon Jul 18 23:42:45 2011] Checking for Samtools
Samtools Version: 0.1.16
[Mon Jul 18 23:42:45 2011] Generating SAM header for test_ref
[Mon Jul 18 23:42:45 2011] Preparing reads
format:         fastq
quality scale:     phred33 (default)
Left  reads: min. length=75, count=100
Right reads: min. length=75, count=100
[Mon Jul 18 23:42:45 2011] Mapping left_kept_reads against test_ref with Bowtie

9. Observa y analiza los resultados en el directorio tophat_out

10. Fin para el propósito de este post y problema solucionado.

Protected: Setting Up your iPad for use with your SOLiD 5500 Instrument

Enter your password to view comments.

This post is password protected. To view it please enter your password below:


Workshop “Sequencing Data Visualization for SOLiD Users” México 2011

No Comments

Muy rápido pasa el tiempo y bien dice la gente que recordar es vivir.

El pasado 4 de Julio asistí junto con el personal del área de genomica y estudiantes de doctorado al Workshop “Sequencing Data Visualization for SOLiD Users” el cual se llevo a cabo en las oficinas de Life Technologies de México.

Apenas llegue a mi habitación cuando ya estaba instalando algunos de los programas en mi computadora portátil y la mac.

llegamos algo cansados y teníamos hambre por lo que decidimos cenar y disfrutar de una muy buena platica con todos , después ya bien comiditos nos fuimos a instalar las computadoras con los programas necesarios para el Workshop, yo me desvele un poco más tiempo ya que una computadora estaba dando mucha guerra pero como dicen que no hay peor lucha que la que no se hace finalmente quedo lista.

Leonardo inicio con el Workshop hablando sobre los análisis de los datos de Bioinformática en general, muy buena platica.

El workshop estuvo bien , estuvimos usando varias herramientas para visualización de secuencias como Magic Viewer, ChipViewer , Tablet y BamViewer , está platica fue impartida por la gente de Winter Genomics, también ellos hablaron sobre Galaxy solo que por alguna extraña razón el sitio web oficial de Galaxy se bloqueo, lo bueno es que tenia configurado Galaxy en mi propia computadora portátil por lo que les pasamos la dirección de mi computadora para que todos pudieran entrar a Galaxy y seguir trabajando con el WorkShop.

Alrededor de las 2:15 salimos a comer , todos estuvimos invitados a comer por parte de  Life Technologies México , gracias.

Al termino de la comida regresamos a la siguiente parte del workshop, Leonardo realizo una demostración del nuevo software de análisis de datos de SOLiD “LifeScope”.

De imprevisto me anime a participar complementando un poco sobre Galaxy y BioScope, pero mi computadora portátil no pudo reconocer el proyector por lo que solo use la computadora de Leonardo para presentar algo rápido.

Comente brevemente 3 puntos:

  1. BioScope ahora puede ser capaz de correr en Ubuntu Linux Desktop y Servidor para ello hice algunos cambios en los scripts de instalación de BioScope.
  2. Es posible usar TMAP , la herramienta para mapear secuencias de Ion Torrent dentro Galaxy así como Velvet y Mira , para ello visita el siguiente enlace.
  3. Desarrolle un pequeño pipeline que permite generar las secuencias de referencia en el formato que Galaxy necesita para ser usadas dentro de Galaxy con Blast , para descargar o verificar el software haz clic aquí.

Al termino hicieron la entrega de constancias de participación y nos despedimos , no sin antes tomar un par de fotos para el recuerdo.

Saludos a Guillermo , Rodrigo y Herbert García  ;)

Me dio mucho gusto saludar a Carol Carrillo y Rodrigo García.

Gracias todos por el Workshop , la asistencia y la convivencia muy agradable , espero que se vuelva a promover y organizar este tipo de eventos que nos permiten conocer y compartir la información que es provechosa para todos, desde luego cuenten con mi participación

Gracias.

[ Unofficial ] BioScope goes Ubuntu Linux

No Comments

– temp

[ Bug #1 Fixed ] RPy – Python interface to the R Programming Language

No Comments

En días pasados estuve trabajando un poco con Galaxy localmente en mi computadora, sin embargo la instalación normalita es muy sencilla pero si quieres algo ya mas “pro” es necesario leer la documentación del wiki, pero un problema que sucedió fue que al tratar de instalar la interfaz de programación en Python para R salieron algunos errores en el código de RPy por lo que esto me fastidio y tuve que, como regularmente me pasa, arreglar el problema.

RPy necesita R compilado como librería compartida para eso necesitas compilar R con:

1. $./configure – -enable-R-shlib – -prefix=/usr

1.1 $make ; $make install (usar sudo o root)

2. establecer la variable de entorno para R (RHOME , R_HOME),en mi caso :

$sudo vim /etc/profile.d/libR.sh
#!/bin/bash
export RHOME=/usr/lib64/R
export R_HOME=$RHOME
export PATH=$PATH:$RHOME/bin

establecí 2 variables puesto que por el momento olvide el nombre de la variable de entorno para R y como buen mexicano pensé “naa..cualquiera de esas 2 variables (RHOME, R_HOME) debe jalar..”

3. Configuración del entorno para R

$source /etc/profile.d/libR.sh
$sudo vim /etc/ld.so.conf.d/libR.conf
solo añadir “/usr/lib64/R/lib”

$ sudo ldconfig

Ahora si ya podemos instalar RPy

Después de descomprimir RPy y tratar de instalar

sudo python setup.py install
RHOMES= [ ]
DEBUG= True
Setting RHOMES to ['/usr/lib64/R']
Traceback (most recent call last):
File “setup.py”, line 109, in <module>
RVERSION = rpy_tools.get_R_VERSION(RHOME, force_exec=True)
File “/home/jacob/Downloads/bio/galaxy/dependencys/rpy/rpy-1.0.3/rpy_tools.py”, line 103, in get_R_VERSION
raise RuntimeError(“Couldn’t obtain version number from output\n”
RuntimeError: Couldn’t obtain version number from output
of `R –version’.

$ R –version
R version 2.10.0 (2009-10-26)

se ve claramente que RPy al tratar de obtener la versión no puede !! y es que si analizas en detalle la salida y el código fuente en python se observa que no estaba pensado para versiones más allá del rango 0..9

veamos la linea 101 en el código que genera el problema:

ln101: version = re.search(” +([0-9]\.[0-9]\.[0-9])”, output)

la expresión no corresponde a 2.10.0 , por lo que solo es necesario añadir otro rango en la expresión:

ln101: version = re.search(” +([0-9]\.[0-9][0-9]\.[0-9])”, output)

Ahora RPy ya puede leer algo como R version 2.13.0 (2011-04-13)

Un buen amigo me comento que también es mejor usar :

version = re.search(” +(\d+\.\d+\.\d+)”, output)

Interpretome – Explore your genome !!!

No Comments

Load your genome file and choose some of the analyses above.

Interpretome is intended for educational and research purposes only.

No information should be considered diagnostic and as with any genetic testing service, the interpretation is not regulated by the FDA.

How is my data kept private?

Your genome will not be sent to any server, it remains on your computer.

Compatibility

This website requires an HTML5 compatible browser, including current versions of:

  • Google Chrome (≥ 6.0)
  • Mozilla Firefox (≥ 4.0)
  • RockMelt
  • (Safari coming soon with Safari 6!)
  • Older Entries

    This is work personal web page. Things said here do not represent the position of my employer.