Configurer les séquences pour les aligner

Configurer les séquences pour les aligner

Laurent Bloch

Pour programmer un algorithme génial qui méritera le prix Turing [1], il faudra souvent avoir au préalable acquis les données, généralement depuis un ou plusieurs fichiers, et les avoir mises sous la forme appropriée. C'est un travail peu glorieux, mais ce n'est pas forcément très facile, cela prend du temps et des lignes de code, et oblige à se faire des idées sur le système d'exploitation [2]. C'est l'objet du présent article.

Codage, caractères, glyphes

Cet article vient à la suite de Premiers programmes en Rust [3], de Programmation Rust, suite et de Codage de séquences biologiques avec Rust [4]. Je ne suis pas encore arrivé au coeur du sujet, mais au seuil : les programmes de cet épisode peuvent lire un fichier au format FASTA [5] qui contient une (unique) séquence, vérifier que la première ligne est bien conforme au format, l'extraire pour éventuellement documenter la séquence, ensuite retirer du texte proprement dit de la séquence les caractères de saut de ligne (LF, Line Feed) afin d'obtenir une séquence propre, prête à subir les exactions de Messieurs Needleman et Wunsch, ou, si l'on préfère, de Messieurs Smith et Waterman, ce que je prévois de faire dans un prochain épisode.

Pour suivre les conseils de lecteurs compétents, j'ai renoncé au type chaîne de caractères : en effet les caractères de Rust obéissent à la norme UTF-8, qui leur permet d'occuper jusqu'à quatre octets, ce qui est encombrant, mais surtout cette occupation est de taille variable, un caractère peut occuper un, deux, trois ou quatre octets, selon sa signification [6]. Pour éviter ces caractères de taille variable, j'ai décidé d'utiliser pour coder les nucléotides le type unsigned 8, qui correspond à un octet. Je sais qu'il est possible d'utiliser des codages encore plus condensés, mais après tout les algorithmes envisagés valent aussi pour les acides aminés, alors vivent les octets.

Martin Larralde m'a conseillé « de créer un wrapper de Vec, et d'implémenter [moi-même] les traits Display et Debug, de manière à pouvoir visualiser la séquence sous forme de texte (ce qui se fait de façon triviale avec std::str::from_utf8_unchecked , si on respecte l'invariant que le Vec ne contient que des caractères alphanumériques). » Bon, j'ai bien utilisé std::str::from_utf8_unchecked, mais le wrapper attendra que je me sois un peu perfectionné en Rust.

Typage et dépendances

La grande originalité de Rust, et sa qualité exclusive, est son modèle de mémoire, qui garantit à la compilation l'absence de débordement de buffer ou de toute autre zone de mémoire, et aussi le fait qu'un seul sous-programme puisse, à un instant donné, modifier la valeur d'une variable : toute valeur appartient à une variable et une seule, qui est limitée à une portée donnée par la syntaxe. Si un sous-programme passe une de ses variables à un autre sous-programme, ce dernier en devient le propriétaire, et le premier ne peut plus modifier sa valeur.

Ces caractéristiques font la sûreté du langage, mais elles ont un prix. Pour la cinématique des données, il faut y réfléchir à deux fois avant de passer une variable en argument à un autre sous-programme, parce qu'après on ne pourra plus y toucher ; on peut souvent s'en tirer avec des références, comme en Ada. C prétend avoir un typage fort : cette assertion est spécieuse, parce que si le typage est fort, il peut facilement être contourné pour provoquer les failles de sécurité qui font la joie des pirates. Rust ne plaisante pas avec le typage, on n'y coupe pas. Certaines méthodes de Vec<u8> (données sur le tas) renvoient des tranches (slices) de type array [u8] (données sur la pile), il faut leur appliquer la méthode to_vec() (conversion d'array en Vec) pour les utiliser, ainsi :

ident = (fasta_sequence.split_at(index).0).to_vec();
sequence_nuc = (fasta_sequence.split_at(index).1).to_vec();

La méthode fasta_sequence.split_at(index) renvoie un tuple (type d'objet commode et indulgent que Rust fournit au programmeur pour le consoler de ses souffrances) de deux éléments de type array [u8] dont le premier élément contient les premiers éléments du vecteur fasta_sequence jusqu'à l'indice index (non compris), et le second les éléments depuis index (compris) jusqu'à fasta_sequence.len() (la longueur totale du vecteur), non compris. Finalement c'est bien conçu, mais ces deux lignes m'ont fait transpirer avant que j'aie compris comment cela marchait.

Incidemment, cette notation des méthodes, empruntée à la programmation par objets, est bien commode, mais Rust n'est pas un langage à objets, avec toutes ces histoires d'héritage multiple et de surcharge d'opérations qui ont finalement introduit plus de confusion qu'autre chose.

Le programme

Voici le corps du module fasta_files_mgt. Reste à écrire le module sequences_matrix, qui soumettra nos deux séquences à l'algorithme de Messieurs Needleman et Wunsch, ou à celui, cousin, de Messieurs Smith et Waterman. Les autres fichiers, inchangés, sont ceux de l'article Codage de séquences biologiques avec Rust [7], où l'on trouvera aussi des séquences au format FASTA pour essayer.

Les pages Web dont je me suis inspiré :
- Lire un fichier d'octets [8].
- Lire et décrire un fichier [9].

// src/fasta_files_mgt/fasta_open_read.rs :

pub mod fasta_open_read {

     use std::env;
     use std::fs;
     use std::fs::File;
     use std::io::Read;
     use std::fs::Metadata;
     use std::str;

use crate::sequences_matrix::build_sequences_matrix::build_sequences_matrix;

     pub struct Config {
        pub filename1: String,
        pub filename2: String,
     }

     impl Config {
        pub fn new(args: &[String]) -> Config {
           if args.len() < 3 {
             panic!("pas assez d'arguments");
           }
           let filename1 = args[1].clone();
           let filename2 = args[2].clone();

           Config { filename1, filename2 }
        }
     }

     pub fn get_filenames() {
        let args: Vec<String> = env::args().collect();
        let config = Config::new(&args);

println!("Alignement de {} avec {} \n", config.filename1, config.filename2);

        let mut data1 = fasta_open_file(config.filename1);
        let mut data2 = fasta_open_file(config.filename2);
        read_seq(&mut data1, &mut data2);
     }
     fn fasta_open_file(filename: String) -> (File, Metadata) {
        let metadata = fs::metadata(&filename).expect("Fichier non trouvé.");
        let filelength = metadata.len();

        let f = File::open(filename).expect("Fichier non trouvé !");
        (f, metadata)
     }

   // "read_seq" lit chacun des deux fichiers au format FASTA et ses métadonnées.
     fn read_seq(data1: &mut (File, Metadata), data2: &mut (File, Metadata)) {
        let mut seq1 = vec![0; data1.1.len() as usize];
        let mut seq2 = vec![0; data2.1.len() as usize];
        data1.0.read(&mut seq1).expect("débordement de buffer");
        data2.0.read(&mut seq2).expect("débordement de buffer");

        let seq1_str = unsafe {
           str::from_utf8_unchecked(&seq1)
        };
        let seq2_str = unsafe {
           str::from_utf8_unchecked(&seq2)
        };

        println!("1er caractère : {:?}", &seq1[0]);
        println!("1er caractère : {:?}", &seq1_str.bytes().nth(0));
        let sequence1 = split_seq(seq1);
        let sequence2 = split_seq(seq2);
        print_seq(sequence1);
        print_seq(sequence2);
     }

   // D'un fichier au format FASTA, extraire d'une part la première ligne, de commentaire,
   // identifiée par le caractère ">" en première position, dont le texte documentera la
   // séquence sous le nom "ident", d'autre part les lignes suivantes, qui contiennent la
   // séquence proprement dite des nucléotides (ou des acides aminés), sous le nom
   // "sequence_nuc". Après traitement de "sequence_nuc" par la fonction "remove_LF",
   // la fonction "split_seq" renvoie le tuple "(ident, sequence_clean)".

     fn split_seq(fasta_sequence: Vec<u8>) -> (Vec<u8>, Vec<u8>) {
           let mut ident: Vec<u8> = vec![0, 1, 2];
           let mut sequence_nuc: Vec<u8> = vec![3, 4, 5];
           if fasta_sequence[0] == 62 {
             let index = fasta_sequence.iter().position(|x| *x == 10).unwrap();
             println!("Position du premier LF : {}", index);
             ident = (fasta_sequence.split_at(index).0).to_vec();
             sequence_nuc = (fasta_sequence.split_at(index).1).to_vec();
           }
        let sequence_clean: Vec<u8> = remove_LF(&sequence_nuc);
        (ident, sequence_clean)
     }
   // Cette fonction "remove_LF" reçoit les lignes de nucléotides ou d'acides aminés
   // et en retire les caractères LF (10 selon le code Ascii) pour former une seule ligne.
     fn remove_LF(sequence_nuc: &Vec<u8>) -> Vec<u8> {
        let mut sequence_clean: Vec<u8> = (&sequence_nuc).to_vec();
        for i in (0..sequence_clean.len()).rev() {
           if sequence_clean[i] == 10 {
             sequence_clean.remove(i);
           }
        }
        sequence_clean
     }

   // "print_seq" affiche une séquence selon différents formats.
     fn print_seq(sequence: (Vec<u8>, Vec<u8>)) {
             println!("Ident : {:?}", sequence.0);
             println!("Séquence : {:?}", sequence.1);
             let ident_str = unsafe {
                str::from_utf8_unchecked(&sequence.0)
             };
             let sequence_str = unsafe {
                str::from_utf8_unchecked(&sequence.1)
             };
             println!("Ident : {}", &ident_str);
             println!("Séquence : {}", &sequence_str);
     }

}

Laurent Bloch

Paru le 3 juillet 2021 sur le site de Laurent Bloch.
https://laurentbloch.net/MySpip3/Configurer-les-sequences-pour-les-aligner

Cet article est sous licence Creative Commons (selon la juridiction française = Paternité - Pas de Modification). http://creativecommons.org/licenses/by-nd/2.0/fr/

NOTES

[1] https://fr.wikipedia.org/wiki/Prix_Turing

[2] https://laurentbloch.net/MySpip3/Systeme-et-reseau-histoire-et-technique

[3] https://laurentbloch.net/MySpip3/Premiers-programmes-en-Rust

[4] https://laurentbloch.net/MySpip3/Codage-de-sequences-biologiques-avec-Rust

[5] https://fr.wikipedia.org/wiki/FASTA_( format_de_fichier)

[6] J'aime bien la définition du caractère par Yannis Haralambous, cet érudit du codage et des fontes : un caractère est une entité abstraite, qui a une signification, et c'est une classe d'équivalence de glyphes. Les glyphes sont des signes visibles, susceptibles d'être imprimés ou dessinés. Il y a des exceptions : caractères sans glyphes (saut de ligne, signes diacritiques qui se composent avec un autre caractère...), glyphes qui représentent plusieurs caractères (ligatures...). Les langues orientales ajoutent à cette richesse.

[7] https://laurentbloch.net/MySpip3/Codage-de-sequences-biologiques-avec-Rust

[8] https://linuxfr.org/forums/programmationautre/posts/rust-lire-des-donnees-de-type-i8-depuis-un-fichier

[9] https://www.it-swarm-fr.com/fr/file-io/quelle-est-la-maniere-de-facto-de-lire-et-decrire-des-fichiers-dans-rust-1.x/1054845808/

Association EPI
Septembre 2021

Informatique et TIC

Articles