Added unit test for genbank fetching

2025-01-02 18:49:23 +00:00 · 2025-01-02 18:49:23 +00:00 · 18a13083dc
commit 18a13083dc
parent 7b079650e0
8 changed files with 52 additions and 29 deletions
--- a/.vscode/settings.json
+++ b/.vscode/settings.json
@ -0,0 +1,4 @@
 {
    "python.testing.unittestEnabled": false,
    "python.testing.pytestEnabled": true
 }
--- a/pyproject.toml
+++ b/pyproject.toml
@ -38,7 +38,7 @@ addopts = [
 asyncio_mode = "auto"
 [tool.pylint.main]
-source-roots = src
+source-roots = "src"
 [tool.pylint.format]
 # Maximum number of characters on a single line.
--- a/requirements.txt
+++ b/requirements.txt
@ -1,2 +1,4 @@
 requests
-biopython
+biopython
 pytest
 pytest-asyncio
--- a/src/mlstmyfasta/engine/annotations/init.py
+++ b/src/mlstmyfasta/engine/annotations/init.py
--- a/src/mlstmyfasta/engine/annotations.py
+++ b/src/mlstmyfasta/engine/annotations.py
@ -0,0 +1,34 @@
 from typing import Any, Generator, List, Sequence
 from Bio.Align import PairwiseAligner
 from Bio import Entrez
 from Bio import SeqIO
 from mlstmyfasta.engine.data.genomics import Strand, StrandFeature, get_feature_coding
 async def fetch_ncbi_genbank(genbank_id: str) -> Strand:
    with Entrez.efetch(db="nucleotide", id=genbank_id, rettype="gb", retmode="text") as fetch_stream:
        record = SeqIO.read(fetch_stream, "genbank")
        sequence_features = list()
        for feature in record.features:
            start = int(feature.location.start)
            end = int(feature.location.end)
            sequence_features.append(StrandFeature(
                type=feature.type,
                start=start,
                end=end+1,  # Position is exclusive
                feature_properties=feature.qualifiers
            ))
        return Strand(name=genbank_id, coding=str(record.seq), features=sequence_features)
 async def annotate_from_genbank(genbank_id: str, query_coding: str):
    strand = await fetch_ncbi_genbank(genbank_id=genbank_id)
    aligner = PairwiseAligner("blastn")
    aligner.mode = "local"
    for feature in strand.features:
        feature_coding = get_feature_coding(strand=strand, feature=feature)
        if len(aligner.align(query_coding, feature)) < 1:
            # TODO implement a failsafe
            continue
        sequence = sorted(aligner.align(query_coding, feature))[0]
--- a/src/mlstmyfasta/engine/annotations/wgs.py
+++ b/src/mlstmyfasta/engine/annotations/wgs.py
@ -1,24 +0,0 @@
 from typing import Any, Generator, List, Sequence
 from Bio.Align import PairwiseAligner
 from Bio import Entrez
 from Bio import SeqIO
 from mlstmyfasta.engine.data.genomics import Strand, StrandFeature
 async def fetch_ncbi_genbank(genbank_id: str) -> Strand:
    with Entrez.efetch(db="nucleotide", id=genbank_id, rettype="gb", retmode="text") as fetch_stream:
        record = SeqIO.read(fetch_stream, "genbank")
        sequence_features = list()
        for feature in record.features:
            start, end = feature.location.split("..")
            start = int(start)
            end = int(end)
            feature_properties = dict()
            for qualifier in feature.qualifiers:
                feature_properties[qualifier.key] = qualifier.value
            sequence_features.append(StrandFeature(name=feature.key,
                                  start=start,
                                  end=end,
                                  feature_properties=feature_properties
                                 ))
        return Strand(name=genbank_id, coding=record.sequence, features=sequence_features)
--- a/src/mlstmyfasta/engine/data/genomics.py
+++ b/src/mlstmyfasta/engine/data/genomics.py
@ -4,10 +4,10 @@ from typing import Mapping, Sequence
@dataclass
 class StrandFeature:
-    name: str
+    type: str
    start: int
    end: int
-    feature_properties: Mapping[str, str]
+    feature_properties: Mapping[str, Sequence[str]]
@dataclass
 class Strand:
@ -15,4 +15,5 @@ class Strand:
    coding: str
    features: Sequence[StrandFeature]
-    
+def get_feature_coding(strand: Strand, feature: StrandFeature):
    strand.coding[feature.start:feature.end]
--- a/tests/mlstmyfasta/engine/test_annotations.py
+++ b/tests/mlstmyfasta/engine/test_annotations.py
@ -0,0 +1,6 @@
 from mlstmyfasta.engine.annotations import fetch_ncbi_genbank
 async def test_fetch_ncbi_genbank_with_id_works():
    assert len((await fetch_ncbi_genbank("CP011448.1")).coding) > 0