Ilość danych z sekwencjonowania

Terminy jak output / coverage / głębokość sekwencjonowania (depth) / ilość odczytów w milionach (M) czy Gb danych to terminy które są niezwykle istotne przy planowaniu usługi sekwencjonowania.

Zatem, ile danych wybrać?
W zależności od celu badania, kluczowymi parametrami są:
🔹 ilość danych (w gigabajtach lub liczbie odczytów)
🔹 pokrycie (coverage) – czyli średnia liczba razy, jaką każdy nukleotyd w genomie zostanie odczytany/zsekwencjonowany

Czym jest ilość danych w sekwencjonowaniu i kiedy ją stosujemy?

W sekwencjonowaniu dane są zwykle wyrażane w dwóch formach:

1. Liczba odczytów (np. 30 M reads, czyli 30 milionów odczytów)
Odczyty (ang. reads) to fragmenty DNA wygenerowane przez sekwenator. W zależności od technologii mogą to być np. odczyty 1×50 bp, 2×150 bp itp, co oznacza odczyt jednostronny o długości 50 nukleotydów, lub odczytów dwustronny (paired end) o długości 150 nukleotydów każdy.

2. Ilość danych w Gb/GB (np. 10 GB)
To całkowita liczba zsekwencjonowanych zasad (nukleotydów) — im dłuższe odczyty i ich więcej, tym większa ilość danych.

Przykład:
30 M odczytów paired-end 2×150 bp = ~9 GB surowych danych.
Obliczenie: 30 000 000 × 2 × 150 = 9 000 000 000 nukleotydów = 9 Gb (gigabaz)
Końcowa liczba oczyszczonych GB zależy również od jakości danych i filtracji odczytów.

Różnica między Gb a GB:
W praktyce sekwencjonowania 1 Gb ≈ 1 GB w plikach surowych (FASTQ)
Gb (gigabaza) = miliard nukleotydów
GB (gigabajt) = jednostka pamięci komputerowej

3. Dane surowe vs oczyszczone
Dane surowe to wszystkie odczyty bezpośrednio z sekwenatora.
Dane oczyszczone to odczyty po:

  • usunięciu adapterów
  • filtracji niskiej jakości (Q-score < 20-30)
  • usunięciu zbyt krótkich fragmentów

Typowa strata: 5-15% danych podczas kontroli jakości
Przykład: Z 9 Gb danych surowych (tzw. raw reads), po filtracji pozostanie ~8-8.5 Gb danych oczyszczonych (tzw. clean read) do analizy.

W przypadku jakich projektów stosujemy termin ilość danych / głębokość sekwencjonowania?

RNA-Seq (transkryptomika)

  • Miara: liczba odczytów przypadających na próbkę (np. 20–60 M reads na próbkę)
  • Pokrycie jest zmienne, zależne od ekspresji genów (więcej reads nie oznacza równomiernego pokrycia)
  • Zalecenia:
    • ~30 M reads dla analizy ekspresji genów (DEGs)
    • ~50–100 M dla analizy genów również o niskiej ekspresji, long non-coding RNA lub dla gatunków o bardzo dużej liczbie genów
    • ~10 M reads dla RNA-seq bakterii

Metagenomika (shotgun sequencing)

  • Brak jednej referencji → nie ma klasycznego „coverage”
  • Zalecenia:
    • 5–20 M reads dla niskiej złożoności
    • ≥ 30 M reads lub więcej dla próbek środowiskowych

Amplicon sequencing (np. 16S rRNA)

  • Brak jednej referencji → nie ma klasycznego „coverage”
  • Zalecenia:
    • 50 000 reads/tags na próbkę dla podstawowej identyfikacji
    • > 100 000 reads dla bardzo dokładnej taksonomii

Co to jest pokrycie (coverage) i kiedy go używamy?

Coverage (pokrycie) to średnia liczba razy, jaką każdy nukleotyd w genomie został odczytany/zsekwencjonowany.

Pokrycie oblicza się według wzoru:

Przykład:
Jeśli zaplanujemy sekwencjonowanie z 90 Gb danych na próbkę pochodzącą z genomu ludzkiego (wielkość genomu ok. 3 Gb), to średnie pokrycie jakie otrzymamy wyniesie 30×, czyli każdy nukleotyd zostanie średnio odczytany 30 razy.

Ilość zsekwencjonowanych danych można obliczyć z wzoru: Liczba odczytów × Długość odczytu, czyli np. 30M x 2 x 150

W przypadku jakich projektów stosujemy termin pokrycie z ang. coverage?
  • WGS (Whole Genome Sequencing): standardowe pokrycie to 30×
  • WES (Exome Sequencing): zwykle 100–150×

Jak dobrać najlepsze pokrycie / ilość danych?

✔️ Określ cel projektu

Czy sekwencjonujesz genom, eksom, transkryptom, czy mikrobiom?
Każdy typ projektu wymaga innej ilości danych.

✔️ Uwzględnij jakość próbki

Fragmentacja, degradacja czy niski input DNA mogą wymagać większego pokrycia (nawet +20-30% dodatkowych danych).

✔️ Zdefiniuj dodatkowe aspekty mogące mieć wpływ na wymaganą ilość danych

Im bardziej wymagająca analiza (np. wykrywanie wariantów somatycznych o niskim udziale), tym większe pokrycie będzie potrzebne. Dodatkowo jeżeli planowane jest porównanie wyników z innym, już przeprowadzonym projektem warto zachować tę samą specyfikację usługi aby móc łatwiej porównywać wyniki.

Czy i dlaczego ilość danych wpływa na cenę projektu?

Tak, ilość danych ma ogromny wpływ na cenę usługi, dlaczego?

🔬 Więcej danych = więcej czasu pracy sekwenatora
💡 Więcej danych = większe zużycie odczynników
💻 Więcej danych = dłuższa analiza bioinformatyczna i większe pliki do przechowywania

Dlatego nie zawsze więcej oznacza lepiej, istotne jest znalezienie złotego środka biorąc pod uwagę rodzaj projektu oraz jego cel jak również budżet.


PODSUMOWANIE

Złote zasady:

  1. Nie zawsze więcej oznacza lepiej
  2. Dobierz parametry do konkretnego celu projektu
  3. Uwzględnij jakość próbki
  4. Zaplanuj bufor na straty podczas kontroli jakości

Zapamiętaj: Wybór ilości danych to balans między jakością wyników, celem badania i budżetem.

Rozpocznij uzupełniając nasz inteligentny formularz, który przeprowadzi Cię przez badanie potrzeb, pamiętaj, że jeśli napotkasz na jakąś wątpliwość to zaznacz w formularzu, że potrzebujesz pomocy i wyślij go do nas. Będziemy mieli już obraz sytuacji i podczas rozmowy będziemy mogli Ci pomóc.


Rozpocznij swój projekt

Wypełnij nasz inteligentny formularz, który pomoże Ci określić potrzeby projektowe i otrzymać wstępną wycenę.

Masz wątpliwości? Zaznacz w formularzu opcję “Potrzebuję pomocy!” – skontaktujemy się z Tobą, mając już pełny obraz sytuacji.

👉 Wypełnij formularz | Pytania? Napisz na contact@weseq.it

Was this article helpful?

Related Articles

en_GBEnglish