Terminy jak output / coverage / głębokość sekwencjonowania (depth) / ilość odczytów w milionach (M) czy Gb danych to terminy które są niezwykle istotne przy planowaniu usługi sekwencjonowania.
Zatem, ile danych wybrać?
W zależności od celu badania, kluczowymi parametrami są:
🔹 ilość danych (w gigabajtach lub liczbie odczytów)
🔹 pokrycie (coverage) – czyli średnia liczba razy, jaką każdy nukleotyd w genomie zostanie odczytany/zsekwencjonowany
Czym jest ilość danych w sekwencjonowaniu i kiedy ją stosujemy?
W sekwencjonowaniu dane są zwykle wyrażane w dwóch formach:
1. Liczba odczytów (np. 30 M reads, czyli 30 milionów odczytów)
Odczyty (ang. reads) to fragmenty DNA wygenerowane przez sekwenator. W zależności od technologii mogą to być np. odczyty 1×50 bp, 2×150 bp itp, co oznacza odczyt jednostronny o długości 50 nukleotydów, lub odczytów dwustronny (paired end) o długości 150 nukleotydów każdy.
2. Ilość danych w Gb/GB (np. 10 GB)
To całkowita liczba zsekwencjonowanych zasad (nukleotydów) — im dłuższe odczyty i ich więcej, tym większa ilość danych.
Przykład:
30 M odczytów paired-end 2×150 bp = ~9 GB surowych danych.
Obliczenie: 30 000 000 × 2 × 150 = 9 000 000 000 nukleotydów = 9 Gb (gigabaz)
Końcowa liczba oczyszczonych GB zależy również od jakości danych i filtracji odczytów.
Różnica między Gb a GB:
W praktyce sekwencjonowania 1 Gb ≈ 1 GB w plikach surowych (FASTQ)
Gb (gigabaza) = miliard nukleotydów
GB (gigabajt) = jednostka pamięci komputerowej
3. Dane surowe vs oczyszczone
Dane surowe to wszystkie odczyty bezpośrednio z sekwenatora.
Dane oczyszczone to odczyty po:
- usunięciu adapterów
- filtracji niskiej jakości (Q-score < 20-30)
- usunięciu zbyt krótkich fragmentów
Typowa strata: 5-15% danych podczas kontroli jakości
Przykład: Z 9 Gb danych surowych (tzw. raw reads), po filtracji pozostanie ~8-8.5 Gb danych oczyszczonych (tzw. clean read) do analizy.
W przypadku jakich projektów stosujemy termin ilość danych / głębokość sekwencjonowania?
RNA-Seq (transkryptomika)
- Miara: liczba odczytów przypadających na próbkę (np. 20–60 M reads na próbkę)
- Pokrycie jest zmienne, zależne od ekspresji genów (więcej reads nie oznacza równomiernego pokrycia)
- Zalecenia:
- ~30 M reads dla analizy ekspresji genów (DEGs)
- ~50–100 M dla analizy genów również o niskiej ekspresji, long non-coding RNA lub dla gatunków o bardzo dużej liczbie genów
- ~10 M reads dla RNA-seq bakterii
Metagenomika (shotgun sequencing)
- Brak jednej referencji → nie ma klasycznego „coverage”
- Zalecenia:
- 5–20 M reads dla niskiej złożoności
- ≥ 30 M reads lub więcej dla próbek środowiskowych
Amplicon sequencing (np. 16S rRNA)
- Brak jednej referencji → nie ma klasycznego „coverage”
- Zalecenia:
- 50 000 reads/tags na próbkę dla podstawowej identyfikacji
- > 100 000 reads dla bardzo dokładnej taksonomii
Co to jest pokrycie (coverage) i kiedy go używamy?
Coverage (pokrycie) to średnia liczba razy, jaką każdy nukleotyd w genomie został odczytany/zsekwencjonowany.
Pokrycie oblicza się według wzoru:

Przykład:
Jeśli zaplanujemy sekwencjonowanie z 90 Gb danych na próbkę pochodzącą z genomu ludzkiego (wielkość genomu ok. 3 Gb), to średnie pokrycie jakie otrzymamy wyniesie 30×, czyli każdy nukleotyd zostanie średnio odczytany 30 razy.
Ilość zsekwencjonowanych danych można obliczyć z wzoru: Liczba odczytów × Długość odczytu, czyli np. 30M x 2 x 150
W przypadku jakich projektów stosujemy termin pokrycie z ang. coverage?
- WGS (Whole Genome Sequencing): standardowe pokrycie to 30×
- WES (Exome Sequencing): zwykle 100–150×
Jak dobrać najlepsze pokrycie / ilość danych?
✔️ Określ cel projektu
Czy sekwencjonujesz genom, eksom, transkryptom, czy mikrobiom?
Każdy typ projektu wymaga innej ilości danych.
✔️ Uwzględnij jakość próbki
Fragmentacja, degradacja czy niski input DNA mogą wymagać większego pokrycia (nawet +20-30% dodatkowych danych).
✔️ Zdefiniuj dodatkowe aspekty mogące mieć wpływ na wymaganą ilość danych
Im bardziej wymagająca analiza (np. wykrywanie wariantów somatycznych o niskim udziale), tym większe pokrycie będzie potrzebne. Dodatkowo jeżeli planowane jest porównanie wyników z innym, już przeprowadzonym projektem warto zachować tę samą specyfikację usługi aby móc łatwiej porównywać wyniki.
Czy i dlaczego ilość danych wpływa na cenę projektu?
Tak, ilość danych ma ogromny wpływ na cenę usługi, dlaczego?
🔬 Więcej danych = więcej czasu pracy sekwenatora
💡 Więcej danych = większe zużycie odczynników
💻 Więcej danych = dłuższa analiza bioinformatyczna i większe pliki do przechowywania
Dlatego nie zawsze więcej oznacza lepiej, istotne jest znalezienie złotego środka biorąc pod uwagę rodzaj projektu oraz jego cel jak również budżet.
PODSUMOWANIE
Złote zasady:
- Nie zawsze więcej oznacza lepiej
- Dobierz parametry do konkretnego celu projektu
- Uwzględnij jakość próbki
- Zaplanuj bufor na straty podczas kontroli jakości
Zapamiętaj: Wybór ilości danych to balans między jakością wyników, celem badania i budżetem.
Rozpocznij uzupełniając nasz inteligentny formularz, który przeprowadzi Cię przez badanie potrzeb, pamiętaj, że jeśli napotkasz na jakąś wątpliwość to zaznacz w formularzu, że potrzebujesz pomocy i wyślij go do nas. Będziemy mieli już obraz sytuacji i podczas rozmowy będziemy mogli Ci pomóc.
Rozpocznij swój projekt
Wypełnij nasz inteligentny formularz, który pomoże Ci określić potrzeby projektowe i otrzymać wstępną wycenę.
Masz wątpliwości? Zaznacz w formularzu opcję “Potrzebuję pomocy!” – skontaktujemy się z Tobą, mając już pełny obraz sytuacji.
👉 Wypełnij formularz | Pytania? Napisz na contact@weseq.it
