• Przejdź do głównej nawigacji
  • Przejdź do treści
  • Przejdź do głównego paska bocznego
  • Przejdź do stopki
Małe logo Naukowa dżungla blog o książkach przyrodniczych

Naukowa dżungla

Blog przyrodniczy

  • O dżungli
  • Do pobrania
  • Kontakt
  • Polityka prywatności

Jak działa AI w rozpoznawaniu ptaków?

23 maj, 2026

Rozpoznawanie ptaków po głosie zyskuje na popularności. Widuję ostatnio liczne posty użytkowników odnośnie BirdNETa czy Merlina, aplikacji do rozpoznawania ptaków na podstawie śpiewu i głosów. Wspominałam już o obu w postach o aplikacjach przydatnych przyrodnikom i rozpoznawaniu ptaków. Internetowe dyskusje wydają się krążyć pomiędzy dwoma skrajnymi opiniami – że aplikacje rozpoznają świetnie, a także, że często się mylą.

Porozmawiajmy zatem o AI i tym, czy dobrze wykrywa ptaki, czy jednak nie. W tym wpisie postaram się podzielić perspektywą osoby, która pracuje z BirdNETem na co dzień.


Spis treści
  • Jak działa rozpoznawanie dźwięku?
    • Jak działa BirdNET?
  • Dane treningowe
  • Rozpoznawanie ptaków w aplikacjach
  • Dlaczego BirdNET się myli?
  • Etyka i dane w aplikacjach AI
  • Jak zwiększyć skuteczność rozpoznawania?
  • Czy AI rozpoznaje ptaki lepiej od człowieka?

Jak działa rozpoznawanie dźwięku?

Żeby w ogóle wyrobić sobie opinię na temat działania jakiegokolwiek urządzenia czy algorytmu, warto wiedzieć jak on w ogóle działa. Na pewno widzieliście kiedyś zabawne obrazki z zadaniem rozpoznania tego, czy na zdjęciu jest bułka, czy pies. W przypadku rozpoznawania obrazów, algorytm uczy się pewnych wzorców, charakterystycznych dla danego obiektu, np. tego, że pies ma oczy i nos ułożone w charakterystyczny sposób.

Zadanie dla AI: zdjęcie przedstawia miks mniejszych zdjęć. Na niektórych jest głowa psa typu chihuahua, na innych babeczka typu muffin z borówkami. Babeczki i pieski wyglądają podobnie.
Piesek czy babeczka? Warto popatrzeć z daleka, aby zrozumieć zadanie algorytmu.

W przypadku dźwięku jest tak samo. Algorytm (jaki np. wykorzystuje BirdNET czy Merlin) nie „odsłuchuje” piosenki rudzika, którą mu pokażemy. On dźwięk musi sobie zamienić na obraz – i w taki też sposób ja czy inni naukowcy lub przyrodnicy, pracujemy z dźwiękiem. Prostą wizualizacją dźwięku jest spektrogram, który pokazuje nam jak wysoka jest energia dźwięku na danej częstotliwości (wyrażanej w hercach) w danym czasie. Bardzo prosto to zwizualizować na podstawie głosu kukułki, który chyba każdy zna. Są w nim dwie sylaby: ku-ku.

Spektrogram pokazujący głos kukułki
Charakterystyczny głos kukułki jest bardzo prosty do rozpoznania. Po lewej stronie widać zakres częstotliwości (Hz), kukułka charakteryzuje się dość niskim głosem. Co ciekawe, widać jak te dwie sylaby, choć podobne, znacznie się od siebie różnią. Spektrogram wygenerowałam z nagrania o numerze XC1063620.

Jak działa BirdNET?

Jak widać, bardzo łatwo możemy „zobaczyć” głos kukułki, podobnie jest z innymi dźwiękami. W ten sam sposób (tylko trochę mniej dokładny) widzi je algorytm. W praktyce są to tzw. mel-spektrogramy, czyli uproszczone obrazy dopasowane do tego, jak „widzi” dźwięk model.

Spektrogram jest upraszczany do siatki kilkudziesięciu „pikseli”, a te dla algorytmu są zrozumiałe w postaci liczbowej. Dzięki redukcji szczegółów algorytm łatwiej uczy się ogólnych wzorców, zamiast zapamiętywać skrupulatne detale, które mogą się bardzo różnić między osobnikami. Każdy taki spektrogram to więc dla maszyny zestaw liczb, które stanowią coś bardzo konkretnego. Inny zestaw liczb będzie głosem kukułki, a inny rudzika.

Mel-spektrogram głosu kukułki
Tak wygląda mel-spektrogram powyższego głosu kukułki. Dla nas wizualnie to raczej słaba informacja, ale dla algorytmu takie „pikselowe” uproszczenie to świetne przełożenie na liczby. A teraz wyobraźcie sobie bardziej skomplikowane głosy, np. piosenkę słowika…

Algorytmy nie analizują też całego nagrania naraz, tylko dzielą je na krótkie fragmenty (np. 3 sekundy w przypadku BirdNETa) i analizują każdy osobno.

Taka prosta wersja działa oczywiście przy założeniu idealnych warunków. A co z głosem kukułki podczas deszczu, czy wietrznej pogody? A kiedy świeci słońce, albo w tle śpiewa skowronek? To wszystko dla algorytmu będą zupełnie różne dane.

Dane treningowe

W przypadku prostego trenowania algorytmów, zazwyczaj potrzebne są dwie klasy: pozytywna (z głosem którego chcemy go nauczyć, np. rudzika) oraz negatywna (z innymi dźwiękami, które rudzikiem nie są).

W klasie negatywnej powinny pojawić się więc głosy innych gatunków, ale także dźwięki tła, takie jak szum wiatru czy deszcz, a nawet przejeżdżający pociąg. Dzięki temu algorytm uczy się rozpoznawać dany gatunek także w trudniejszych warunkach, kiedy jego głos miesza się z innymi dźwiękami. Przykładem będzie głos rudzika, kiedy w tle jedzie pociąg. We wpisie upraszczając omawiam system binarny dla jednego gatunku, jednak w praktyce duże modele uczą się rozpoznawać wiele gatunków jednocześnie i w takim wypadku jest wiele klas pozytywnych (np. bogatka, kos, rudzik).

Rozpoznawanie ptaków w aplikacjach

Co ciekawe, BirdNET koryguje swoje rozpoznawanie o najbardziej prawdopodobne w danym rejonie i czasie gatunki. Używa do tego list z portalu eBird, gdzie obserwatorzy publikują listy napotkanych gatunków. Przykładowo, kiedy puścicie z głośnika głos pierwiosnka w grudniu, BirdNET nic nie wykryje. Poradzi sobie za to z tym świetnie w maju, kiedy pierwiosnek przystępuje do lęgów w naszym kraju.

Warto pamiętać, że aplikacje takie jak BirdNET nie „identyfikują” gatunku w sposób pewny. Zawsze podają wynik w postaci prawdopodobieństwa. To oznacza, że nawet najwyższa pewność nie gwarantuje poprawności. Jeśli w okolicy występują dwa bardzo podobne gatunki, algorytm może wykryć ten bardziej typowy. Szczególnie istotne jest to w sezonie lęgowym, mniej więcej od kwietnia do lipca. Wtedy odzywa się najwięcej ptaków i jest też największa szansa na pomyłki.

Rozpoznawanie ptaków AI w aplikacji BirdNET
Przykład pewności oznaczenia. Po lewej stronie (A) ledwie widoczny głosik mysikrólika w cichym otoczeniu, poprawnie rozpoznany przez aplikację. Po prawej stronie (B) ledwie widoczny strzyżyk, w hałasie autostrady. Tutaj oznaczenie to „wysoce niepewny”. W obu przypadkach ułatwiłam algorytmowi nagrywając w grudniu, nie miał więc wielu gatunków do wyboru.

Dlaczego BirdNET się myli?

Wracając do dyskusji internetowej, odpowiadam: to zależy. I to od wielu czynników.

  1. Przede wszystkim winny pomyłkom jest zestaw danych treningowych. Często jest ich po prostu niewystarczająco dużo. Im więcej danych, tym generalnie większa zmienność próbek i tym lepiej nauczy się algorytm. W przypadku gatunków o dużej zmienności głosów, problemem jest właśnie to, że próbki treningowe pochodzą z niewielu miejsc i nie odzwierciedlają rzeczywistego repertuaru wybranego gatunku. Dane treningowe są często zbierane w łatwo dostępnych miejscach (np. Europa, Ameryka Północna), co sprawia, że modele mogą być mniej dokładne w innych regionach.
  2. Kolejnym problemem są gatunki o podobnych głosach. Szczególnie trudne są same głosy kontaktowe, niekoniecznie piosenki. Często są one krótkie i mają podobną strukturę, co nie sprzyja identyfikacji. Głosy kontaktowe czy alarmowe są też rzadziej nagrywane, a więc w danych treningowych także jest ich mniej.
  3. Prym nieuchwytności wiodą ptaki naśladujące inne gatunki, jak np. sójki, szpaki czy zaroślówki. Czasem i człowiek się nabierze, a co dopiero taka AI.
  4. Problemem także są nachodzące na siebie głosy. W przypadku kiedy wiele ptaków odzywa się jednocześnie, szanse na wykrycie są bardzo małe. Głównie dlatego, że głosy pokrywające się na spektrogramie, to zupełnie nieznany dla algorytmu wzór. W takim przypadku nie „rozumie” on, że to dwa różne gatunki, ponieważ bardzo podobne nagranie musiałoby się znaleźć w bazie danych treningowych. Jakie są na to szanse? Niewielkie.
  5. Następne w kolejce są ograniczenia sprzętowe. Nagrywamy smartfonami, które nie są najlepsze w wychwytywaniu subtelnych głosów. Mikrofony też generują własny szum podczas pracy (widać go na przykładzie z mysikrólikiem powyżej), który dodatkowo utrudnia rozpoznawanie. Hałas tła, jak np. bliskość ruchliwej drogi czy przelatujący samolot również bardzo zakłócają nagranie.
  6. Ptaki się przemieszczają, zazwyczaj są gdzieś daleko, wysoko na drzewach – trudno więc wychwycić subtelności ich głosów. A przypominam, że subtelności są ważne, skoro algorytm rozumuje poprzez uproszczone piksele i liczby wspomniane wyżej.

Jeżeli więc aplikacja źle rozpoznaje Wasz gatunek, to prawdopodobnie jesteście za daleko od ptaka, albo to jakiś dziwak. Warto go więc nagrać, rozpoznać tradycyjnie i dodać nagranie na stronę xeno-canto.org, z której nagrania wykorzystywane są do uczenia zarówno BirdNETa, jak i Merlina.

Etyka i dane w aplikacjach AI

Wciąż wiemy bardzo niewiele np. o dużych modelach językowych gigantów Doliny Krzemowej. Tajemnicą są zarówno dane treningowe, jak i centra danych – ich położenie czy systemy chłodzenia. W przypadku aplikacji, o których piszę powyżej, sprawa jest nieco prostsza. Zarówno BirdNET jak i Merlin pochodzą spod skrzydeł dwóch uniwersytetów. Pierwszym z nich jest Uniwersytet Cornella w Stanach Zjednoczonych, a bardziej szczegółowo chyba najbardziej znana na świecie jednostka badająca ptaki czyli Cornell Lab of Ornithology. Drugą jednostką jest niemiecki Uniwersytet Technologiczny w Chemnitz (Technische Universität Chemnitz).

Dane treningowe są jawne i wręcz sami możemy się do nich dorzucić, udostępniając swoje nagrania ptaków na stronie xeno-canto. Pozostałe nagrania pochodzą również z Macaulay Library, dużej biblioteki z głosami i zdjęciami ptaków. Nagrania do klasy negatywnej (czyli wszystko, co nie jest ptakiem), pochodzą z bibliotek AudioSet, Freefield1010 oraz WarblR.

Na ten moment nie ma publicznie dostępnych szczegółów dotyczących infrastruktury serwerowej BirdNETa. Wydaje mi się jednak, że są one w Niemczech i jest to infrastruktura uniwersytecka. Projekt jest mocno finansowany przez rząd niemiecki i logicznym byłoby, gdyby politechnika miała swoje duże centrum danych. Jest to jednak tylko moje przypuszczenie.

Jak zwiększyć skuteczność rozpoznawania?

W praktyce można poprawić swoją technikę, aby trochę ułatwić algorytmowi pracę. Kilka kroków wartych wykorzystania:

  1. Podejdź bliżej źródła dźwięku. Często zbliżenie się o kilka kroków i skierowanie mikrofonu telefonu w stronę ptaka może poprawić jakość nagrania.
  2. Nagrywaj w ciszy, lub poczekaj aż hałas minie. Śpiewający ptak, nawet jeżeli ucieknie, zazwyczaj wróci w to miejsce. Często warto zaczekać, a w międzyczasie takiej spokojnej chwili, pojawiają się też inne gatunki i często podlatują bardzo blisko.
  3. Unikaj wiatru. To duży przeciwnik dla AI. Wiatr, deszcz czy samochody potrafią „zakryć” cały głos na spektrogramie i nie ma szans na identyfikację takiego ptaka.
  4. Nagrywaj dłużej. Czasem warto nagrać nawet kilkanaście sekund, jeżeli piosenka jest wyjątkowo długa, co zwiększy szansę algorytmu na trafienie. W przypadku krótkich głosów, warto nagrać kilka z nich. W przypadku BirdNETa użytkownik sam zaznacza fragment do analizy, warto więc o tym pomyśleć.

Czy AI rozpoznaje ptaki lepiej od człowieka?

AI w rozpoznawaniu ptaków to narzędzie. Bardzo dobre, jeśli wiemy, jak działa, i bardzo mylące, jeśli traktujemy je jako pewniak. Co ciekawe, algorytmy często radzą sobie lepiej od początkujących obserwatorów, ale wciąż przegrywają z doświadczonym ornitologiem. Tego typu aplikacje są natomiast cały czas rozwijane, więc jeśli chodzi o skuteczność, to będzie coraz lepiej.

Ze swojej strony polecam użyć aplikacji, jeśli jest taka potrzeba i najlepiej zapamiętać ten głos, poobserwować ptaka. Wtedy najlepiej wchodzi do głowy i przy kolejnym spotkaniu nie potrzeba już pomocy. Warto też zwrócić uwagę na nagrania dostępne w sieci, np. serię Leśny budzik, która w przystępny sposób pokazuje różne gatunki. Ciekawych obserwacji!

Dominika
Dominika

Jestem biolożką z doktoratem w dziedzinie nauk przyrodniczych. Na blogu Naukowa Dżungla dzielę się recenzjami książek i filmów popularnonaukowych oraz refleksjami o świecie przyrody. W swoich wpisach staram się łączyć wiedzę naukową z pasją do natury.

Udostępnij:

  • Share on Facebook (Otwiera się w nowym oknie) Facebook
  • Share on X (Otwiera się w nowym oknie) X
  • Share on Mastodon (Otwiera się w nowym oknie) Mastodon
  • Share on Bluesky (Otwiera się w nowym oknie) Bluesky
← Poprzedni wpis
Tygrysy między mocarstwami. Opowieść o tygrysach amurskich

Kategoria: Artykuły Tagi: artykuły, dla początkujących

Interakcje czytelnika

Dodaj komentarz Anuluj pisanie odpowiedzi

Twój adres email nie zostanie opublikowany. Wymagane pola są oznaczone *

Pierwszy panel boczny

🌿 Cześć, witaj na moim blogu!

Nazywam się Dominika i jestem biolożką. Naukowa Dżungla to recenzje książek i filmów o przyrodzie, teksty popularnonaukowe oraz artykuły dla osób zainteresowanych naturą i nauką. To miejsce dla tych, którzy chcą zgłębiać przyrodę nie tylko w terenie, ale także przez słowo, obraz i dźwięk. Zapraszam!

  • Facebook
  • Instagram

Kategorie

  • Artykuły (17)
  • Filmy i seriale (14)
  • Naukowcy (7)
  • Recenzje książek (92)
    • Astronomia (13)
    • Bezkręgowce (7)
    • Inne (8)
    • Klimat (6)
    • Książki popularnonaukowe (34)
    • Książki przyrodnicze (32)
    • Mikroorganizmy (3)
    • Przeglądy książek (8)
    • Ptaki (19)
    • Rośliny (5)
    • Ssaki (21)
    • Wodny świat (6)

Szukasz czegoś?

Wybierz tematykę:

artykuły astronomia bezkręgowce człowiek dinozaury dla początkujących dla zaawansowanych ekologia filmy dokumentalne inne klimat kosmos kwanty mikroby mikroorganizmy naukowcy podróżnicze prezentownik ptaki reportaż reportaże rośliny ryby seriale dokumentalne ssaki zwierzęta

Archiwum

Footer

Masz pytanie?

Jeśli masz jakieś uwagi lub pytania, skontaktuj się ze mną!

dominika@naukowadzungla.pl

Naukowa Dżungla to blog przyrodniczy dla osób zainteresowanych biologią, ekologią i poznawaniem świata.

  • Facebook
  • Instagram

Recenzuję ciekawe dla mnie tytuły, ale jeśli masz jakąś propozycję co do konkretnej książki lub filmu – daj mi znać! Przeczytam i obejrzę je dla Ciebie. 😉

Copyright © 2026 · Naukowa dżungla

Juniper Theme by Code + Coconut

Prywatność

Strona wykorzystuje pliki cookies m.in. w celu poprawy dostępności oraz zbierania danych dotyczących ruchu na stronie. Masz możliwość samodzielnego decydowania o akceptacji plików cookies. Więcej informacji znajdziesz na stronie Polityki prywatności.

Funkcjonalność Zawsze aktywne
Techniczne przechowywanie lub dostęp są ściśle niezbędne do uzasadnionego celu umożliwienia korzystania z konkretnej usługi wyraźnie zażądanej przez użytkownika, lub wyłącznie w celu realizacji transmisji komunikacji w sieci łączności elektronicznej.
Preferences
The technical storage or access is necessary for the legitimate purpose of storing preferences that are not requested by the subscriber or user.
Statystyki
The technical storage or access that is used exclusively for statistical purposes. Techniczne przechowywanie lub dostęp, które są wykorzystywane wyłącznie do anonimowych celów statystycznych. Bez wezwania sądowego, dobrowolnej zgody dostawcy usług internetowych lub dodatkowych zapisów od strony trzeciej, informacje przechowywane lub uzyskiwane wyłącznie w tym celu zazwyczaj nie mogą być użyte do zidentyfikowania użytkownika.
Marketing
Techniczne przechowywanie lub dostęp są wymagane do tworzenia profili użytkowników w celu śledzenia aktywności użytkownika na stronie internetowej w celach marketingowych.
  • Zarządzaj opcjami
  • Zarządzaj serwisami
  • Zarządzaj {vendor_count} dostawcami
  • Przeczytaj więcej o tych celach
Preferencje
  • {title}
  • {title}
  • {title}