Ist die Vogelstimmen-Erkennung in OpenInsect wirklich kostenlos?

Ja. Die App ist im Apple App Store und bei Google Play kostenlos. Audio-Aufnahmen, Foto- und Video-Bestimmung sowie die KI-Auswertung samt Spektrogramm sind ohne Gebühr nutzbar. Es gibt keine Abo-Pflicht und keine versteckten Kosten für die Erkennung.

Wie genau ist die KI bei Vogelstimmen?

Bei klaren Aufnahmen typischer heimischer Singvögel ohne starken Störlärm erreicht das Modell sehr hohe Trefferquoten. Die App zeigt zusätzlich einen Konfidenz-Score und alternative Kandidaten an. Bei Wind, Verkehrslärm oder ähnlich klingenden Arten kann sich die KI irren – mehrere Aufnahmen helfen.

Funktioniert die App auch für Eulen, Frösche oder Insekten?

Ja. Eulenrufe, Froschchorgesang, Grillenzirpen und Zikaden werden von OpenInsect mit erfasst. Die Genauigkeit ist etwas niedriger als bei klassischen Singvögeln, weil die Datengrundlage kleiner ist.

Werden meine Aufnahmen weiterverwendet?

Aufnahmen werden für die KI-Auswertung verarbeitet und im Community-Feed angezeigt, wenn Sie den Beitrag öffentlich machen. Sie können Beiträge auch privat speichern. Details in der Datenschutzerklärung in der App.

Kann ich Vogelstimmen auch ohne Internet erkennen lassen?

Aktuell benötigt die KI-Auswertung eine Internetverbindung. Sie können Aufnahmen offline machen und später hochladen, sobald Sie wieder Empfang haben.

Rozpoznawaj odgłosy ptaków za darmo online i za pomocą aplikacji

Rozpoznawaj odgłosy ptaków za darmo online i za pomocą aplikacji – teraz jest to możliwe w ciągu kilku sekund. Dzięki naszej aplikacji OpenInsect po prostu nagrasz śpiew ptaka lub nawoływanie za pomocą mikrofonu w smartfonie, a bioakustyczna sztuczna inteligencja określi gatunek – bezpłatnie, bez rejestracji, z logiką regionalną wspieraną przez GPS i naukowo wyglądającym spektrogramem dla każdego trafienia.

W tym przewodniku pokażemy, jak działa rozpoznawanie śpiewu ptaków w OpenInsect, które gatunki ptaków są niezawodnie identyfikowane, w jaki sposób można uzyskać możliwie najczystsze nagrania i jak aplikacja wypada w porównaniu z BirdNET, Merlin Bird ID lub Naturblick.

Rozpoznawaj odgłosy ptaków za pomocą smartfona – szybciej niż ich wyszukiwanie

W przeszłości każdy, kto chciał rozpoznać nawoływanie nieznanego ptaka, miał dwie możliwości: grubą książeczkę identyfikacyjną lub wspomnienie ostatniej lekcji ornitologii. Dziś wystarczy smartfon. Śpiew ptaka, śpiew ptaka lub głos ptaka – modele AI dla bioakustyki niezawodnie rozpoznają typowe wzorce częstotliwości, strukturę sylab i rytm zawołania w ciągu zaledwie kilku sekund.

OpenInsect opiera się na specjalnie opracowanym potoku AI z warstwą analityczną wyszkoloną na odgłosach zwierząt. Nie musisz więc identyfikować gatunków ptaków, po prostu skieruj mikrofon w stronę lasu, ogrodu lub parku, a kilka sekund później zobaczysz najbardziej prawdopodobny gatunek – łącznie z oceną pewności, wiarygodnością regionalną i profesjonalną wizualizacją nagrania.

Tak działa rozpoznawanie śpiewu ptaków w aplikacji OpenInsect

Funkcja audio jest częścią bezpłatnej aplikacji OpenInsect na iOS i Androida. Instalujesz aplikację, otwierasz stronę nagrywania i wykonujesz trzy krótkie kroki:

Krok 1 – Otwórz mikrofon

Na stronie nagrywania obok zdjęcia i filmu znajdziesz przycisk mikrofonu. Po dotknięciu otwiera się rejestrator dźwięku z przebiegiem na żywo, który pokazuje głośność wejściową w czasie rzeczywistym. W ten sposób możesz od razu sprawdzić, czy ptak jest wystarczająco głośny lub czy wiatr i hałas uliczny nie przytłaczają sygnału.

Krok 2 – Nagraj do 60 sekund

Aplikacja umożliwia nagranie do 60 sekund dźwięku. To wystarczy na kilka zwrotek lub pełną pętlę wokalną. Zatrzymaj nagrywanie ręcznie lub zatrzymaj je automatycznie po 60 sekundach. Współrzędne GPS są – jeśli zezwoliłeś na to na początku – automatycznie rejestrowane, dzięki czemu model preferuje gatunki prawdopodobne regionalnie.

Krok 3 – analiza AI i spektrogram

Po przesłaniu plik audio trafia na nasz serwer. Tam równolegle generowany jest spektrogram z osią częstotliwości około 1–12 kHz i oczyszczony przebieg. Obydwa pojawiają się w Twoim poście wraz z trafieniem AI – wynik wygląda, jakby pochodził z narzędzia naukowego i można go udostępnić jako obraz o wysokiej rozdzielczości.

Spektrogram i przebieg są generowane po stronie serwera dla każdego nagrania - z osią częstotliwości i osią czasu jak w programie ornitologicznym.

Co potrafi aplikacja

OpenInsect to nie tylko aplikacja do śpiewania ptaków, ale połączona platforma identyfikacji zdjęć, wideo i audio. Poniższa tabela pokazuje, kiedy tryb zapewnia najlepsze wyniki:

Tryb Do czego się nadaje Dokładność Zdjęcie Ptaki siedzące, owady, rośliny, grzyby, pleśń, drzewa bardzo wysoki z dobrą ekspozycją Wideo Wzorzec ruchu, wzór lotu, zachowanie wysoki – ocenianych jest kilka klatek Dźwięk Śpiew ptaków, nawoływania sów, dzięcioły, żaby, świerszcze, cykady najlepiej u ptaków (klasyczna domena bioakustyczna)

Istnieją także funkcje społecznościowe: system punktacji za każde pomyślne przesłanie, system serii do regularnego monitorowania, kanał ze wszystkimi publicznymi obserwacjami oraz możliwość śledzenia innych użytkowników i komentowania postów.

Jaki gatunek ptaka rozpoznaje OpenInsect?

Sztuczna inteligencja szkoli się na najpospolitszych domowych ptakach śpiewających w Europie Środkowej, ale zna także wiele innych gatunków. Poniższy wybór pokazuje, co jest wiarygodnie rozpoznawane:

Kos, drozd śpiewakowy, drozd mglisty, kwiczoł
Bogatka, sikora modra, sikora węglowa, sikora czubata, sikora błotna
Zięba, Jeżyna, Dzwoniec, Szczygieł, Czyż, Girlitz
Robin, pleszka czarna, pleszka, słowik
Strzyżyk, strzyżyk, czapla, grzechotnik, wodniczka ogrodowa, białogardło
Chiffchaff, Fitis, wodniczka, wodniczka błotna, trzcinniczka
Szpak, wilga, grubodziób, gil, młotek żółty, trznadel
Kowalik, pełzacz drzewny, pełzacz leśny
Dzięcioł duży, dzięcioł zielony, dzięcioł mały, dzięcioł czarny
Kukułka, Krzywoszyja, Szybki, Jaskółka płomykówka, House Martin
Grunatny, gołąb turecki, gołąb pocztowy
Sowy: Puszczyk, Sowa, Płomykówka, Puchacz
Ptaki drapieżne: myszołów zwyczajny, pustułka, jastrząb, krogulc

Żaby (żaby drzewne, żaby stawowe, żaby trawiaste), świerszcze (świerszcze polne, świerszcze domowe), koniki polne i cykady są również rozpoznawane w wielu przypadkach. Jednak model osiąga najwyższy wskaźnik trafień u ptaków – tam klasyfikacja bioakustyczna jest najlepiej uwzględniona z naukowego punktu widzenia.

Wskazówki dotyczące dobrych ujęć

Nawet najlepsza sztuczna inteligencja jest tak dobra, jak sygnał wejściowy. Dzięki tym wskazówkom zauważalnie zwiększysz współczynnik trafień:

Zmniejsz wiatr: trzymaj mikrofon za częścią ciała lub kurtką, aby zablokować bezpośredni wiatr. Jeśli wiatr jest silny, lepiej poczekać na przerwę.
Bliskość pomaga, podobnie jak cisza: im bliżej ptaka, tym lepiej, ale nie na tyle blisko, aby ptak odleciał. Ciche tło jest ważniejsze niż idealna odległość.
Unikaj innych dźwięków: Rozmowy, ruch uliczny, szczekanie psów lub kosiarki zakłócają model. W parkach lepiej nagrywać rano, przed zwykłym hałasem.
Nagraj wiele wersetów: pojedyncza sylaba rzadko wystarczy. Dwie lub trzy śpiewane zwrotki lub sekwencje wezwań dają modelowi wystarczający materiał.
Prawidłowo trzymaj smartfon: Ustaw mikrofon w jednej linii ze źródłem dźwięku – w nowoczesnych telefonach komórkowych często przy dolnej krawędzi obudowy. Nie zakrywaj ręką.
Użyj oryginalnej jakości: wyłącz rozmowy telefoniczne podczas nagrywania lub zestawy słuchawkowe Bluetooth – wewnętrzny mikrofon smartfona zapewnia najlepszy sygnał.

Porównanie: OpenInsect, BirdNET i Merlin Bird ID

Istnieje kilka dobrze znanych aplikacji do rozpoznawania śpiewu ptaków. Oto uczciwe porównanie:

Funkcja OpenInsect BirdNET (Cornell) Identyfikator ptaka Merlina Widok natury Wykrywanie dźwięku Tak, do 60 s Tak Tak, na żywo Tak Rozpoznawanie zdjęć Tak Nie Tak Tak (koncentracja na roślinach) Wykrywanie wideo Tak Nie Nie Nie Inne zwierzęta (żaby, owady) Tak Nie Nie Częściowe Wizualizacja spektrogramu Tak, w poście Tak Tak Nie Kanały i punkty społeczności Tak Nie Nie Ograniczone Język niemiecki (pierwsza klasa) Angielski podstawowy Wielojęzyczny niemiecki Koszty Bezpłatne Bezpłatne Bezpłatne Bezpłatne

W skrócie: BirdNET i Merlin to doskonałe aplikacje przeznaczone wyłącznie dla ptaków, za którymi stoją lata badań. OpenInsect sprawdza się, gdy chcesz nie tylko identyfikować ptaki, ale także łączyć zdjęcia, wideo i audio w jednej aplikacji - obejmującej kanał społecznościowy, punkty i niemiecki interfejs od samego początku.

Alternatywa online bez aplikacji

Możesz także przesłać zdjęcia ptaków bez aplikacji bezpośrednio na naszą stronę internetową Identyfikacja ptaków za pomocą zdjęcia online i umożliwienie ich identyfikacji w ciągu kilku sekund – bez żadnej instalacji.

Do nagrań dźwiękowych odgłosów ptaków potrzebujesz obecnie aplikacji OpenInsect: dostęp do mikrofonu, nagrywanie GPS i tworzenie spektrogramów po stronie serwera są ściśle powiązane z aplikacją. W przygotowaniu jest nagranie strony internetowej dostępne wyłącznie w przeglądarce.

Często zadawane pytania

Czy rozpoznawanie śpiewu ptaków w OpenInsect jest naprawdę bezpłatne?

Tak. Aplikacja jest bezpłatna w Apple App Store i Google Play. Z nagrań audio, ustalania zdjęć i filmów oraz oceny AI wraz ze spektrogramem można korzystać bezpłatnie. Nie ma wymogu subskrypcji ani ukrytych kosztów wykrywania.

Jak dokładna jest sztuczna inteligencja w przypadku odgłosów ptaków?

Dzięki wyraźnym nagraniom typowych domowych ptaków śpiewających bez silnych, przeszkadzających dźwięków model osiąga bardzo wysoki współczynnik trafień. Aplikacja wyświetla również wskaźnik pewności i alternatywnych kandydatów, dzięki czemu możesz samodzielnie ocenić wynik. Sztuczna inteligencja może się mylić, jeśli chodzi o wiatr, hałas uliczny i podobne dźwięki – pomocne jest kilka nagrań.

Czy aplikacja działa również na sowy, żaby i owady?

Tak. Wołanie sów, śpiew żab, świergot krykieta i cykady są nagrywane przez OpenInsect. Dokładność jest tam nieco niższa niż w przypadku klasycznych ptaków śpiewających, ponieważ baza danych naukowych dla tych grup jest mniejsza. Jednak wyniki są zwykle solidne w przypadku typowych odgłosów lokalnej fauny z ogrodów i lasów.

Czy moje nagrania zostaną ponownie wykorzystane?

Nagrania są przetwarzane w celu oceny sztucznej inteligencji i wyświetlane w kanale społeczności, gdy upubliczniasz post. Możesz także zapisywać posty prywatnie. Szczegóły dotyczące wykorzystania danych można znaleźć w oświadczeniu o ochronie danych w aplikacji.

Czy mogę rozpoznać śpiew ptaków bez Internetu?

Ocena AI wymaga obecnie połączenia z Internetem, ponieważ analiza przebiega na serwerze - dzięki temu jest bardzo dokładna i oszczędza baterię smartfona. Możesz jednak nagrywać w trybie offline i przesyłać je później, gdy tylko ponownie uzyskasz odbiór.

W ten sposób naukowo działa rozpoznawanie śpiewu ptaków w oparciu o sztuczną inteligencję

Za każdym trafieniem aplikacji OpenInsect kryje się cały proces klasycznego przetwarzania sygnałów i nowoczesnego rozpoznawania wzorców. Ścieżkę od surowego sygnału mikrofonu smartfona do nazwy gatunku można podzielić na cztery etapy: nagrywanie, rozkład czasowo-częstotliwościowy, ekstrakcja cech i klasyfikacja. Gdy zrozumiesz, co dzieje się na każdym etapie, zobaczysz spektrogram różnymi oczami.

Krok 1 – Od ciśnienia akustycznego do szeregów czasowych

Mikrofon w smartfonie przetwarza wahania ciśnienia powietrza na cyfrowy ciąg liczb – zazwyczaj z częstotliwością próbkowania 44,1 lub 48 kHz. Jednak w przypadku śpiewu ptaków wystarczająca jest znacznie niższa stawka: według Abeßera i in. główny zakres energii domowych ptaków śpiewających wynosi. (DEGA Akustik Journal 03/2025) pomiędzy 2 a 8 kHz – poszczególne elementy trylowe osiągają częstotliwość powtarzania do 48 Hz. Przy częstotliwości próbkowania 24 kHz twierdzenie Nyquista (f_max = f_s/2) obejmuje cały odpowiedni zakres częstotliwości aż do 12 kHz. Wyższe częstotliwości próbkowania są technicznie możliwe, ale dostarczają niewiele dodatkowych informacji do identyfikacji czystego gatunku i generują niepotrzebnie duże pliki.

Krok 2 – Spektrogram poprzez krótkotrwałą transformatę Fouriera

Aby sztuczna inteligencja mogła „zobaczyć” nie tylko głośność, ale także progresję wysokości dźwięku, sygnał audio jest konwertowany na spektrogram. Matematycznie dzieje się to poprzez krótkotrwałą transformatę Fouriera (STFT):

X(τ, f) = ∫ x(t) · w(t − τ) · e^−j2πft dt

Tutaj x(t) to ciągły sygnał audio, w(t − τ) to funkcja okna (zwykle Hanna lub Hamminga) wyśrodkowana w chwili τ, a X(τ, f) zapewnia zespoloną amplitudę przy częstotliwości f. Spektrogram ma wtedy postać |X(τ, f)|².

Frommolt i in. (Vogelwarte 50, 2012) opisują obliczenia spektrogramów w oparciu o FFT jako standardowe narzędzie do rozpoznawania wzorców bioakustycznych: Obliczone spektrogramy to nic innego jak macierze wartości amplitud w wymiarach czasu i częstotliwości. Wszystkie kolejne algorytmy działają na tej reprezentacji macierzowej.

Trzy parametry określają jakość spektrogramu:

Rozmiar okna (długość FFT): zazwyczaj od 512 do 2048 próbek. Większe okna zapewniają lepszą rozdzielczość częstotliwościową, mniejsze zapewniają lepszą rozdzielczość czasową – klasyczny kompromis, który Abeßer i in. (2025) wyraźnie opisują to jako „dobrą równowagę między rozdzielczością czasową i częstotliwościową”.
Funkcja okna: Hamming lub Hann zmniejszają wyciek widmowy na krawędziach okna.
Rozmiar przeskoku: przesunięcie czasowe między kolejnymi oknami, zwykle 25–50% rozmiaru okna. Mniejsze rozmiary przeskoków zapewniają płynniejsze spektrogramy, ale kosztują czas obliczeń.

Krok 3 – Skala Mel i MFCC

Liniowe osie częstotliwości są nienaturalne dla ludzkiego – a także ptasiego – słuchu. Obydwa systemy słuchowe lepiej radzą sobie z niskimi częstotliwościami niż wysokimi. Skala Mela przedstawia tę percepcję matematycznie:

m = 2595 · log₁₀(1 + f/700)

Na tej podstawie obliczane są współczynniki cepstralne częstotliwości Mel (MFCC) — pierwotnie przejęte z rozpoznawania mowy, obecnie również standard w bioakustyce. Krüger (HfM Weimar, WiSe 22/23) w swoich badaniach nad automatycznym rozpoznawaniem śpiewu ptaków wykorzystuje 13 MFCC jako wektor cech i stwierdza, że zwiększenie tej liczby do 20 nie ma już znaczącego wpływu na współczynnik trafień – jest to przydatna wskazówka przy wymiarowaniu smukłych modeli.

Abeßer i in. (DEGA 2025) podkreślają, że MFCC „przechwytują właściwości widmowe sygnału audio w zakresie częstotliwości słyszalnym dla człowieka” i dlatego są szczególnie skuteczne w przypadku tonalnych dźwięków zwierząt, podczas gdy proste cechy w dziedzinie czasu, takie jak energia krótkotrwała lub współczynnik przejścia przez zero, pozostają nieodpowiednie w złożonych scenach dźwiękowych.

Krok 4 – Klasyfikacja: od CNN do modelu podstawowego

Na poziomie rozpoznawania wzorców w ciągu ostatnich dziesięciu lat zastąpiły się trzy pokolenia:

Klasyczne algorytmy, takie jak korelacja spektrogramu (Frommolt i in. 2012, wzór w bibliografii) porównują nieznane nagrania z szablonami referencyjnymi. Identyczne spektrogramy dają współczynnik korelacji 1; im wyższa wartość, tym bardziej podobne wywołania. Wykorzystano także ukryte modele Markowa (HMM) i lasy losowe.
Konwolucyjne sieci neuronowe (CNN), zwłaszcza BirdNET z Cornell University, traktują spektrogram jak obraz i hierarchicznie uczą się coraz bardziej złożonych wzorców czasowo-częstotliwościowych: najpierw struktury poziome (harmoniczne) i pionowe (przejściowe), a następnie kompletne motywy wywoławcze. Abeßer i in. (2025) opisują to hierarchiczne tworzenie cech jako podejście dominujące obecnie.
Modele Transformatora i Fundamentu wykorzystują samouważność i mogą uchwycić dłuższe zależności czasowe. Obecne modele audio-mowy, takie jak NatureLM-Audio, zostały opracowane specjalnie do analizy dźwięków zwierząt i według przeglądu DEGA mogą nawet klasyfikować gatunki rzadkie lub zagrożone.

Stan badań – pod względem dokładności i ograniczeń

Trzy artykuły dobrze opisują obecny stan wiedzy na temat automatycznego rozpoznawania śpiewu ptaków. Parafrazujemy najważniejsze stwierdzenia z odniesieniem do źródła:

Frommolt i in., Vogelwarte 50 (2012) – podstawy metodologiczne

Artykuł przeglądowy „Automatyczne metody nagrywania rozmów i piosenek” jest do dziś jednym z najczęściej cytowanych niemieckojęzycznych źródeł na ten temat. Trzy ustalenia są szczególnie istotne w praktyce:

Dzięki czułym mikrofonom nagranie dźwięku osiąga ten sam zakres co ludzki słuch – badanie porównawcze przeprowadzone przez Hobsona i in. (2002) w borealnym lesie mieszanym stwierdzili 83–97% zgodności między ustaleniami terenowymi i rejestracyjnymi.
Korelacja spektrogramu działa bardzo dobrze w przypadku wyraźnie ustrukturyzowanych wywołań: w przypadku trzcinniczki (Locustella luscinioides) metoda osiągnęła wskaźnik wykrywalności 92% przy zaledwie 1,2% błędnych interpretacji (Bardeli i in. 2010, cytowane w przeglądzie obserwatorium ptaków).
W przypadku silnie nakładających się zawołań kilku gatunków, współczynnik trafień drastycznie spada – Buxton i Jones (2012) podają jedynie 10% rozpoznanych zawołań w takich sytuacjach polifonicznych. Oto naukowe wyjaśnienie, dlaczego ciche środowisko nagrywania jest tak ważne.

Krüger, HfM Weimar (zima 22/23) – praktyczny przykład

Sophie Krüger dokumentuje swoją pracę projektową "Automatyczne rozpoznawanie śpiewu ptaków" budowę kompletnego detektora śpiewu ptaków opartego na DCASE „Audio ptaków”. Zestaw danych Detection Challenge”. Trzy wnioski są pouczające dla rozwoju naszej aplikacji:

Dzięki 13 elementom MFCC i losowemu klasyfikatorowi lasu prosty model osiąga współczynnik trafień na poziomie około 75% przy 200 plikach szkoleniowych – znacznie powyżej 50% losowej wartości bazowej klasyfikacji binarnej, ale wciąż zbyt niski, aby można go było zastosować w praktyce.
Zwiększenie zbioru danych do 500 lub 1000 plików nie doprowadziło automatycznie do lepszego rozpoznania w tym badaniu – wskazuje to, że jakość i różnorodność danych szkoleniowych jest ważniejsza niż czysta ilość.
Autor wyraźnie kończy zaleceniem, że informacje o rozdzielczości w czasie zawarte w spektrogramie Mel (zamiast uśrednionych w czasie MFCC) powinny jeszcze bardziej poprawić współczynnik trafień – dokładnie w tę stronę, jaką obrały współczesne CNN i modele Foundation.

Abeßer, Łukaszewicz, Ziegler i Bös, DEGA Akustik Dziennik 03/2025

Artykuł przeglądowy „Postępy w automatycznym rozpoznawaniu śpiewu ptaków” Fraunhofer IDMT podsumowuje stan wiedzy na rok 2025:

Śpiew ptaka akustycznie mieści się w zakresie częstotliwości 2–8 kHz. Elementy trylowe poszczególnych gatunków osiągają częstotliwość powtarzania aż do 48 Hz – tradycyjne metody przetwarzania sygnału osiągają tutaj swoje granice.
Normalizacja energii na kanał (PCEN) sprawdziła się jako skuteczna obróbka końcowa spektrogramu: filtruje szum wiatru poniżej 500 Hz, równoważy rozkład energii w całym zakresie częstotliwości i podkreśla kontury częstotliwości istotne dla wykrywania.
Według Czerwonej Listy IUCN 2025 12% wszystkich gatunków ptaków na świecie jest zagrożonych lub zagrożonych wyginięciem. Zautomatyzowany monitoring bioakustyczny (Passive Acoustic Monitoring, PAM) nie jest już zatem czymś przyjemnym, ale centralnym narzędziem w badaniach dotyczących ochrony przyrody.
Aktualne zbiory danych badawczych, takie jak BirdSet (ponad 6800 godzin dźwięku, prawie 10 000 zajęć) i Xeno-Canto (ponad 450 000 nagrań, ponad 10 000 gatunków ptaków) stanowią podstawę szkoleniową dla nowoczesnych modeli.

Hübner, Uniwersytet w Poczdamie (2006/2008) – metodyczne wiercenie głębokie

Rozprawa Sebastiana Hübnera "Modelowanie oparte na wiedzy klasyfikatorów sygnału audio - O bioakustyce Tursiops truncatus” został opracowany na przykładzie delfina butlonosego, ale opisuje kompletne, możliwe do przeniesienia ramy dla maszynowej adnotacji nagrań bioakustycznych. Trzy odkrycia są bezpośrednio przydatne w rozpoznawaniu śpiewu ptaków:

Odporność na szum tła: w kontrolowanym badaniu syntetycznych dźwięków gwizdka dokładność i precyzja klasyfikatorów spektrograficznych spadła znacząco dopiero przy stosunku sygnału do szumu poniżej -30 dB (rozdział 5.5). Aż do tej wartości współczynnik trafień pozostawał niezmiennie wysoki, co wskazuje, że metody oparte na spektrogramach nie wymagają nagrań studyjnych, aby wiarygodnie klasyfikować.
Określona ilościowo tolerancja polifonii: Według Hübnera, przy średnio trzech jednoczesnych dźwiękach gwizdka w jednym nagraniu, badana grupa klasyfikatorów nadal osiągała 79% dokładności przy 100% precyzji (rozdział 5.6). Dopiero po czterech lub więcej nakładkach wydajność znacząco spadła. W naszym przypadku oznacza to: dwa śpiewające ptaki nie stanowią problemu, ale chór o świcie z pięcioma śpiewakami jednocześnie.
Wizualizacja jako narzędzie naukowe: Używając palet kolorów zoptymalizowanych pod kątem kontrastu, Hübner pokazuje, że starannie dobrane kodowanie kolorami rozszerza zakres wartości widzialnych spektrogramu około trzykrotnie w porównaniu z reprezentacją w czystej skali szarości (rozdział 3.2). Delikatne odcienie, które pozostają niewidoczne w skali szarości, można rozróżnić dzięki zimnemu i ciepłemu kontrastowi w średnim zakresie wartości – to dokładnie zasada stojąca za dzisiejszymi powszechnymi paletami zapewniającymi jednakową percepcję, takimi jak viridis, magma czy inferno.

Metodologicznie w pracy podkreślono dwie zasady, które mają zastosowanie do każdego potoku klasyfikacji: po pierwsze, oddzielenie sygnatur zjawisk akustycznych (wiedza) i algorytmów rozpoznawania wzorców (technologia) – zasób wiedzy sformalizowany w postaci zwartej sygnatury przetrwa zmiany w podstawowych modelach (klasyczny detektor korelacji → CNN → model podstawowy) bez utraty informacji. Po drugie, obserwacja, że spektrogramy logarytmiczne zapewniają znacznie lepszą selektywność w przypadku cichych struktur niż wartości amplitudy liniowej – jest to krok, który nowoczesne rurociągi również konsekwentnie wykonują przed skalowaniem Mel.

Co pozostaje trudne

Pomimo całego postępu pozostają trzy problemy, których nawet OpenInsect nie rozwiązuje magicznie:

Polifonia: gdy kilka ptaków śpiewa jednocześnie, współczynnik rozpoznawalności spada czasami do 10% (Frommolt i in. 2012). Obecne badania nad separacją źródeł w oparciu o sztuczną inteligencję (BioCPPNet i inne) obiecują poprawę.
Słaby stosunek sygnału do szumu: Wiatr, ruch uliczny, woda i inne zwierzęta maskują odgłosy ptaków. Adaptacja domeny i PCEN częściowo to rekompensują, ale tylko częściowo.
Odmiana dialektu: ptaki posługują się regionalnymi dialektami pieśni. Walcott i in. (2006) wykazali na lonie zwyczajnym (Gavia immer), że struktury wywoławcze zmieniają się nawet w przypadku zmiany terytorium – z tego powodu model, który był szkolony wyłącznie na „standardowych nagraniach”, zawodzi.

Jak OpenInsect wdraża najlepsze praktyki naukowe

OpenInsect łączy kilka metod opisanych powyżej w pragmatyczny potok, który w jednym kroku tworzy zarówno klasyfikację akustyczną, jak i wizualizację:

Warstwa modelu: Podstawa zamiast klasycznego CNN

Zamiast wyspecjalizowanego CNN BirdNET, opieramy się na multimodalnym modelu podstawowym z natywnym wejściem audio, osadzonym w naszym własnym potoku AI do wstępnego przetwarzania, klasyfikacji i analizy kontekstu. Ta architektura ma dwie zalety w porównaniu z klasycznymi CNN o zwierzętach:

Może przetwarzać kontekst – pozycja GPS, pora dnia, temperatura, wilgotność, a nawet notatki użytkownika wpływają jako tekst na te same wnioski. Umożliwia to automatyczne zmniejszanie wagi gatunków mało prawdopodobnych regionalnie.
Działa to między gatunkami: ptaki, sowy, żaby, świerszcze i cykady są rozpoznawane według tego samego modelu – bez potrzeby stosowania osobnego klasyfikatora dla każdej grupy zwierząt. Odpowiada to badaniu Abeßera i in. (DEGA 2025) wspomniało o trendzie w kierunku „międzygatunkowego rozpoznawania dźwięków”.

Przetwarzanie danych audio po stronie serwera

Zanim model w ogóle zacznie klasyfikować, każde nagranie przechodzi wstępne przetwarzanie, które wynika bezpośrednio z cytowanych powyżej artykułów:

Normalizacja głośności do -18 LUFS zgodnie z EBU R128, dzięki czemu można porównywać nagrania z różnych odległości.
Filtr górnoprzepustowy przy 80 Hz chroniący przed wiatrem i hałasem ulicznym - dokładnie w tym zakresie częstotliwości, w którym według artykułu DEGA występuje najsilniejszy szum tła.
Usuwanie ciszy z progiem -40 dB, dzięki czemu model koncentruje się na rzeczywistych fragmentach połączeń.
Tworzenie spektrogramu za pomocą FFmpeg `showspectrumpic`, paleta kolorów viridis, pasmo częstotliwości 0-12 kHz, skala liniowa. Rezultatem jest grafika, którą widzisz po każdym trafieniu w Twój post.

Wzbogacanie kontekstu

Podczas przesyłania aplikacja wysyła nie tylko dźwięk, ale także kompaktową tabelę kontekstową: współrzędne GPS (w celu zapewnienia wiarygodności regionalnej), pora dnia (rano brzmią inaczej niż w nocy), dane pogodowe (wiatr wyjaśnia hałas w tle) i – jeśli są dostępne – notatki z obserwacji. Dane te radykalnie zmniejszają efektywny zestaw klas klasyfikacyjnych, a tym samym znacznie zwiększają dokładność pierwszej klasy bez konieczności ponownego uczenia samego modelu.

Najlepsze praktyki w zakresie wizualizacji: dlaczego nasze spektrogramy wyglądają tak, jak wyglądają

Spektrogram to nie tylko obraz dla optyki – to diagram naukowy, którego osie, skale i kolory przekazują informacje. Za spektrogramami OpenInsect świadomie podejmowane są cztery decyzje projektowe:

Liniowa oś częstotliwości zamiast logarytmicznej

W przypadku klasycznych ptaków śpiewających z głównym pasmem 2-8 kHz liniowa oś częstotliwości jest łatwa do odczytania - pasmo wokalne zajmuje dużą, równomiernie widoczną część grafiki. Skala logarytmiczna zawyżałaby niskie częstotliwości (poniżej 500 Hz), mimo że zwykle jest to tylko hałas powodowany przez wiatr lub ruch uliczny. Jednak w przypadku nawoływań sów o niskiej częstotliwości lub dużych ptaków skala Mel może być w rzeczywistości lepsza – możliwy tryb widoku w przyszłości.

Zakres częstotliwości 0–12 kHz

Górna granica wynika z twierdzenia Nyquista przy próbkowaniu 24 kHz. Wyższe częstotliwości nie mają znaczenia przy identyfikacji gatunków ptaków – Frommolt i in. (2012) oraz Abeßer i in. (2025) obaj potwierdzają, że główne pasmo kończy się tuż poniżej 10 kHz.

Viridis zamiast Jet

Paleta kolorów viridis jest percepcyjnie jednolita – równe odległości kolorów odpowiadają równym odległościom energii. Stara paleta „jet” (niebieski → cyjan → zielony → żółty → czerwony) tworzy skoki optyczne, których nie ma w sygnale i jest również trudna do odczytania dla osób niewidomych na kolor czerwono-zielony. W ostatnich latach naukowe oprogramowanie do bioakustyki w dużej mierze przeszło na viridis (lub magma/inferno).

Kompromis czas-częstotliwość

Używamy domyślnych ustawień FFmpeg (rozmiar okna ok. 2048 próbek, wielkość przeskoku 25%) - jest to świadomy kompromis pomiędzy rozdzielczością częstotliwościową i czasową, dzięki czemu rozpoznawalne są zarówno szybkie tryle, jak i długie gwizdki. W przypadku analiz badawczych o wysokiej rozdzielczości (np. częstotliwości tryli do 48 Hz, jak opisano w Podos 1997 i DEGA 2025), sensowny byłby mniejszy rozmiar okna – jest to punkt, w którym nadal możemy optymalizować.

Źródła i dalsza lektura

Jeśli chcesz głębiej zagłębić się w naukowe podstawy automatycznego rozpoznawania śpiewu ptaków, zalecamy następujące ogólnodostępne źródła podstawowe:

Frommolt, K.-H., Hüppop, O., Bardeli, R., Hill, R., Koch, M., Tauchert, K.-H. i Specht, R. (2012): Zautomatyzowane metody nagrywania rozmów i śpiewów w awifaunistycznych badaniach terenowych. Vogelwarte 50, s. 65–78. PDF (Zobodat)
Krüger, S. (zima 22/23): Automatyczne rozpoznawanie śpiewu ptaków. Prace projektowe w ramach „Analizy dźwięku wspomaganej sztuczną inteligencją”, Uniwersytet Muzyczny Franza Liszta w Weimarze (prof. dr Pfleiderer / prof. Abeßer). PDF (HfM Weimar)
Abeßer, J., Lukashevich, H., Ziegler, S. & Bös, J. (2025): Postępy w automatycznym rozpoznawaniu śpiewu ptaków. Akustik Journal 03/2025 (Niemieckie Towarzystwo Akustyczne), s. 7–16. PDF (DEGA Akustik)
Hübner, S. (2006/2008): Oparte na wiedzy modelowanie klasyfikatorów sygnałów audio – O bioakustyce Tursiops truncatus. Rozprawa doktorska, Wydział Nauk Humanistycznych Uniwersytetu w Poczdamie, wydanie 2, poprawione, University Press Potsdam. PDF (Uniwersytet w Poczdamie)

Zalecenie dla naukowców i naukowców-obywateli: Anonimowe nagrania OpenInsect zawierające spektrogram i dane kontekstowe (GPS, pogoda, poziom pewności) można z powodzeniem wykorzystać do walidacji własnych modeli lub analiz różnorodności biologicznej. Jeśli jesteś zainteresowany eksportem danych strukturalnych, możesz skontaktować się z nami za pośrednictwem aplikacji - postrzegamy siebie jako obywatelską platformę naukową, analogiczną do Xeno-Canto i Macaulay Library, z dodatkową wartością dodaną polegającą na tym, że każde nagranie zawiera już wizualizację spektrogramu.

Pobierz teraz OpenInsect za darmo

Wypróbuj samodzielnie rozpoznawanie śpiewu ptaków – OpenInsect jest dostępny na iOS i Androida:

Przy każdym przesłaniu zasilasz model prawdziwymi danymi obserwacyjnymi i stajesz się częścią rosnącej społeczności miłośników przyrody, ornitologów hobbystycznych i naukowców-obywateli.

Kategoria: App, Bioakustik, KI, Spektrogramm, Vogelgesang, Vogelstimmen, Wissenschaft