Hallo!
Ich möchte im folgenden Post ganz kurz umreißen, worum es in meiner Diplomarbeit ging.
Es sei vorweggenommen, dass ich kein Bienenexperte bin, sondern Mathematiker, der freundlicherweise Daten von Hivewatch bekommen hat, um diese zu analysieren – herzlichen Dank Silvio!
Nachdem ich mich in das Thema Bienenhaltung etwas eingelesen habe, stellte ich fest, dass ein wichtiger Teil im Imkerleben die zeitgerechte Benachrichtigung über Ereignisse in den Stöcken ist – z.B. Ausschwärmen, Räuberei und ähnliches. Da eine umfassende Behandlung des Themas unrealistisch schien, konzentrierte ich mich auf zwei kleine Teilgebiete – nämlich die robuste Erkennung abweichender Gewichtsverläufe und Gewichtsprognosen in regulären Verläufen. Ob und inwieweit diese Teilgebiete zu einem Indikator für Störungen beitragen könnte, kann hier gerne diskutiert werden
Um die Gewichtsverläufe so brauchbar wie möglich darzustellen habe ich robuste Signalextraktion verwendet. Das lieferte relativ ruhige Graphen und ermöglichte eine weitere Analyse, indem starke Ausreißer eliminiert wurden.
Bild1: die rohen Gewichtsdaten
Bild2: die gefilterten Gewichtsdaten
Ich habe versucht, abweichendes Verhalten im Gewichtsverlauf zu erkennen, dafür wurden verschiedene multivariate Abstandsmaße verwendet. Es wurde von der Annahme ausgegangen, dass sich Gewichtsverläufe nebeneinanderstehender Hives unter Berücksichtigung der Gewichtsdifferenz und des Zustands des Hives ungefähr ähnlich verhalten was Nektar- und Polleneintrag angeht.
Ein Beispiel für die Darstellung ähnlichen Verhaltens ist die Verwendung von Hauptkomponentenanalyse.
Bild1: Prototypische Gewichtsverläufe, Hive 1 und 4 sind ähnlicher zueinander als die restlichen Hives.
Bild2: Die Hauptkomponentenanalyse zeigt die Ähnlichkeit mit einem kleineren Winkel zwischen Gewicht 1 und 4, zeigt also die Korrelation an.
Eine weitere Möglichkeit Unterschiede im Gewichtsverlauf zu finden, besteht in einem robusten Vergleich der Steigungen.
Bild1: Gewichtsverlauft mit ausbrechendem Verlauf nach oben.
Bild2: Abstandsmaße der Steigung; die Stelle des Ausbrechens ist mit einem vertikalem Strich markiert.
Um Gewichtsprognosen zu erstellen, habe ich verschieden Regressionsmodelle gerechnet. Es stellte sich heraus, dass ein normales lineares Modell mit Interaktionsterm genauso gut passte wie kompliziertere Varianten.
Im Bild zu sehen ist der originale Gewichtsverlauf in rot. Die grüne Linie zeigt die angepassten Gewichtswerte des Modells und die orangen Linien zeigen das dazugehörige Konfidenzintervall. Wie man sieht, wird der wesentliche Verlauf gut abgebildet. Die blaue Linie zeigt die Werte, wen man den Interaktionsterm Stunde*Temperatur weglässt – die Anpassung ist wesentlich ungenauer.