Microsoft patentiert AI-Gerät mit Fischaugen-Kamera und mehreren Mikrofonen

Microsoft patentiert AI-Gerät mit Fischaugen-Kamera und mehreren Mikrofonen 1

Microsoft hat in der jüngeren Vergangenheit häufig die Bedeutung der KI hervorgehoben und sogar vorhergesagt, dass ihre verschiedenen Anwendungen in den nächsten Jahren 5 Billionen US-Dollar zum globalen BIP-Wachstum beitragen werden. Viele der Partnerschaften des Unternehmens in den letzten Monaten konzentrierten sich ebenfalls auf dasselbe Gebiet.

  

Jetzt ist ein neues Microsoft-Patent erschienen, das diesen Monat veröffentlicht wurde und ein KI-System mit einer einzigen Fischaugen-Kamera und mehreren Mikrofonen vorstellt.

Fisheye-Kameras haben spezielle Objektive, mit denen sie eine vollständige 360-Grad-Ansicht überwachen können. Obwohl die Technologie keineswegs neu ist, plant Microsoft, sie auf andere Weise mit Umgebungserfassungsgeräten zu kombinieren. Solche Umgebungserfassungssysteme weisen typischerweise mehrere Kameras auf, um ihr Sichtfeld zu erweitern. Dies erfordert komplizierte Konstruktionen und führt auch dazu, dass zusätzliche Hardware erforderlich ist, um mehrere audiovisuelle Datenströme zu verschmelzen.

Microsoft patentiert AI-Gerät mit Fischaugen-Kamera und mehreren Mikrofonen 2 Ein Beispiel für das Aufnahmegerät

Aus diesem Grund hat Microsoft eine nach oben gerichtete Fischaugen-Kamera vorgeschlagen, die mit diesen Geräten zusammen mit einem Mikrofonarray verwendet werden kann. Dies würde die Schwierigkeiten lösen, die mit dem Erfassen von sich bewegenden Objekten oder dem Fokussieren auf die Bewegung eines einzelnen Objekts zwischen mehreren Zielen verbunden sind. In Bezug auf die Platzierung der Hardware wurden zahlreiche Techniken beschrieben. Beispielsweise kann die Mehrzahl der Mikrofone in einem kreisförmigen oder sechseckigen Muster angeordnet sein, wobei sich eine andere Stelle am Mittelpunkt in derselben Ebene befindet. In ähnlicher Weise ist es wünschenswert, dass sich die Fischaugen-Kamera in unmittelbarer Nähe des Mikrofonarrays sowie einer Boden- oder Tischoberfläche befindet, um Daten auf optimale Weise zu erfassen.

Ein Fusionsmodell kann auch Teil dieses Systems sein und Deep-Learning-Algorithmen verwenden, um eine bessere Intuition in Bezug auf die erfassten Audio- und Videodaten zu erlangen. Beispielsweise kann ein wiederkehrendes neuronales Langzeit-Kurzzeitspeicher-Netzwerk (Long Term Short Memory, LSTM) bereitgestellt werden. Diese Art von Netzwerk kann aufgrund seiner Beschaffenheit kontextbezogene und historische Informationen speichern, so dass jede durchgeführte Analyse auch für zukünftige Anwendungsfälle viel nützlicher ist.

Microsoft patentiert AI-Gerät mit Fischaugen-Kamera und mehreren Mikrofonen 3 KI-System mit Erfassungsgerät und Cloud-Server

Basierend auf dem beschriebenen Modell wird angemerkt, dass die Verwendung der Vorrichtung weiter erweitert werden könnte, beispielsweise um Sprache von einem identifizierten menschlichen Sprecher zu erkennen. Dies bedeutet im Wesentlichen, dass die Technologie auch in digitale Assistenten wie Cortana integriert werden kann. Microsoft merkt an, dass das beschriebene Setup es digitalen Assistenten ermöglichen kann, umfangreichere Informationen in Bezug auf ihre Umgebung aufzuzeichnen und gleichzeitig die von Benutzern empfangenen höherwertigen Audio- und Video-Hinweise relativ einfach zu erkennen und zu verarbeiten. Die Fischaugen-Kamera und das Mikrofonarray würden als integraler Bestandteil dieser Anwendung dienen. Die von diesen gesammelten Daten könnten die oben genannten LSTM-Modelle nutzen, um weitere Analysen oder Fusionen in einem AI-Cloud-Server durchzuführen, nachdem diese in komprimierter Form lokal gespeichert wurden.

Die Bereitstellung des Systems ist jedoch nicht nur auf digitale Assistenten beschränkt. Jede der beschriebenen Techniken kann es durchaus ermöglichen, mit PCs, Tablets, Mobiltelefonen und mehr zu arbeiten. So interessant es auch klingt, Microsoft plant nicht, ein solches Gerät in Kürze, wenn überhaupt, einzuführen.