▷ Lernen Sie GeoCode kennen: eine Technik der künstlichen Intelligenz für die 3D-Formsynthese unter Verwendung eines intuitiv bearbeitbaren Parameterraums

Hinweis: Der folgende Artikel hilft Ihnen dabei: Lernen Sie GeoCode kennen: eine Technik der künstlichen Intelligenz für die 3D-Formsynthese unter Verwendung eines intuitiv bearbeitbaren Parameterraums

Der rasante Anstieg der Rechenleistung und die Zugänglichkeit von Berechnungen haben eine breite Palette von Anwendungen in der Bildverarbeitung und Grafik ermöglicht. Dadurch ist es nun möglich, komplexe Aufgaben wie Objekterkennung, Gesichtserkennung und 3D-Rekonstruktion in kurzer Zeit durchzuführen. Insbesondere im 3D-Bereich haben Fortschritte in der Bildverarbeitung und Grafik die Entwicklung computerbasierter Spiele, Proof-of-Concept-3D-Filme und -Animationen sowie Optionen für Virtual- und Augmented-Reality-Erlebnisse ermöglicht. Darüber hinaus stehen viele Anwendungen im Bereich Computer Vision und Grafik kurz vor der Umsetzung oder wurden bereits mit Hilfe von Deep Learning und künstlicher Intelligenz angegangen.

Diese Methoden basieren auf künstlichen neuronalen Netzen, mit denen komplexe Muster in Daten gelernt werden. Deep-Learning-Netzwerke sind hierarchisch, das heißt, sie bestehen aus mehreren Schichten, wobei jede Schicht ein bestimmtes Muster lernt. Der Lernprozess kann entweder überwacht sein, was bedeutet, dass beschriftete Daten zum Trainieren des Modells verwendet werden, oder unbeaufsichtigt sein, was bedeutet, dass keine beschrifteten Daten für den Trainingsprozess bereitgestellt werden. Nach dem Training kann das Modell Vorhersagen über Daten treffen, die es zuvor noch nicht gesehen hat. In diesem Sinne ist die Vorhersage nicht streng auf die Definition ihres Begriffs beschränkt. Es bezieht sich auf eine Vielzahl von Vorgängen wie Objekterkennung, Objekt-/Entitätsklassifizierung, Multimedia-Generierung, Punktwolkenkomprimierung und vieles mehr.

Die Verwendung dieser neuronalen Netze zur Lösung von Problemen im 3D-Bereich kann schwierig sein, da hierfür mehr Rechenleistung und Aufmerksamkeit erforderlich sind als im 2D-Bereich. Eine wichtige Aufgabe betrifft die 3D-Bearbeitung und die menschliche Interpretierbarkeit geometrischer Parameter.

Die Vereinfachung des 3D-Bearbeitungs- oder Anpassungsprozesses kann für Spiele- oder Computergrafikanwendungen wichtig sein. Menschen, die sich für Spiele interessieren, kennen wahrscheinlich die Details der Anpassungsmöglichkeiten, die einige Editoren bei der Erstellung eines personalisierten Avatars in Spielen, vom Sport bis zum Actionspiel, bieten können. Haben Sie sich jemals gefragt, wie viel Zeit es dauert, all diese Eigenschaften auf Entwicklerseite einzurichten? Die Definition all dieser Merkmale kann Wochen oder im schlimmsten Fall Monate dauern.

Gute Nachrichten stammen aus der in diesem Artikel vorgestellten Forschungsarbeit, die dieses Problem beleuchtet und eine Lösung zur Automatisierung dieses Prozesses vorschlägt.

Der vorgeschlagene Rahmen ist in der folgenden Abbildung dargestellt.

Das Ziel besteht darin, ein bearbeitbares 3D-Netz aus einem Eingabeelement wiederherzustellen, das als 3D-Punktwolke oder 2D-Skizzenbild dargestellt wird. Zu diesem Zweck erstellen die Autoren prozedurale Software, die eine Reihe von Formbeschränkungen durchsetzt und durch für Menschen leicht verständliche Steuerelemente parametrisiert wird. Nachdem sie einem neuronalen Netzwerk beigebracht haben, die Programmparameter abzuleiten, können sie durch Ausführen des Programms eine bearbeitbare 3D-Form erzeugen und wiederherstellen. Diese Anwendung verfügt zusätzlich zu Strukturdaten über einfache Steuerelemente, die zu einer konsistenten Segmentierung semantischer Teile nach Gebäude führen.

Konkret unterstützt das Programm drei Parameter: diskret, binär und kontinuierlich. Die Entflechtung der Formparameter garantiert eine genaue Kontrolle über die Objekteigenschaften. Beispielsweise können wir die Form der Sitzfläche von den anderen Teilen eines Stuhls isolieren. Daher hat eine Änderung des Sitzes keinen Einfluss auf die Geometrie der übrigen Parameter, wie z. B. der Rückenlehne oder der Beine.

Um Flexibilität bei der Bearbeitung zu erhalten, werden Netzprimitive wie Kugeln oder Ebenen erstellt und entsprechend den Anforderungen des Benutzers geändert. Zwei Kurven leiten die Erzeugung der endgültigen Form: eine eindimensionale Kurve, die einen Pfad im 3D-Raum beschreibt, und eine zweidimensionale Kurve, die das Profil der Form darstellt.

Das Definieren von Kurven auf diese Weise ermöglicht eine große Vielfalt an Kombinationen, die nicht nur durch die Kurven selbst, sondern auch durch die Verbindungspunkte, also die Punkte, an denen zwei Kurven miteinander verbunden sind, angegeben werden. Diese Punkte können durch einen skalaren Gleitwert von 0 bis 1 definiert werden, wobei 0 den Anfang und 1 das Ende der Kurve darstellt.

Bevor die Parameter dem Programm zur endgültigen 3D-Formwiederherstellung zugeführt werden, wird eine Encoder-Decoder-Netzwerkarchitektur genutzt, um eine Punktwolke oder eine Skizzeneingabe auf die Parameterdarstellung abzubilden.

Der Encoder bettet die Eingabe in einen globalen Merkmalsvektor ein. Anschließend werden die Vektoreinbettungen einer Reihe von Decodern zugeführt, von denen jeder die Aufgabe hat, die Eingabe in einen einzelnen Parameter zu übersetzen (Entflechtung).

GeoCode kann für verschiedene Bearbeitungsaufgaben verwendet werden, beispielsweise für die Interpolation zwischen Formen. Ein Beispiel ist in der folgenden Abbildung dargestellt.

Dies war die Zusammenfassung von GeoCode, einem neuartigen KI-Framework zur Lösung des Problems der 3D-Formsynthese. Bei Interesse finden Sie weitere Informationen unter den untenstehenden Links.

Table of Contents

Lernen Sie GeoCode kennen: eine Technik der künstlichen Intelligenz für die 3D-Formsynthese unter Verwendung eines intuitiv bearbeitbaren Parameterraums

Mehr lesen: