It all started with using AI Image Generation capabilities to (re)generate from minimal data. The recording of metaverse experiences supports various use cases in collaboration, VR training, and more. Such Metaverse Recordings can be created as multimedia and time series data during the 3D rendering process of the audio–video stream for the user. To search in a collection of recordings, Multimedia Information Retrieval methods can be used. Also, querying and accessing Metaverse Recordings based on the recorded time series data is possible. The presentation of human-perceivable results of time-series-based Metaverse Recordings is a challenge. This paper demonstrates an approach to generating human-perceivable media from time-series-based Metaverse Recordings with the help of generative artificial intelligence. Our findings show the general feasibility of the approach and outline the current limitations and remaining challenges. Read the full paper
Leave a CommentPatrick Steinert Posts
Steinert Insights 25-01
Happy New Year Edition!
Ich wünsche allen Lesern ein frohes Neues!
What’s Up
Das Jahr ist noch jung, aber wie nach vielen meiner Auszeiten sprudeln die Ideen und Pläne werden gemacht.
Trick-Labs Projekte
Urlaub ist Urlaub ;-)
Brainwaves von Patrick
Dieses Jahr soll ja ein krasser Wahlkampf starten. Aktuell scheinen mir die wählbaren Parteien unfähig zu sein, die Wünsche des breiten Volks in die Wahlprogramme zu schreiben. “Veränderung” scheint ein zu heißes Eisen zu sein. Veränderung ist bitter nötig: Bürokratieabbau und Digitalisierung der öffentliche Verwaltung, Reduktion des Föderalismus, Mut und Zukunft für die Arbeitswelt, die nicht von einem zunehmend unfinanzierbaren Sozialsystem getragen werden.
Jetzt will ich nicht nur anprangern, sondern durchaus aktiv sein. Leider habe ich noch keine Antwort gefunden, wie das mit Wirkung erzielen kann. Anderen geht es ebenso. Falls jemand einen guten Ansatz hat, her damit.
What’s On
Die Regular Season der NFL geht heute zu Ende und es stehen noch spannende Spiele auf dem Programm. Count me in!
Leave a CommentPrognosen für 2025: Trends, Herausforderungen und Chancen
Das Jahr 2025 verspricht, ein wegweisendes Jahr für Technologie, Gesellschaft und Politik zu werden. Hier sind einige der zentralen Themen und Entwicklungen, die uns aus meiner Technologie-Sicht beschäftigen werden:
Künstliche Intelligenz: Mehr Automatisierung und neue Werkzeuge
Das Thema wird uns weiter stark beschäftigen. Neben vielen hunderten kleineren Entwicklungen sehe ich diese Themen als besonders ausschlaggebend.
KI-Agenten auf dem Vormarsch
KI-Agenten, eine relativ neue Technologie, halten zunehmend Einzug in verschiedenste Bereiche und entwickeln sich zu einem entscheidenden Einflussfaktor für die Automatisierung. Sie übernehmen immer komplexere Aufgaben und Arbeitsabläufe, automatisieren nicht nur repetitive Tätigkeiten, sondern auch ganze Prozesse – und revolutionieren so Effizienz und Produktivität.
Agentic-IDEs in der Softwareentwicklung
Die nächsten Entwicklungsumgebungen (IDEs) sind zunehmend KI-gestützt. Dadurch können Programmierer ihre Arbeit schneller und präziser erledigen. Bestehende Code-Generatoren und Assistenzsysteme werden weiter verfeinert, was die Softwareentwicklung revolutionieren dürfte. Werden wir Autonomous Coding Level 3 oder sogar 4 erreichen? Wer weiß :)
Stabilität statt Revolution
Entgegen mancher Erwartungen ist nicht mit grundlegend neuen KI-Modellen zu rechnen. Stattdessen liegt der Fokus auf der gezielten Optimierung und breiteren Anwendung bewährter Technologien.
Bonusprognose: Allgemeine Künstliche Intelligenz nicht in 2025.
2. Rechtliche Vorgaben: Neue Regulierungen, neue Herausforderungen
Barrierefreiheitsstärkungsgesetz (BFSG)
Im Jahr 2025 rückt das BFSG für viele Betreiber von Webshops und Apps in den Mittelpunkt. Die höheren Anforderungen an barrierefreie digitale Angebote erfordern umfassende Anpassungen, um alle Nutzergruppen einzubinden. Hier gibt es ein Webinar zur Thematik
NIS-2-Richtlinie
Die neue EU-Richtlinie zur Netzwerk- und Informationssicherheit (NIS-2) verschärft die Sicherheitsanforderungen für Unternehmen. Viele Firmen müssen in IT-Security und Compliance investieren, um den Vorgaben gerecht zu werden.
3. SEO wird zu AEO: Optimierung für KI-Suchmaschinen
Von Mensch zu Maschine
Mit dem Aufkommen KI-basierter Suchlösungen (z. B. GPT Search und Perplexity Search) wird sich die SEO-Arbeit verändern. Webseiten sind nicht mehr nur für Menschen, sondern zunehmend auch für „maschinelle Leser“ relevant. Um von KI-Systemen verstanden und optimal ausgewertet zu werden, müssen Inhalte anders aufbereitet werden. Unternehmen und Content-Ersteller benötigen Konzepte, die Endnutzer und KI-Systeme gleichermaßen überzeugen.
4. Politik: Wahljahr und digitale Debatten
Es ist Wahljahr und dringender Handlungsbedarf. Also wird uns die Politik auch im digitalen Beschäftigen.
Social Media im Wahlkampf
2025 ist Wahljahr, und Social-Media-Plattformen wie Twitter und Facebook werden erneut zu wichtigen Schauplätzen der politischen Kommunikation. Gleichzeitig benötigt es großen Druck, um die Debattenkultur zu verbessern und Polarisierungen abzubauen. Social Media funktioniert über Polarisierung. Wie erreichen wir eine bessere Debattenkultur ohne permanent auf Spaltung zu gehen? Für die kommende Wahl wird das nicht mehr relevant, aber es geht um mehr. Wie bleiben wir eine Demokratie.
Digitalisierung der Verwaltung
Prognose oder Hoffnung: Die deutsche Gesellschaft fordert mehr Tempo bei der Digitalisierung von Behörden. Es besteht akuter Handlungsbedarf, um international den Anschluss wiederzufinden. Hier könnten politische Beschlüsse nach der Wahl zukunftsweisend sein. Letztlich wird der bevorstehende Personalmangel ein Motivator sein – so hoffe ich.
Fazit: 2025 als richtungsweisendes Jahr
Ob Künstliche Intelligenz, neue rechtliche Anforderungen, SEO für KI oder die politische Landschaft – das Jahr 2025 bringt bedeutende Herausforderungen und Chancen. Unternehmen, Politik und Gesellschaft stehen vor der Aufgabe, diese Veränderungen aktiv zu gestalten. Die in diesem Jahr getroffenen Entscheidungen und Weichenstellungen werden weit über 2025 hinaus wirken.
1 CommentSteinert Insights 24-51
What’s Up
Einen schönen vierten Advent. Das Jahr ist fast rum und der übliche Trubel ebbt langsam ab. Daher habe ich die Zeit ein paar Dinge abzuschließen und ein paar Gedanken aufzuschreiben. So etwa meine jüngste Einschätzung zu Generativer KI in der Softwareentwicklung.
Trick-Labs Projekte
AI-Lab
Überraschend bin ich die Woche auf die IDE Windsurf gestoßen, eine Agenten-basierte Software. Die Agenten können umfangreiche Code Anforderungen umsetzen, was sehr krass ist. So konnte ich ein noch unbekanntes Projet deutlich nach vorne bringen.
Daneben habe ich wieder etwas mit lokalen LLMs getestet. Phi-4 von Microsoft funktioniert mit ollama auf meinem lokalen System mit RTX 3090Ti. Sogar recht performant. Die Ergebnisse sind für eine lokales Model sogar recht brauchbar, der Test dauert aber noch an.
Velo Wear
Neben ein paar Kleinigkeiten geht es hauptsächlich um die Siri-Integration. Dabei musste ich erstmal verstehen, wie das sich Apple das so gedacht hat. Die Siri-Sprachsteuerung und die Shortcuts für die Workflow App sind dabei verknüpft. Das wird von Flutter noch nicht ganz so gut unterstützt. Aber der Durchstich ist gelungen, jetzt geht es um die Liebe zum Detail.
Dissertation
Keep on writing. Auch hier ist liebe zum Detail gefragt, aber in den Formulierungen. Meine Erkenntnis: Lesen und korrigieren geht besser am iPad als am Desktop.
Brainwaves von Patrick
LEBEM (Lernern, Ernährung, Bewegung, Erholung, Motivation) ist ein Prinzip, dass ich ganz gerne nutze eine Balance zu erreichen. Die kommende Woche gehts um Erholung.
What’s On
Es ist auffällig, dass in letzter Zeit einige der großen kreativ YouTuber in meiner Bubble wieder aktiv werden. Nach Peter McKinnon und Peter Lindgren meldet sich nun auch Matt D’Avella wieder zurück. Zufall?
Leave a CommentGenerative KI in der Softwareentwicklung: Fortschritte und Grenzen
Ende 2024 stellt sich die Frage wie die Generative KI in der Softwareentwicklung vorangeschritten ist. Die Softwareentwicklung erlebt derzeit einen tiefgreifenden Wandel, der durch den Einsatz generativer KI (GenAI)-Tools vorangetrieben wird. Von automatisierten Code-Vervollständigungen bis hin zur vollständigen Erstellung von Prototypen bieten diese Tools neuartige Möglichkeiten, die Effizienz, Produktivität und sogar die Kreativität von Entwicklern zu steigern. Doch wie weit sind wir wirklich gekommen, und welche Bereiche der Softwareentwicklung werden bereits heute durch GenAI beeinflusst? In diesem Artikel werfen wir einen umfassenden Blick auf den aktuellen Stand der Dinge, betrachten praxisnahe Anwendungsfälle, beleuchten bestehende Herausforderungen und wagen einen Ausblick auf die Zukunft.
2 Comments
Steinert Insights 24-50
What’s Up
Nach dem ganzen Australien Adventure zum Besuch der ACM Multimedia 2024 musste ich erstmal im tiefsten Herbst und üblichen Job-Streß ankommen.
Trick-Labs Projekte
Cycling
- Velo Wear Release 1.1.0: Kleines Update, große Wirkung: durch die Geolokalisierung und Wettervorhersage wird die passende Wettersituation nun automatisch eingestellt.
- Stop starting and start finishing – so ein App Release zählt doch als Finish, oder? Ich habe zwei neue Projekte gestartet
AI-Themen
Thema Code-Assistenten. Durch die Entwicklung der Velo Wear App mache ich weiter Erfahrungen mit Plugins oder IDEs für KI Code Assistenten. Bisher bekannt ist Github Copilot. In der letzten Zeit habe ich Cursor verwendet und doch begeistert. Zunächst weil das verwendete Anthropic Claude 3.5 Sonnet Model deutlich (15%) besser ist als die Copilot Modelle, aber eben auch die Integration in die IDE viel mehr Automatisierung ermöglicht. Funktional kann ich Cursor nur wärmstens empfehlen. Der Haken sind die 20 USD Subscription. Doppelter Preis zu Copilot. Nun denn, erstmal zurück zu Copilot und immerhin ist dort nun auch Claude 3.5 Sonnet verfügbar. Aber die Anwendung des Codes in der IDE hängt noch hinter Cursor zurück. Mittelfristig werd ich dann wechseln, sofern Copilot nicht nachzieht. Ansonsten steht noch Blot.diy auf dem Testzettel.
Dann habe ich mit mir AI-basierte Crawler angesehen. Dabei bin ich auf mehrere kommerzielle Anbieter gestoßen. Da ich für Experimente aber keine Subscription abschließen möchte habe ich weitergesucht und scrapegraphai gefunden. Das benötigt einen OpenAI API Key und kann dann beeindruckent gut gewünschte Daten ziemlich konsistent im JSON Format liefern. Stark, ich werde berichten.
Dissertation
Publikationen (nachgereicht)
Mal wieder Co-Autor: ich habe am Avatar Detection Paper gearbeitet, was bei MDPI Virtual Worlds publiziert.
Daneben habe ich an meinen eigenen Papern gearbeitet, als Pre-Print ist nun eine Feld Studie zu Information Needs in Metaverse Aufnahmen auf arXiv veröffentlicht. Mit der Veröffentlichung dieser Feldstudie konnte ich einen wichtigen Beitrag zur Diskussion über neue Anforderungen an Multimedia-Retrieval-Systeme leisten, speziell im Kontext des Metaverse. Besonders spannend fand ich die Vielfalt der Anwendungsfelder, die sich durch MVRs ergeben – von immersiven Trainingsumgebungen bis hin zur Dokumentation von virtuellen Meetings. Gleichzeitig ist klar geworden, dass bestehende Technologien oft an den komplexen Datenstrukturen scheitern, die im Metaverse allgegenwärtig sind. Hier liegt eine spannende Herausforderung, die ich in zukünftigen Projekten weiterverfolgen möchte.
Brainwaves von Patrick
Noch mal zurück zum KI Programmieren. Ich hatte bereits die Kategorisierung der 5 Level des Autonomen Programmierens vorgestellt. Level 5 ist noch ziemlich weit weg. Aber mit den aktuellen Möglichkeiten wie Cursor kann schon beobachtet werden, dass nicht mehr nur Codeschnipsel in bestehenden Code reinkopiert werden (wie früher von Stackoverflow), sondern sinnvoll Funktionen im Kontext erstellen oder funktionale Teile an mehreren Stellen in mehreren Dateien einfügen. Das ist schon Autonomous Coding Level 2 (Coders primarily use the IDE to specify features, and the AI then modifies the code accordingly). Das verändert auch die Art, wie ich einen Programmier-Task angehe. Dazu muss ich mir mal mehr Gedanken machen.
What’s On
Lohnenswert: die aktuelle Folge Software Architektur im Stream von den IT-Tagen. Das Thema der Podiumsdiskussion: Wie sieht unsere IT-Arbeitswelt 2034 aus? Interessante Gedanken.
Leave a CommentVelo Wear 1.1.0 Release – Jetzt mit Lokalisierung und Wetterdaten
Egal welches Wetter, Velo War hilft dir die Bekleidung & Ausrüstung für deine nächste Ausfahrt auf dem Rennrad auszuwählen. Dazu kann die Version 1.1.0 nun auch deine Position verwenden und automatisch die Wetterdaten einstellen. Die letzten Wochen habe ich an der Integration der Daten gearbeitet. Daneben gibt es auch ein kleines Redesign. Insgesamt macht die App für den aktuellen Stand ein gutes Bild.
Ich habe noch weitere Ideen die ich nun umsetzen möchte. Mich hat der Wunsch nach Produktempfehlungen zu den erwähnten Produkten erreicht. Das ist zum Beispiel eine Idee. Aber auch ein Android Release wurde gewünscht. Dazu fehlt mir noch ein passendes Testgerät.
Da die kalte Jahreszeit da ist, ist die Frage nach der richtigen Kleidung umso relevanter. Probier Velo Wear doch einfach mal aus. Kost auch nichts.
1 CommentUpdates KW 33
Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:
Trick-Labs aka Tech-Projekte
llama.cpp: Ich habe einige Versuche mit Llama3-basierten Modellen gemacht, um RAG-Antworten lokal zu generieren. Leider habe ich noch keine funktionierende Config gefunden.
Auf der GPU werden fleißig Metaverse Aufnahmen mit Whisper und Yolo durchgerechnet. Experimente für Evaluierungen. Deswegen ist es warm im Raum. Fast 40°C Abwärme. Im Sommer. Ein Traum. Nicht.
Ich habe vor einigen Wochen mal angefangen eine App zu entwickeln. Es ging zunächst darum, zu prüfen wie viel KI-Tools wie Github Copilot und ChatGPT einem da abnehmen können (Video). Nach meinem Modell stehen wir da aktuell bei Autonomy Level 1. Es sollte eine Video Serie werden, nun ja, jetzt ist die App zumindest soweit, dass sie im App Store ist
Mal sehen, wie es da weitergeht. Bei der Veröffentlichung war jedenfalls viel rechtliches geklicke notwendig. Das hat fast solange gedauert, wie die App zu generieren. Das zweite Video dazu sollte auch bald kommen™️.
Sonstiges
SNAFU
Bis bald
Leave a CommentMonatsupdate August
Dissertation Update
Updates an der Publication-Front:
Das Paper Integration of Metaverse and Multimedia Information Retrieval von der ICSA ist nun in der ACM Digital Library verfügbar
Zum 256 Metaverse Recording Dataset habe ich ein Paper geschrieben, dass auf der ACM Multimedia 2024 angenommen wurde! Hier gehts zum OpenReview
Mit einem Studenten habe ich ein Paper zur Avatar Erkennung geschrieben. Dies ist als Preprint verfügbar.
Research Topics:
Image generation: Aktuell exploriere ich mit Bildgenerierung von Metaverse Daten für die Result Presentation. Experimente laufern mit Stable Diffusion 3 (medium und large). Beide Modelle sind sehr interessant, vor allem wiel die Textgenerierung in den Bildern schon sehr gut läuft, wenn auch nicht perfekt.
Weitere Experimente laufen mit Obejct Detection und Sprachanalyse. Detectron 2 bietet eine gute Umsetzung von R-CNN Varianten, eine Alternative zum bekannteren YOLO Netzen. Auch die neuen YOLO Versionen (v10 , April oder Mai veröffentlicht) wäre eine Untersuchung auf Metaverse Content Wert. Also auf die Todo Liste. Dazu gehe ich in die Sprachanalyse, ich bin sher begeistert von der Qualität von Whisper und untersuche nun die Toxizität in den Metaverse Aufnahmen.
Skill2Lead
Skill 2 Lead: Ich arbeite weiter an Coaching Inhalten für Fachkräfte, die sich zur Führungskraft entwickeln wollen oder es jüngst wurden. Als Sideproject aktuell nicht die Top-Prio.
Sonstiges
Juli: 145,6 km Rad gefahren. Nicht sooo viel, aber immherin summiert es sich auf 638,2 km in diesem Jahr. Wird mal wieder Zeit für 3-stellige Touren :)
VeloWear App: Kann man mit KI eine App bauen, ohne Programmierkenntnisse zu haben? Ja, soweit geht das schon. Ich habe den ersten Teil einer YT-Serie gestartet. Die App ist schon im Testflight Mode, Part 2 kommt bald.
1 CommentUpdates KW 25
Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:
Tech-Projekte:
- RAG mit Langchain: Ich habe endlich Zeit gefunden, Retrieval-Augmented Generation (RAG) mit Langchain zu testen. Die Evaluierungen waren recht aufschlussreich, und ich bin begeistert von den Möglichkeiten, die sich dadurch für meine Projekte eröffnen.
- llama.cpp: Parallel dazu habe ich mich mit llama.cpp beschäftigt. Es ist faszinierend zu sehen, wie effizient diese Implementierung große Sprachmodelle auf Consumer-Hardware laufen lässt.
- Whisper OpenAI Plugin: Ein echtes Highlight war die Integration des Whisper OpenAI Plugins für Information Retrieval. Ich habe damit gleich ein 256 Metaverse Dataset indexiert – die Ergebnisse sind vielversprechend!
Sonstiges:
- Sport: Trotz des vollen Terminkalenders habe ich es geschafft, regelmäßig Sport zu treiben. Es hilft ungemein, den Kopf frei zu bekommen.
- Kleinanzeigen: Ich habe mich endlich dazu durchgerungen, ein paar Sachen zu verkaufen, die ich nicht mehr brauche. Überraschend, wie viel sich da über die Zeit ansammelt!
Das war’s erstmal von mir. Wie war eure Woche so? Bis bald!
Leave a Comment