Skip to content

Patrick Steinert Posts

Steinert Insights 24-50

What’s Up

Nach dem ganzen Australien Adventure zum Besuch der ACM Multimedia 2024 musste ich erstmal im tiefsten Herbst und üblichen Job-Streß ankommen.

Trick-Labs Projekte

Cycling

  • Velo Wear Release 1.1.0: Kleines Update, große Wirkung: durch die Geolokalisierung und Wettervorhersage wird die passende Wettersituation nun automatisch eingestellt.
  • Stop starting and start finishing – so ein App Release zählt doch als Finish, oder? Ich habe zwei neue Projekte gestartet

AI-Themen

Thema Code-Assistenten. Durch die Entwicklung der Velo Wear App mache ich weiter Erfahrungen mit Plugins oder IDEs für KI Code Assistenten. Bisher bekannt ist Github Copilot. In der letzten Zeit habe ich Cursor verwendet und doch begeistert. Zunächst weil das verwendete Anthropic Claude 3.5 Sonnet Model deutlich (15%) besser ist als die Copilot Modelle, aber eben auch die Integration in die IDE viel mehr Automatisierung ermöglicht. Funktional kann ich Cursor nur wärmstens empfehlen. Der Haken sind die 20 USD Subscription. Doppelter Preis zu Copilot. Nun denn, erstmal zurück zu Copilot und immerhin ist dort nun auch Claude 3.5 Sonnet verfügbar. Aber die Anwendung des Codes in der IDE hängt noch hinter Cursor zurück. Mittelfristig werd ich dann wechseln, sofern Copilot nicht nachzieht. Ansonsten steht noch Blot.diy auf dem Testzettel.

Dann habe ich mit  mir AI-basierte Crawler angesehen. Dabei bin ich auf mehrere kommerzielle Anbieter gestoßen. Da ich für Experimente aber keine Subscription abschließen möchte habe ich weitergesucht und scrapegraphai gefunden. Das benötigt einen OpenAI API Key und kann dann beeindruckent gut gewünschte Daten ziemlich konsistent im JSON Format liefern. Stark, ich werde berichten.

Dissertation

Publikationen (nachgereicht)

Mal wieder Co-Autor: ich habe am Avatar Detection Paper gearbeitet, was bei MDPI Virtual Worlds publiziert.

Daneben habe ich an meinen eigenen Papern gearbeitet, als Pre-Print ist nun eine Feld Studie zu Information Needs in Metaverse Aufnahmen auf arXiv veröffentlicht. Mit der Veröffentlichung dieser Feldstudie konnte ich einen wichtigen Beitrag zur Diskussion über neue Anforderungen an Multimedia-Retrieval-Systeme leisten, speziell im Kontext des Metaverse. Besonders spannend fand ich die Vielfalt der Anwendungsfelder, die sich durch MVRs ergeben – von immersiven Trainingsumgebungen bis hin zur Dokumentation von virtuellen Meetings. Gleichzeitig ist klar geworden, dass bestehende Technologien oft an den komplexen Datenstrukturen scheitern, die im Metaverse allgegenwärtig sind. Hier liegt eine spannende Herausforderung, die ich in zukünftigen Projekten weiterverfolgen möchte.

Brainwaves von Patrick

Noch mal zurück zum KI Programmieren. Ich hatte bereits die Kategorisierung der 5 Level des Autonomen Programmierens vorgestellt. Level 5 ist noch ziemlich weit weg. Aber mit den aktuellen Möglichkeiten wie Cursor kann schon beobachtet werden, dass nicht mehr nur Codeschnipsel in bestehenden Code reinkopiert werden (wie früher von Stackoverflow), sondern sinnvoll Funktionen im Kontext erstellen oder funktionale Teile an mehreren Stellen in mehreren Dateien einfügen. Das ist schon Autonomous Coding Level 2 (Coders primarily use the IDE to specify features, and the AI then modifies the code accordingly). Das verändert auch die Art, wie ich einen Programmier-Task angehe. Dazu muss ich mir mal mehr Gedanken machen.

What’s On

Lohnenswert: die aktuelle Folge Software Architektur im Stream von den IT-Tagen. Das Thema der Podiumsdiskussion: Wie sieht unsere IT-Arbeitswelt 2034 aus? Interessante Gedanken.

Leave a Comment

Velo Wear 1.1.0 Release – Jetzt mit Lokalisierung und Wetterdaten

Egal welches Wetter, Velo War hilft dir die Bekleidung & Ausrüstung für deine nächste Ausfahrt auf dem Rennrad auszuwählen. Dazu kann die Version 1.1.0 nun auch deine Position verwenden und automatisch die Wetterdaten einstellen. Die letzten Wochen habe ich an der Integration der Daten gearbeitet. Daneben gibt es auch ein kleines Redesign. Insgesamt macht die App für den aktuellen Stand ein gutes Bild.

Beispielbild der App das die Einstellung der Wetterbedingungen erlaubt und dazu passende Kleidungsempfehlungen.

Ich habe noch weitere Ideen die ich nun umsetzen möchte. Mich hat der Wunsch nach Produktempfehlungen zu den erwähnten Produkten erreicht. Das ist zum Beispiel eine Idee. Aber auch ein Android Release wurde gewünscht. Dazu fehlt mir noch ein passendes Testgerät.

Da die kalte Jahreszeit da ist, ist die Frage nach der richtigen Kleidung umso relevanter. Probier Velo Wear doch einfach mal aus. Kost auch nichts.

Laden im App Store

1 Comment

Updates KW 33

Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:

Trick-Labs aka Tech-Projekte

llama.cpp: Ich habe einige Versuche mit Llama3-basierten Modellen gemacht, um RAG-Antworten lokal zu generieren. Leider habe ich noch keine funktionierende Config gefunden.

Auf der GPU werden fleißig Metaverse Aufnahmen mit Whisper und Yolo durchgerechnet. Experimente für Evaluierungen. Deswegen ist es warm im Raum. Fast 40°C Abwärme. Im Sommer. Ein Traum. Nicht.

Ich habe vor einigen Wochen mal angefangen eine App zu entwickeln. Es ging zunächst darum, zu prüfen wie viel KI-Tools wie Github Copilot und ChatGPT einem da abnehmen können (Video). Nach meinem Modell stehen wir da aktuell bei Autonomy Level 1. Es sollte eine Video Serie werden, nun ja, jetzt ist die App zumindest soweit, dass sie im App Store ist

App Store Beschreibung

Mal sehen, wie es da weitergeht. Bei der Veröffentlichung war jedenfalls viel rechtliches geklicke notwendig. Das hat fast solange gedauert, wie die App zu generieren. Das zweite Video dazu sollte auch bald kommen™️.

Sonstiges

SNAFU

Bis bald

Leave a Comment

Monatsupdate August

Dissertation Update

Updates an der Publication-Front:

Das Paper Integration of Metaverse and Multimedia Information Retrieval von der ICSA ist nun in der ACM Digital Library verfügbar

Zum 256 Metaverse Recording Dataset habe ich ein Paper geschrieben, dass auf der ACM Multimedia 2024 angenommen wurde! Hier gehts zum OpenReview

Mit einem Studenten habe ich ein Paper zur Avatar Erkennung geschrieben. Dies ist als Preprint verfügbar.

Research Topics:

Image generation: Aktuell exploriere ich mit Bildgenerierung von Metaverse Daten für die Result Presentation. Experimente laufern mit Stable Diffusion 3 (medium und large). Beide Modelle sind sehr interessant, vor allem wiel die Textgenerierung in den Bildern schon sehr gut läuft, wenn auch nicht perfekt.

Weitere Experimente laufen mit Obejct Detection und Sprachanalyse. Detectron 2 bietet eine gute Umsetzung von R-CNN Varianten, eine Alternative zum bekannteren YOLO Netzen. Auch die neuen YOLO Versionen (v10 , April oder Mai veröffentlicht) wäre eine Untersuchung auf Metaverse Content Wert. Also auf die Todo Liste. Dazu gehe ich in die Sprachanalyse, ich bin sher begeistert von der Qualität von Whisper und untersuche nun die Toxizität in den Metaverse Aufnahmen.

 

Skill2Lead

Skill 2 Lead: Ich arbeite weiter an Coaching Inhalten für Fachkräfte, die sich zur Führungskraft entwickeln wollen oder es jüngst wurden. Als Sideproject aktuell nicht die Top-Prio.

Sonstiges

Juli: 145,6 km Rad gefahren. Nicht sooo viel, aber immherin summiert es sich auf 638,2 km in diesem Jahr. Wird mal wieder Zeit für 3-stellige Touren :)

VeloWear App: Kann man mit KI eine App bauen, ohne Programmierkenntnisse zu haben? Ja, soweit geht das schon. Ich habe den ersten Teil einer YT-Serie gestartet. Die App ist schon im Testflight Mode, Part 2 kommt bald.

1 Comment

Updates KW 25

Hey Leute, vergangene Woche war vollgepackt mit spannenden Projekten und Aktivitäten. Hier ein kurzer Überblick:

Tech-Projekte:

  1. RAG mit Langchain: Ich habe endlich Zeit gefunden, Retrieval-Augmented Generation (RAG) mit Langchain zu testen. Die Evaluierungen waren recht aufschlussreich, und ich bin begeistert von den Möglichkeiten, die sich dadurch für meine Projekte eröffnen.
  2. llama.cpp: Parallel dazu habe ich mich mit llama.cpp beschäftigt. Es ist faszinierend zu sehen, wie effizient diese Implementierung große Sprachmodelle auf Consumer-Hardware laufen lässt.
  3. Whisper OpenAI Plugin: Ein echtes Highlight war die Integration des Whisper OpenAI Plugins für Information Retrieval. Ich habe damit gleich ein 256 Metaverse Dataset indexiert – die Ergebnisse sind vielversprechend!

Sonstiges:

  • Sport: Trotz des vollen Terminkalenders habe ich es geschafft, regelmäßig Sport zu treiben. Es hilft ungemein, den Kopf frei zu bekommen.
  • Kleinanzeigen: Ich habe mich endlich dazu durchgerungen, ein paar Sachen zu verkaufen, die ich nicht mehr brauche. Überraschend, wie viel sich da über die Zeit ansammelt!

 

Das war’s erstmal von mir. Wie war eure Woche so? Bis bald!

Leave a Comment

Five Levels of Autonomous Coding

The Levels of Autonomous Coding, or Autonomous Programming, describe the degree of automation of programming and software engineering tools. While AI tools advance more and more, the ultimate goal of a system that develops, deploys, and maintains software fully automatically is not achieved – yet. In the lack of a categorization, the following five levels provide classes of programming tools.
A few weeks ago, we had a brainstorming session to challenge the statement: “In 2026, simple coding of business software by a human is unprofitable.” It quickly dawned on me that for this prediction to hold, we would need fully autonomous coding or at least a high degree of automation. This concept immediately reminded me of the various levels of autonomous driving—Eureka! Of course, I wasn’t the first to make this connection; someone on the internet had brilliantly mapped these levels from driving to coding.
Let’s dive into these levels to understand better how they might apply to the future of coding:

Level 1: Assisted Coding

  • What Happens: Coders handle the bulk of the work but can request autogenerated code snippets to copy-paste or use as code completion.
  • Responsibility: Coders must validate and are ultimately responsible for all code, ensuring accuracy and functionality.

Level 2: Partly Automated Coding

  • What Happens: Coders primarily use the IDE to specify features, and the AI then modifies the code accordingly.
  • Responsibility: While the AI handles some coding, coders must validate all changes and remain responsible for the final output.

Level 3: Highly Automated Coding

  • What Happens: Coders use a more advanced interface, not limited to traditional IDEs, to specify features. AI can automatically handle specific tasks like fulfilling software tests, generating test code, reorganizing code for better maintainability, creating new user interface features, and proposing and testing solutions to errors.
  • Responsibility: Coders intervene in exceptional cases or when errors arise that the AI cannot resolve.

Level 4: Fully Automated Coding

  • What Happens: The developer’s role shifts more towards a Product Owner’s. AI can code features based on detailed specifications and autonomously handle errors—making adjustments, testing, and waiting for developers to review and commit changes.
  • Responsibility: The AI provider assumes a significant portion of the responsibility, especially in maintaining the integrity and functionality of the code.

Level 5: Autonomous Coding

  • What Happens: AI handles everything from coding new features based on persistent specifications to upgrading dependencies and fixing errors. It manages the full lifecycle of the code, including deployment.
  • Responsibility: AI becomes largely self-sufficient, significantly reducing the need for human intervention.
Progress toward these levels raises intriguing questions about the future role of human programmers. Will the specifications themselves not be in traditional code? Possibly. They may be in a more human-understandable form that can be translated directly into machine code, with the compiler doing most of the verifying of the machine code. Unlike human language, which can be ambiguous and harder for compilers to validate, this system promises greater precision and efficiency.
As we look to a future where coding is increasingly automated, it’s fascinating to consider how these changes will redefine the landscape of software development. It’s not just about the technology; it’s about how we adapt to these tools to ensure that they enhance our capabilities without displacing the creative and critical elements that define good software development. What do you think? Are we heading toward a world where coders are more supervisors and reviewers than active coders? The conversation is just beginning, and your insights are more valuable than ever!
2 Comments

My First Year as a part-time PhD Student

… A Journey into Multimedia Information Retrieval and the Metaverse Hello everyone! I can’t believe it’s already been a year since I embarked on my PhD journey. Time truly flies when you’re engrossed in research, and what a year it’s been! Today, I want to share with you some of the highlights, challenges, and learnings from my first year as a PhD student, focusing on my research project in Multimedia Information Retrieval (MMIR) and its intersection with the Metaverse. The Research Project: MMIR Meets the Metaverse When I started my PhD, I was fascinated by the untapped potential of Multimedia Information Retrieval. MMIR is all about searching and retrieving multimedia data like images, videos, and audio. But I wanted to take it a step further. I was intrigued by the burgeoning Metaverse—a collective virtual shared space created by the convergence of virtually enhanced physical reality and interactive digital spaces. The…

Leave a Comment

Integration of Metaverse and Multimedia Information Retrieval

Diving into the vibrant intersection of the Metaverse and Multimedia Information Retrieval (MMIR), we uncover a fascinating journey that’s shaping the future of Metaverse integration with MMIR. Imagine stepping into a universe where the boundaries between physical and digital realities blur, creating an immersive world teeming with multimedia content. This is the Metaverse, a collective virtual space, built on the pillars of augmented and virtual reality technologies.

At the heart of integrating these worlds lies the challenge of efficiently indexing, retrieving, and making sense of a deluge of multimedia content—ranging from images, videos, to 3D models and beyond. Enter the realm of Multimedia Information Retrieval (MMIR), a sophisticated field dedicated to the art and science of finding and organizing multimedia data.

The research explored here, as my Ph.D. project, ventures into this nascent domain, proposing innovative frameworks for bridging the Metaverse with MMIR. Their work unveils two primary narratives: one, how we can leverage MMIR to navigate the vast expanses of the Metaverse, and two, how the Metaverse itself can generate new forms of multimedia for MMIR to organize and retrieve.

In the first scenario, imagine you’re an educator in the Metaverse, looking to build an interactive, virtual classroom. Through the integration of MMIR, you can seamlessly pull educational content—be it historical artifacts in 3D, immersive documentaries, or interactive simulations—right into your virtual space, enriching the learning experience like never before.

The second scenario flips the perspective, showcasing the Metaverse as a prolific generator of multimedia content. From virtual tours and events to user-generated content and beyond, every action and interaction within the Metaverse creates data ripe for MMIR’s picking. This opens up a new frontier for content creators and researchers alike, offering fresh avenues for creativity, analytics, and even virtual heritage preservation.

Navigating these possibilities, the research present sophisticated models and architectures, such as the Generic MMIR Integration Architecture for Metaverse Playout (GMIA4MP) and the Process Framework for Metaverse Recordings (PFMR). These frameworks lay the groundwork for seamless interaction between the Metaverse and MMIR systems, ensuring content is not only accessible but meaningful and contextual.

To bring these concepts to life, let’s visualize a diagram illustrating the flow from multimedia creation in the Metaverse, through its processing by MMIR systems, to its ultimate retrieval and utilization by end-users. This visualization underscores the cyclical nature of creation and discovery in this integrated ecosystem.

In essence, this research lights the path toward a future where the Metaverse and MMIR coalesce, creating a symbiotic relationship that enhances how we create, discover, and interact with multimedia content. It’s a journey not just of technological innovation, but of reimagining the very fabric of our digital experiences.

Let’s create an image to encapsulate this vibrant future: Picture a vast, sprawling virtual landscape, brimming with diverse multimedia content—3D models, videos, images, and interactive elements. Within this digital realm, avatars of researchers, educators, and creators move and interact, bringing to life a dynamic ecosystem where the exchange of multimedia content is fluid, intuitive, and boundlessly creative. This visualization, rooted in the essence of the research, will capture the imagination, inviting readers to envision the endless possibilities at the intersection of the Metaverse and MMIR.

Leave a Comment

Neue Horizonte im E-Commerce: Wie KI die Spielregeln verändert

 

KI ist im E-Commerce ein alter Hut. Recommendations, Prognosen, Kundensegmentierung – die Use Cases gibt es schon ewig. Die neuen AI-Technologien sind dennoch ein Game-Changer und verändern den Digital Commerce, da bin ich sicher. Es gibt aber Unternehmen, die sind besser vorbereitet als andere und so wird sich schnell zeigen, wer die Möglichkeiten als Vorteil einsetzen kann – und wer nicht.

Leave a Comment