Mit einer neuen Technologie zur Spracherkennung möchte das Berliner/Wiener Startup Tucan.ai nicht nur die Effizienz von Meetings verbessern, sondern auch eine Plattform für das gesammelte Wissen von Unternehmen schaffen.

Meetings verlaufen seit jeher nach einem unumstößlichen Grundprinzip: Menschen treffen einander, persönlich oder virtuell, es wird viel geredet und manches auch gesagt. Und ein Schriftführer hat die Aufgabe, die Inhalte einzufangen und aufzubereiten; hinterher verschwinden die Protokolle nicht selten in irgendwelchen Ordnern oder Ablagen und waren nie mehr gesehen. 

Relikt aus dem letzten Jahrhundert

Für Florian Polak, Lukas Rintelen und Michael Schramm, die Gründer von Tucan.ai, ein System aus der „Steinzeit“, wie sie auf ihrer Homepage schreiben: „Das größte Relikt aus dem letzten Jahrhundert ist das Meeting. Eigentlich eine Methode, um gemeinsam gute Ideen zu entwickeln, ist es mittlerweile zum größten Zeitfresser schlechthin geworden.“

Tucan.ai

Also haben es sich die drei Österreicher mit Sitz in Berlin und Wien zur Aufgabe gemacht, gewisse zeitaufwändige Bürotätigkeiten mit Hilfe künstlicher Intelligenz (oder, wie es in der IT-Amtssprache Englisch heißt: Artificial Intelligence – kurz AI) erledigen zu lassen. Hehres Ziel von Tucan.ai: Menschen sollen sich verstärkt auf den kreativen Aspekt ihrer Arbeit konzentrieren können.

Tucan.ai – Kurz und prägnant auf einer Seite

Konkret, erzählt Co-Founder und Managing Director Florian Polak im Telefonat mit dem ubm magazin, geht es um die Entwicklung einer Spracherkennungssoftware. Der Fokus geht aber weit über die reine Audiotranskription von Meetings hinaus: „Es geht darum, die wesentlichen Inhalte zu erkennen. Was wir am Ende eines Meetings brauchen, ist eine Zusammenfassung der wichtigsten Punkte, kurz und prägnant auf einer Seite. Und das möglichst automatisiert, sodass du dich nicht mehr lange mit der Nachbearbeitung beschäftigen musst.“

Tucan.ai

Begonnen haben Florian Polak und Lukas Rintelen ihr Startup, nachdem sie zuvor in Berlin bereits an einem anderen Projekt zusammengearbeitet hatten. Michael Schramm, der für sie zuvor schon als Freelancer tätig war, vervollständigte im Sommer 2020 das Gründerteam als Chief Technical Officer. „Den Tukan“, erinnert sich Florian Polak lachend, „haben wir als Logo ausgewählt, weil wir alle drei von Sprache fasziniert sind und gerne reden – und dieser Vogel hat die größte Klappe von allen …“

Millioneninvestition

Finanziert wird Tucan.ai über Venture Capital. Zu den ersten Investoren gehörte die Axel-Springer-Gruppe, deren Journalisten die Transkriptionssoftware bereits im Alltag nutzen. Im September konnte bei einer weiteren Finanzierungsrunde eine hübsche siebenstellige Summe von Investoren wie IBB Ventures, Faraday Venture Partners, APX und Wayra eingesammelt werden. 

Die Maschine ist im Prinzip ein hyperintelligenter Idiot, der zuhört. Wir bringen ihr bei, aus dem Satzzusammenhang heraus die wichtigsten Inhalte zu erkennen.

Florian Polak

Dank neuer finanzieller Möglichkeiten ist das Team zuletzt rasch auf knapp 20 Mitarbeiter angewachsen. Die große Herausforderung der Software von Tucan.ai liegt – noch – darin, Kontext einwandfrei zu erkennen, sagt Florian Polak im Headquarter im Kreativ-Hotspot Factory Berlin: „Die Maschine ist im Prinzip ein hyperintelligenter Idiot, der zuhört. Wir bringen ihr bei, aus dem Satzzusammenhang heraus die wichtigsten Inhalte zu erkennen.“

Schallwellen zerlegen

Der Mathematiker und Software-Entwickler Michael Schramm ist für die technische Umsetzung verantwortlich. Was er „mit großer Freude“ macht, klingt sehr speziell – und sehr kompliziert. Letztendlich geht es zuerst (sehr vereinfacht gesagt) darum, dass modernste Hightech-Grafikkarten eingehende Schallwellen in möglichst viele einzelne Vektoren zerlegen.

Tucan.ai

In diesen tausenden und abertausenden Vektoren, die jede Sekunde erzeugt werden, versucht die Software, Muster zu erkennen. Anhand dieser Muster sollen Laute ausgemacht und deren Abfolge wiederum Wörtern zugeordnet werden. „Je besser die Aufnahmequalität ist, umso genauer sind wir. Schwierig wird es, wenn ein Handy umgedreht mit dem Mikrofon nach unten unter einer Haube in einem Caféhaus liegt …“

Wo beginnt Intelligenz?

Tucan.ai investiert aktuell sehr viel Energie in den Bereich Machine Learning; Rechner werden mit immer neuen Daten „trainiert“, Muster noch genauer zu erkennen. Und das führt Michael Schramm zu einer spannenden, letztendlich philosophischen Frage: „Wo beginnt Intelligenz?“

Wenn es Künstliche Intelligenz gibt – gibt es dann auch Künstliches Leben?

Michael Schramm

Denn, so Schramm, die Grundlage menschlicher Intelligenz sei die Fähigkeit, Muster zu erkennen und anhand persönlicher Erfahrungen zu verknüpfen. „Wie viele solcher Verknüpfungen muss ein System durchführen können, damit ich von Intelligenz spreche? Und in weiterer Folge: Wenn es Künstliche Intelligenz gibt – gibt es dann auch Künstliches Leben? Und: Muss etwas intelligent sein, nur weil es lebt?“

Viele Stimmen

Zurück in der Realität gilt es, noch jede Menge anderer Herausforderungen zu lösen. Eine davon, die Michael Schramm und sein Team bereits gut im Griff haben, ist die „Speaker Diarisation“: „Es geht dabei um die exakte Trennung einzelner Sprecher“, erklärt der 34-jährige Salzburger mit Lebensmittelpunkt Wien im Gespräch mit dem ubm magazin. „Schwierig ist es aber immer noch, wenn zwei oder mehr Menschen gleichzeitig sprechen. Für die Maschine kann das dann wie eine weitere Stimme klingen.“

Tucan.ai

Hier appelliert der Computer-Experte nicht zu Unrecht an die menschliche Vernunft – und Höflichkeit: „Grundsätzlich wäre in Meetings eine gewisse Disziplin ohnehin von Vorteil. Es führt ja auch zu einem besseren Gesprächsklima, wenn man sein Gegenüber in Ruhe ausreden lässt.“

Am Weg zur Echtzeit

Tucan.ai erzeugt im Hintergrund ein wortwörtliches Transkript eines Meetings, daraus liefert die eigene Software eine inhaltliche Zusammenfassung. Aktuell benötigt die Maschine für die Audiotranskription eines einstündigen Meetings rund acht Minuten – und für die Zusammenfassung danach nur noch wenige weitere Sekunden: „Im Prinzip bekommst du spätestens neun Minuten nach Ende des Meetings ein Mail mit der Zusammenfassung. Unser Ziel ist aber, das Transkript in Echtzeit zur Verfügung zu stellen.“

Tucan.ai
Das Tucan.ai Gründerteam: CTO Michael Schramm, Co-CEO Lukas Rintelen und Co-CEO Florian Polak.

Die Zusammenfassung ist die Folge einer automatisierten Inhaltsanalyse: „Basierend auf dem Textfluss können wir Fragen und dazu passende Antworten definieren. Wir erkennen, welche Themenbereiche zu welcher Frage gehören und können das dann maschinell in einen kürzeren Text verwandeln.“

Zukunftsfragen

Noch ist Tucan.ai in einer Beta-Phase, mit Ende des ersten Quartals 2022 soll die automatisierte Meeting-Summary-Software endgültig marktreif sein. Im ersten Roll-out können Gespräche auf Deutsch und Englisch zusammengefasst werden, weitere Sprachen sind in Planung.

Tucan.ai

Michael Schramm hat auf seiner umfangreichen To-do-Liste aber noch einen Punkt vermerkt, der ihm persönlich sehr am Herzen liegt: „Wir verbringen irrsinnig viel Zeit in Meetings. Kein Mensch kann sich erinnern, was er vor drei Monaten oder zwei Jahren genau besprochen hat.“

Gesammeltes Wissen

Und hier setzt seine Vision vom „Wissensbaum“ an: „Es geht um die Verknüpfung aller Informationen, die man in einem Unternehmen zur Verfügung hat. Wenn unsere Software in einem Meeting ein Thema erkennt, das in einer anderen Gruppe von Teilnehmern schon einmal besprochen wurde, kann es in Echtzeit einen Hinweis geben: ‚Redet doch mal mit XY, die haben sich dazu auch schon Gedanken gemacht‘.“

Gesammeltes Unternehmenswissen könne einerseits helfen, unnötige Fehler ein weiteres Mal zu vermeiden. Andererseits würde es Neueinsteigern – nicht zuletzt auf Management-Ebene – auch erleichtern, die Grundlagen von Strategien und längerfristigen Plänen besser nachvollziehen zu können: „Letztendlich geht es um Wissensvermittlung.“ Und das wäre schon ziemlich klug.

Text: Hannes Kropik
Fotos: Oliver Magda

Jetzt Newsletter Bestellen <>