Die große Datenrevolution steht vor der Tür. Die Unternehmen bemühen sich um eine neue Marke von Analysten, die als “Datenwissenschaftler” bezeichnet wird, und die Universitäten haben auf diese Nachfrage mit der Einführung von Studiengängen in den Bereichen Informatik und Wirtschaft reagiert. Umfragebasierte Berichte zeigen, dass Unternehmen derzeit schätzungsweise 36 Milliarden Dollar für Speicher und Infrastruktur ausgeben, und das wird sich bis 2020 voraussichtlich verdoppeln.

 

Sobald Unternehmen detaillierte Daten über alle ihre Kundenbeziehungen und internen Prozesse erfassen und speichern, was kommt als nächstes? Vermutlich investieren Unternehmen in große Dateninfrastrukturen, weil sie glauben, dass sie einen positiven Return on Investment bieten. Betrachtet man jedoch die Umfragen und Beratungsberichte, so ist unklar, welche konkreten Anwendungsfälle diesen positiven ROI aus den großen Daten hervorbringen werden.

Unser Ziel in diesem Artikel ist es, spezifische, reale Fallstudien anzubieten, um zu zeigen, wie große Daten für Unternehmen, die mit den Analytik-Teams von Microsoft gearbeitet haben, von Nutzen sind. Diese Fälle zeigen die Umstände, unter denen große Datenvorhersagen wahrscheinlich neue und hochwertige Lösungen ermöglichen, und die Situationen, in denen die Gewinne wahrscheinlich minimal sind.

Vorhersage der Nachfrage. Der erste Anwendungsfall ist die Vorhersage der Nachfrage nach Konsumgütern, die sich im “long tail” des Konsums befinden. Unternehmen schätzen genaue Nachfrageprognosen, da die Lagerhaltung teuer ist und Lagerbestände sowohl kurzfristige Einnahmen als auch langfristige Kundenbindung beeinträchtigen. Der aggregierte Gesamtumsatz ist ein schlechter Indikator, da die Unternehmen ihre Bestände geografisch verteilen müssen, was hyperlokale Prognosen erforderlich macht. Die traditionelle Art, dieses Problem zu lösen, ist die Verwendung von Zeitreihen-Ökonometrie mit historischen Verkaufsdaten. Diese Methode funktioniert gut für populäre Produkte in großen Regionen, neigt aber dazu, zu versagen, wenn die Daten dünner werden, weil zufälliges Rauschen das zugrunde liegende Signal überlagert.

Eine große Datenlösung für dieses Problem ist die Verwendung von anonymisierten und aggregierten Web-Such- oder Stimmungsdaten, die zusätzlich zu den vorhandenen Zeitseriendaten mit dem Standort des jeweiligen Geschäfts verknüpft sind. Microsoft-Datenwissenschaftler haben diesen Ansatz eingesetzt, um einer Prognosefirma bei der Vorhersage von Autoverkäufen zu helfen. Die Erstellung von Modellen mit Web-Suchdaten als eine der Eingaben reduziert den mittleren absoluten Prognosefehler, ein Standardmaß für die Vorhersagegenauigkeit, für monatliche nationale Verkaufsprognosen in der Größenordnung von 40% von der Basislinie für Automarken mit relativ kleinen Marktanteilen im Vergleich zu herkömmlichen Zeitreihenmodellen. Obwohl die Zuwächse bei den beliebtesten Modellen auf nationaler Ebene geringer waren, nimmt die relative Verbesserung zu, wenn man bis auf die regionale Ebene vordringt.

In diesem Fall nutzt die große Datenlösung den bisher ungenutzten Datenpunkt, dass Menschen vor dem Autokauf eine beträchtliche Menge an sozialen Anfragen und Recherchen online durchführen. Die erhöhte Prognosegenauigkeit wiederum ermöglicht große Effizienzsteigerungen – mit dem richtigen Bestand am richtigen Ort.

Anonymisierte Websuchdaten haben sich auch für andere Prognosen als hilfreich erwiesen, da Online-Aktivitäten oft ein guter Proxy für Einkäufe und Aktionen der Allgemeinheit sind. Die zusätzlichen Daten allein reichen nicht aus. Die Verarbeitung von Suchdaten und deren Kombination mit traditionellen Quellen ist entscheidend für eine erfolgreiche Vorhersage: Wir haben festgestellt, dass das Volumen der Suchanfragen nicht ausreicht, um die Signale zu analysieren, die der tatsächlichen Produktnachfrage entsprechen.

Intelligent zu sein, welche Signale aus großen Daten zu ziehen sind, erfordert Sorgfalt, und Best Practices können fallbezogen sein. Beispielsweise können einzelne Anfragen eines Benutzers weniger wichtig sein als mehrere Anfragen eines Benutzers. Obwohl wir in dieser Fallstudie Suchdaten verwendet haben, könnte ein Unternehmen genauso einfach den Standort der Benutzer, die ihre Website besuchen, nutzen oder detaillierte Verkaufsdaten mit dem Standort eines Kunden verknüpfen.

Verbesserte Preisgestaltung Die Verwendung eines einzigen Preises ist wirtschaftlich ineffizient, da ein Teil der Nachfragekurve, der gewinnbringend bedient werden könnte, vom Markt verdrängt wird. Daher bieten Unternehmen regelmäßig gezielte Rabatte, Promotions und segmentbasierte Preise an, um verschiedene Verbraucher anzusprechen. E-Commerce-Websites haben einen deutlichen Vorteil bei der Verfolgung eines solchen Ansatzes, da sie detaillierte Informationen über das Surfen der Kunden protokollieren, nicht nur die Waren, die sie am Ende kaufen, und die Preise im Laufe der Zeit aggressiv anpassen. Diese Preisanpassungen sind eine Form des Experimentierens und ermöglichen es den Unternehmen zusammen mit großen Daten, mehr über das Preisverhalten ihrer Kunden zu erfahren.

Offline-Händler können die nuancierten Preisstrategien des E-Commerce nachahmen, indem sie die Verbraucher über die Smartphone-Konnektivität verfolgen und protokollieren, welche Kunden den Laden betreten, welche Art von Waren sie betrachten und ob sie einen Kauf tätigen. Das maschinelle Lernen, das auf diese Daten angewandt wird, kann algorithmisch Kundensegmente basierend auf Preisreaktion und Präferenzen generieren, was in der Regel eine große Verbesserung gegenüber traditionellem demographischem Targeting bietet.

Unsere Erfahrung mit der Preisgestaltung von Werbung auf der Bing-Suchmaschine ist, dass die Verwendung großer Daten zu erheblichen Gewinnen führen kann, wenn die Werbetreibenden besser zu den Verbrauchern passen. Der Erfolg des algorithmischen Targeting ist gut dokumentiert und ist ein wichtiger Umsatztreiber im Online-Werbemarkt. Fortschritte in der Messtechnik ermöglichen es Offline-Firmen zunehmend, von diesen Gewinnen durch eine effizientere Preisgestaltung zu profitieren.

Vorausschauende Wartung. Reibungslos funktionierende Lieferketten sind entscheidend für stabile Gewinne. Maschinenstillstandszeiten verursachen Kosten für die Unternehmen aufgrund von Produktivitätsverlusten und können sowohl in komplexen Produktionslieferketten als auch bei Konsumgütern besonders störend sein. Führungskräfte in anlagenintensiven Branchen geben häufig an, dass das primäre operationelle Risiko für ihr Unternehmen in unerwarteten Ausfällen ihrer Vermögenswerte besteht. Eine Welle neuer Daten aus dem “Internet der Dinge” (IoT) kann Echtzeit-Telemetrie über detaillierte Aspekte von Produktionsprozessen liefern. Auf diesen Daten basierende Maschinen-Lernmodelle ermöglichen es Unternehmen, den Ausfall verschiedener Maschinen vorherzusagen.

Fluggesellschaften sind besonders daran interessiert, mechanische Ausfälle im Voraus zu prognostizieren, um Flugverspätungen oder Annullierungen zu reduzieren. Microsoft-Datenwissenschaftler aus dem Team der Cortana Intelligence Suite sind in der Lage, die Wahrscheinlichkeit einer Verspätung oder Stornierung von Flugzeugen in der Zukunft anhand relevanter Datenquellen wie Wartungshistorie und Flugrouteninformationen vorherzusagen. Eine maschinelle Lernlösung, die auf historischen Daten basiert und in Echtzeit angewendet wird, sagt die Art des mechanischen Problems voraus, das zu einer Verspätung oder Annullierung eines Fluges innerhalb der nächsten 24 Stunden führen wird.

Ähnliche Predictive-Maintenance-Lösungen werden auch in anderen Industriezweigen entwickelt – zum Beispiel die Verfolgung von Echtzeit-Telemetriedaten zur Vorhersage der Restnutzungsdauer eines Flugzeugtriebwerks, die Verwendung von Sensordaten zur Vorhersage des Ausfalls einer Geldausgabetransaktion, die Verwendung von Telemetriedaten zur Vorhersage des Ausfalls von elektrischen Tauchpumpen zur Förderung von Rohöl in der Öl- und Gasindustrie, die Vorhersage von Ausfällen von Leiterplatten in frühen Phasen des Herstellungsprozesses, die Vorhersage von Kreditausfällen und die Vorhersage des Energiebedarfs in hyperlokalen Regionen zur Vorhersage der Überlastsituationen von Energienetzen. Das maschinelle Lernen wird die Versorgungsketten weniger spröde machen und die Auswirkungen von Störungen für viele Waren und Dienstleistungen verringern.

Diese Fälle helfen, einige allgemeine Grundsätze hervorzuheben:

Der aus dem Analysestück abgeleitete Wert kann die Kosten der Infrastruktur bei weitem übersteigen. Dies deutet darauf hin, dass es ein starkes Wachstum bei großen Datenberatungsdiensten und spezialisierten Funktionen innerhalb von Unternehmen geben wird.
Bei großen Daten geht es weniger um die Größe als vielmehr um die Einführung grundlegend neuer Informationen in Prognose- und Entscheidungsprozesse. Diese Informationen sind am wichtigsten, wenn die vorhandenen Datenquellen nicht ausreichen, um genaue oder umsetzbare Vorhersagen zu treffen – z.B. aufgrund kleiner Stichprobengrößen oder grober historischer Verkäufe (kleine effektive Regionen, Nischenprodukte, neue Angebote usw.).
Die neuen Informationen sind oft in detaillierten und relativ unstrukturierten Datenprotokollen vergraben (bekannt als “Datensee”), und es werden Techniken aus der Informatik benötigt, um daraus Erkenntnisse zu gewinnen. Um große Datenmengen nutzen zu können, ist es wichtig, dass talentierte Dateningenieure, Statistiker und Verhaltensforscher zusammenarbeiten. “Datenwissenschaftler” wird oft verwendet, um sich auf jemanden zu beziehen, der diese drei Fähigkeiten besitzt, aber nach unserer Erfahrung haben einzelne Personen selten alle drei.
Radikal neue Anwendungen. Die Fälle, die wir besprochen haben, betreffen die Frage, wie große Datenmengen genutzt werden können, um bestehende Prozesse zu verbessern (z.B. genauere Nachfrageprognosen, bessere Preisempfindlichkeitsschätzungen, bessere Vorhersagen von Maschinenausfällen). Es hat aber auch das Potenzial, in einer Weise eingesetzt zu werden, die bestehende Prozesse stört. Beispielsweise müssen maschinelle Lernmodelle, die massive Datensätze als Input verwenden, in Verbindung mit ausgeklügelten Designs, die die Krankengeschichte berücksichtigen, das Potenzial haben, die Diagnose und Behandlung bestimmter Krankheiten zu revolutionieren. Ein weiteres Beispiel ist die Anpassung der dezentralen Stromerzeugung (z.B. Sonnenkollektoren auf Dächern) an den lokalen Strombedarf, die durch die Gleichsetzung von Stromangebot und -nachfrage mit einer effizienteren Erzeugung einen enormen Wert freisetzt.

Der Wert, der durch eine genauere Vorhersage der Nachfrage, eine bessere Preisgestaltung und eine vorausschauende Wartung beschrieben wird, sind die spezifischen Anwendungsfälle, die die Investitionen großer Unternehmen in große Dateninfrastrukturen und Datenwissenschaften leicht rechtfertigen. Diese Nutzungen dürften zu einem Wert in der Größenordnung der Investitionen führen. Der Wert radikal neuer Anwendungen ist von Natur aus schwierig zu verstehen und spekulativ. Für viele Unternehmen ist mit Verlusten aufgrund unsicherer und risikoreicherer Investitionen zu rechnen, wobei einige wenige Unternehmen spektakuläre Gewinne erwirtschaften.

Mehr in dieser Reihe hier.

Leitfaden für automatische E-Mail