För lite mer än en vecka sedan satt jag på planet hem från ”IBM World of Watson” som i år ägde rum på Mandalay Bay i Las Vegas. Det var en fantastisk upplevelse på många sätt. Bara det faktum att 17 000 kunder, partners och IBM:are inom Analytics träffas för att ta del av de senaste nyheterna, lära sig och nätverka är ganska häftigt. Att som teknikintresserad få snacka direkt med produktchefer och produktutvecklare om hur de tänker kring nya funktioner i produkterna och vad som kommer framöver är fantastiskt. Jag har till och med deltagit i workshops med designers för att ta fram gränssnittet i kommande versioner till några av produkterna. Har man som jag aldrig varit i Las Vegas tidigare så är bara det en upplevelse i sig, men det får jag kanske skriva mer om i en privat blogg i stället.
En viktig sak jag tog med mig hem är att de satsar stenhårt på att göra Cognos Analytics till världens bästa Self-Service BI-plattform. Sedan releasen i början av året har IBM kommit ut med inte mindre än fyra versioner med ny funktionalitet och det kommer en till med massor av nyheter innan året är slut. Varannan månad kommer det ut ny funktionalitet och det jag fick se i Vegas lovar riktigt gott inför framtiden. Cognos Analytics kommer att vara en av marknadens vassaste Self-Service BI-plattformar under 2017! Det händer även mycket inom Planning Analytics, vilket är IBMs planerings-plattform. Bland annat kommer våra befintliga kunder att kunna uppgradera från TM1 till Planning Analytics snart, oavsett om de vill köra lokalt eller i molnet.
Watson Data Platform
Det jag tyckte var mest intressant under konferensen var lanseringen av IBM Watson Data Platform. Detta är en Self-Service plattform som fokuserar på datatillgänglighet, analys, avancerad modellering och framförallt samarbete. Tanken är att det ska vara en gemensam plattform för allt från Data Engineers till affärsanvändare, som gör vägen från data till insikt och till action mycket kortare men ändå behåller kontroll och styrning av data. Detta kommer att kunna köpas som ett paket och täcker hela analytics-flödet från ax till limpa. I korthet kan man säga att den besår av:
1. En grundplattform baserad på framförallt Apache Spark och andra Open-Source komponenter med möjligheten att läsa in data i upp till 100GB/sek och där man enkelt kan skala upp databearbetning till sanslös kraft.
2. Tjänster för analysflödet, t.ex. Data Warehouse as a service, Watson Machine Learning och olika APIer för Machine Learning.
3. Användarupplevelser för de roller som är med i analysflödet.
Två nya användarupplevelser inom Watson Data Platform lanserades:
Data Connect är ett gränssnitt för Self-Service Datapreparation baserad på Spark. Tanken är att stödja alla former av databearbetning. Från inläsning till transformering och sedan governance. Det ska vara tillräckligt enkelt för affärsanvändaren men också tillräckligt kraftfullt för en Data Engineer.
Det som utmärker IBM från konkurrenterna tycker jag framförallt är Governance-bitarna. All data som läses in metadata-taggas automatiskt med vad den är, t.ex. personnummer, kreditkortsnummer, adresser, postnummer och email adresser. Alla dataflöden loggas så att man kan se varifrån datat kom, vilka transformeringar som gjorts och vilka användare som använde datan och när. Det finns stöd för Master Data Management så att man som affärsanvändare kan ha kontroll och kvalitet över sin data. Jag såg en fantastik demo av Entity Matching. Med hjälp av Machine Learning migrerades två dataset med kunder. Systemet avgör själv vilka rader från respektive dataset som tillhör samma kund, även om de inte har samma id eller namn genom att titta på email adresser, telefonnummer och annan metadata. Detta är funktioner som tidigare bara funnits i de mest avancerade integrationsplattformarna och krävt en specialist för att användas. Här kan man som t.ex. marknadschef göra det själv.
Data Science Experience är ett gemensamt gränssnitt för affärsanvändare och Data Scientists för att göra mer avancerad analys och Machine Learning. Hittills har det inte funnits någon bra miljö för att bedriva Data Science-projekt. Man har installerat R eller Python på sin Laptop, fått data av en affärsanvändare och suttit på kammaren och modellerat. När man behövt samarbeta har man fått träffas fysiskt och kopiera över filer mellan varandras datorer. Som affärsanvändare har man till slut fått en PowerPoint tillbaks och frågan kring hur man tar det här till produktion har inte varit helt lätt. I Data Science Experience kan man jobba i Python, R, Spark, Scala eller SPSS Modeler. Jupyter Notebooks och R-Studio är de vanligaste verktygen för Data Scientists och båda finns tillgängliga här. Du kan blanda fritt mellan språk och verktyg i ett projekt. Det finns inbyggd versionshantering. Man kan enkelt styra vilka som är behöriga till vad i ett projekt. Det finns smarta samarbetsfunktioner och behörighetsstyrning. Men det viktigaste är att när man vill ta lösningen till produktion finns det möjligheter för schemaläggning, kontinuerlig optimering av modeller och driftsättning. Jag har själv jobbat en hel del i beta-versionen och tycker det är helt fantastiskt. Faktum är att jag kommer igång snabbare och sedan producerar resultat snabbare än på min egen laptop. Att jag sedan kan dela med mina kollegor i realtid, gör livet för en kringflackande konsult lättare.
Watson Machine Learning kommer att vara en del av Data Science Experience. Det ger en användare möjligheten att automatiskt träna, optimera och produktionsätta Machine Learning modeller. Dessa blir sedan tillgängliga som ett API så de kan användas dagligen i affärsapplikationer. I korthet går det till så här:
1. Du skickar in ett dataset och berättar vad du vill göra.
2. Watson Machine Learning testar olika modeller och algoritmer med olika inställningar och lär sig kontinuerligt vilka algoritmer som fungerar bäst med vilken data.
3. Du får ett validerat resultat för de olika modellerna och kan om du vill klicka på produktionsknappen och göra modellen tillgänglig för andra.
Initialt är det algoritmerna från SparkML som används men jag såg en demo när man använde algoritmer från SparkML, Python, R, Weka (Java) och tog fram de bästa ur kakan. Det fanns till och med en automatisk data bearbetning där systemet tar fram nya attribut från t.ex. datum och tid.
Allt jag skrivit om ovan är helt nya gränssnitt och funktionalitet baserad på Open-Source. IBM har insett att Open-Scource Communityn alltid kommer att vara snabbare med nyheter och anslutit sig till den. IBM är de som bidrar mest till utvecklingen av SparkML vilket är det hetaste inom Machine Learning just nu. Data Governance delarna i Data Connect bygger på Apache Atlas som är ett Open Source projekt där IBMs utvecklare är med och bidrar. Värt att nämna tycker jag också är att alla produktchefer i de här projekten är unga, ambitiösa och drivna människor. Det är inte längre den typiska IBM:aren, en äldre herre med en dåligt skuren svartkostym i för stor storlek, som driver utvecklingen framåt i de här projekten.
I Watson Data Platform har man en fantastisk lösning för att börja jobba med Machine Learning redan idag, men framtiden ser ännu bättre ut där man kommer att kunna ersätta tröga BI och Analytics-projekt med agila self-service projekt där verksamheten är drivaren. Vill du veta mer om IBM Watson Data Platform får du gärna kontakta mig direkt genom att skicka ett email till mikael.ene@advectas.se. Vi kommer också att visa mer på våra kommande seminarier i Göteborg och Stockholm som du kan anmäla dig till redan nu, för mer information om seminarierna, klicka här.




