Prosjekt med IBM Watson

Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Develop er veldig glad for tilliten vi i våres fikk da vi vant en leveranse av et prosjekt hvor,i fase 1,  tekstlig informasjon skal gjøres om til prediksjon og beslutningsstøtte om selskaper og enkeltsaker.  Produktet av løsningen vil av vår kunde brukes både for interne og eksterne formål, både for effektivitets- og kvalitetshensyn.

Nå har prosjektet pågått en stund, og det er utrolig morsomt når resultatene begynner å komme.  Vi er på ingen måte ferdig, men hele løsningsarkitekturen er etablert, og maskinene har begynt å lære.  Vi har to lag av maskinlæring i denne løsningen, det første for å håndtere sammenhengen mellom ord, uttrykk, enheter, organisasjoner etc, og det andre for å indikere positivt/negativt sentiment rundt et tema, organisasjon el.

For å kunne annotere tekst, altså i det hele tatt komme i gang med analysearbeidet, har vi som vanlig måttet etablere en infrastruktur for løsningen.  Siden vi skal benytte IBM Watson i prosjektet har vi satt opp hele løsningen på skytjenesten IBM cloud.  Da vi er avhengig av ganske massiv lagring av data har vi benyttet IBM Cloud Object Storage som er IBM’s «big data» lagring.  Dataene som kommer inn hentes med en web-crawler, som så langt har hentet over 2 mill sider fra snaut 100 kilder.  Crawleren jobber jevnt og trutt og henter ny informasjon fortløpende.  Vi flytter dog dataene fra crawleren til permanent lagring, og i det steget er det lagt inn mye logikk for å tilpasse informasjonen til vårt formål.  I denne prosessen blir ca halvparten av sidene hentet fra web kastet ut igjen, de har ikke et innhold vi kan bruke til noe.  På et tidspunkt kommer vi nok til å legge noe av denne logikken nærmere crawleren enn det ligger i dag.

For å kunne utnytte Watson optimalt har vi etablert brukergrensesnitt mot dataene som gjør det lett å hente for sluttbrukeren, men som samtidig sikrer best mulig tilrettelegging av dataene for det egentlige formålet, å gi intelligent innsikt i spørsmålene en bruker måtte ha.  Vi er nå inne i 2 iterasjon for opplæring av modellene som skal forstå sammenhengene mellom ord og uttrykk på norsk, og det er imponerende hvor mye bedre maskinen forstår en tekst allerede nå.  Vi er dog på ingen måte ferdig med analysearbeidet her, vi forbedrer hele tiden, og regner med ihvertfall to iterasjoner til for for at maskinlæringsmodellen skal være god nok.

For å bøte på manglende norsk forståelse i softwaren har vi brukt R kode for å berike dataene slik at norsk forstås bedre i de neste stegene av analysen.  Vi benytter disse R-modellene for berikelse på vei inn i Watson, slik at Watson gir vurderinger til sine brukere som er så presise som mulig.  Dette er viktig når analysesteg 2 skal gjennomføres, det er her vi trekker sammen informasjon som er direkte svar på spørsmålene en bruker måtte ha.  I tillegg blir all underliggende informasjon tilgjengelig for brukeren slik at de kan gjøre sine egne vurderinger i tillegg til hva de får fra løsningen.

For kontakt med Develop send mail til kundeservice@develop.no, eller ring oss.