Goodbye Actions. Hello useful voice systems.

The word is out, Google is sunsetting Conversational Actions on June 13th 2023. I fully understand Google’s choice as the current setup didn’t get the user traction it deserved. As a developer of several actions myself and as an experienced user I learned that it was hard to get buckled up for the actual core of a Google action without losing users during the conversation.

When I was working for Rabobank, a user first needs to set up a connection with his or her account. This step already caused many users to not join this channel as an updated smartphone with the Google Assistant app was needed. But even if installed it still took a lot of effort to connect with a dual-factor authentication system (Rabo Scanner) to access the information users wanted to request (their balance). Another step to bale out was the privacy consent, many users didn’t and still don’t trust big external parties with their financial data.

Also for my private projects like the 7 minutes workout action, I found that it was easier to have this video added to Youtube and ask for it to Google to play it using Youtube than to ask for the action itself.

The technology was just not ready for all these use cases. I found myself quickly irritated when Google Home misinterpreted the question or command I give. Also, waiting for the same (too long and slow) response when it gave me a wrong answer. However, I still think voice technology can add value to people’s lives.

Use cases I personally love to use in my home are: asking till what time a shop is open, playing music, asking for latest news, activating the lights for a certain setting, asking for the kids how animals or music instruments sound.

Other use cases I wished I could use it more often are when I am driving in my car. Can you imagine asking: “Can you navigate to a gasoline pump on our route?” or “Next song please?” or “When is the next drive-through restaurant on my route?”. But then answering your request in a correct way…

However, I disabled all voice assistants at the moment because of too many false positives in triggering the assistants or in the case of the car-based voice system: it just doesn’t understand. So, let’s focus on creating great usable web content (as mentioned here) and let’s try this technology after a few years again 🙂

Analytics

Na het approved krijgen van mijn action in de <action-store?> van Google hoopte ik natuurlijk op vele bezoekers de eens een kijkje komen nemen. Gewoon om een te proberen en weer te verlaten. De overzichtspagina ziet er per slot van rekening niet kinderactig uit dacht ik zo… (link)

Zonder enige vorm van marketing staat de action al 3 maanden op de Google Cloud. Mijn idee was om verder te gaan met de ontwikkelingen wanneer er toch een persoon of 50 per dag interesse zouden tonen.

Anyway, wat zijn de resultaten van een action voor 18+ publiek (want alcohol) die je zonder marketing online slingert? Hou je vast, hier een overzicht van de afgelopen 30 dagen:

Action approved!

Versie 2.0 van Favino werd afgekeurd aangezien de microfoon nog steeds “open” zou blijven staan bij een intent. In de e-mail stond duidelijk om welke intent het ging wat de zoektocht een stuk makkelijker maakte.

Ik bleek bij de betreffende intent niet met een vraag te eindigen. Het is dus erg belangrijk om een gebruiker van een voice interface altijd een vraag te stellen om deze zo de juiste antwoordrichting in te sturen.

Eindig een intent altijd met een vraag of zorg dat de intent de conversatie sluit.

Versie 3.0 was al snel gemaakt en binnen 24 uur gereviewed en approved! Het lijkt er steeds meer op dat het reviewen van Google Actions toch echt mensenwerk is, gezien de precisie waarmee mijn versie 2.0 afgekeurd was. Navraag bij Wally Brill (van Google), die ik sprak bij een bijeenkomst georganiseerd door Valsplat, bevestigde me dat dit inderdaad nog mensen werk is.

“Action not approved”

Het duurde 5 werkdagen voor ik bericht van Google kreeg, helaas is de action niet goedgekeurd… 3 verbeterpunten staan er in de e-mail:

  • De taal van de privacy policy (in het engels) komt niet overeen met de taal van de action (in het Nederlands).
  • De invocaties blijken nog onjuist gestructureerd te zijn.
  • De microfoon zou “open” blijven staan na sommige intents wat niet de bedoeling zou zijn.

Aangezien ik graag een eerste versie in productie live wil zetten om ook te leren van de analytics ga ik “effectief” te werk. Taal van privacy policy in het Nederlands toegevoegd, nog maar 1 invocation (namelijk praat met favino wijnadvies en als laatste na elk advies het vinkje “end of conversation” ingesteld.

Versie 2 is een feit en vandaag ingestuurd. To be continued…

Deploying Favino v1.0

Al met al ben je toch makkelijk een hele avond kwijt om je eerste versie helemaal deploy-ready te maken. Naast een paar juist opgezette intents, een icoon, een naam en een manier van aanroepen heb je ook nog een privacy policy nodig. Deze policy moet dan ook nog eens op een online benaderbare plek staan. Gelukkig komt Google je een klein beetje tegenmoed door al een template beschikbaar te stellen die je kunt over nemen en maar hoeft aan te passen naar de voor jou geldende regels.

Any way, mijn eerste versie is “pending” bij Google en ik zal jullie op de hoogte houden van de voortgang.

Voice response opmaken

Bij het maken van een website gebruik je HTML voor de inhoud en CSS voor de opmaak zodat het geheel er mooi en leuk uitziet. Dit zelfde fenomeen zien we ook terugkomen bij de ontwikkeling van conversaties. In Dialogflow schrijf je een response voor je intent en maak je deze mooier en leuker door gebruik te maken van SSML (Speech Synthesis Markup Language).

Hier een link naar de officiele website: https://www.w3.org/TR/speech-synthesis/ en nog een link over de manier hoe Google dit interpreteert: https://developers.google.com/actions/reference/ssml

Een eerste test met deze markup language komt positief uit de bus! De taal laat zich makkelijk toepassen in Dialogflow en het antwoord van onze default welcome intent wordt er meteen een stuk duidelijker van.

Voice first!

Favino wordt vanuit een voice-first benadering ontwikkeld. Hierbij willen we leren hoe de huidig opzet beleefd wordt. We proberen de scope klein te houden door de action te laten starten met een simpele wijn keuze waarbij de action vervolgens een aantal spijs-suggesties doet. We leren van elke interactie met onze action, voel je vrij om ons te helpen 🙂