
Credit: Joseph Llanes
Alexa
-
Alexaの音声認識機能の基礎
Alexa とは何か、疑問に思われたこともあるかもしれません 。
Alexa は Echo 端末の頭脳となるクラウドベースの音声サービスです。スピーカーやイヤホンなど様々なメーカーの製品にも搭載されています。
Alexa に話しかけるだけで、音楽の再生、ニュースやスケジュールの読み上げ、タイマーやアラームのセットなど、日常のさまざまな場面で役に立ちます。 Alexa 対応スマートホームのコントロールなども可能です また、何か質問をすれば、 Alexa がそれに答えてくれます。「アレクサ」と話しかけるだけで、様々なことができます。
中でも「アレクサ、音楽をかけて」というフレーズは、カスタマーが最もよく使用しているフレーズの1つとなっています。
-
多様なリクエスト方法
Amazon Music では、数百万のリスナーができる限り簡単に音楽を聴けるように、 Alexa で音楽ストリーミングサービスを利用できる機能を導入しています。実のところ、 Amazon Music は音声認識を念頭に開発されています。音声によって簡単に、そして精巧に音楽を再生・コントロールできるストリーミングサービス開発の先頭に立ってきました。
ここでは、リスナーが Alexa であなたの音楽を聴く方法をいくつかご紹介します。
-
Alexaの仕組み
Alexa で Amazon Music を利用すると魔法のように感じるかもしれません。しかしその裏側では、リクエストに応じるための多くのことが行われています。ここでは理解を深めるために、 Alexa と音声認識に関する基本的なテクノロジーや用語をご紹介します。
発話 - 言葉の定義上、発話は「話し言葉、発言、または発生音」を意味します。Amazon Music リスナーが Alexa に対して行う具体的なリクエスト を、「発話」と呼んでい ます。
ウェイクワード - Amazon Music このウェイクワードを使うことで、音声認識機能である Alexa を簡単に起動できるようにしています。通常の ウェイクワードは「アレクサ」ですが、「コンピューター」、「エコー」または「アマゾン」などへの変更も可能です。Echo デバイスは、カスタマーが選んだウェイクワードにのみ反応するよう設計されています。
専門的な内容については一般化してありますが、Alexaに対しウェイクワードと発話を行う と、通常は以下の4つの段階を経て処理が行われます。
- 自動音声認識(ASR): カスタマーがAlexaに対し楽曲の再生をリクエストすると、ASRが音声を文字テキストに変換します。
- 自然言語理解(NLU): 第二段階では、テキスト化された文章の意味を理解し、Alexaがリクエストに的確に応じられるようにします。この第二段階で実際に行われるのは、実際にその文章の意味や、話者の意図を理解する作業です。 例えば、カスタマーが「アレクサ、Rattle and Humというアルバムをかけて」と話しかけた場合、Alexaは、「ドキュメンタリーが観たいのではなくアルバムを聴きたいのであろう」と理解します。
- 幅広い音楽のインテリジェンス: これには、正しい楽曲の検索、リクエストに的確に応じるために必要なメタデータの追加、パーソナライゼーションの適用、曲順の調整、カスタマーの好みの把握など、あらゆる処理が含まれます。
- 文字音声変換: この段階では、カスタマーのリクエストに対するAlexaの文字応答を音声に変換します。
-
メタデータと音声認識機能
メタデータは、面白みはないですが、とても重要な要素です。正確なメタデータは、カスタマーが何を求めているかを、Alexaが認識するのに役立ちます。またメタデータは、Alexaが、ある曲が楽しい曲なのかワークアウトに適した楽曲なのかを判断したり、一方でカスタマーが最近再生した楽曲を抽出したりする事にも役立ちます。Amazon Musicでは、カスタマーが本当に聴きたい音楽を聴けるようにするために、数百万の楽曲においてこのメタデータを管理しています。
楽曲がどのような形でAmazon Musicに納品されるかも、大きな影響を及ぼします。このことを念頭において、以下のベストプラクティスを参考にして、楽曲のリリース日に Alexa がその楽曲のリクエストに応じられるようにしましょう :
- 楽曲をできるだけ早く納品: Alexaがあなたの楽曲について学ぶには一定の時間が必要です。このため、リリース日の間近に楽曲を納品すると、さまざまな問題が生じる可能性があります。 一般的には、Amazon Music最善の結果を得るために、遅くともリリース予定日の7日前までにAmazonに楽曲を納品することを推奨しています。
- メタデータの提供: 楽曲のリリース日、バージョン情報、露骨表現の有無を示すフラグ、およびジャンル/サブジャンル情報に代表される主要なメタデータを提供することは、Alexaが、あなたの楽曲を正しく理解して再生するために重要です。
- 特殊文字への配慮: メタデータが正しく入力されていても、特殊文字を扱い理解することがAlexaにとって難しいことがあります。 たとえばアーティスト名が、 「6LACK」、「!!!」または「P!nk」のようになっている例が挙げられます。 特殊文字の使用が避けられない場合は、事前にレーベルがAmazon Musicに情報を共有し、問題に対処できるよう、レーベルに依頼してください。
- 重複の回避: 重複したアルバムや曲がある場合(例えば複数のバージョンが存在する等)、それらを区別するのは難しい場合があります。
- 発売日間近の商品変更の回避: 再納品やリリース日の変更、新たな楽曲やメタデータの追加などを繰り返し行うと、Alexaのパフォーマンスに影響が及ぶ恐れがあります。 再納品が避けられないケースはよくありますが、発売日間近の変更は最小限に留めるようにしてください。 これを徹底していただけば、Alexaで聴いているあなたのファンに最善の形で音楽を楽しんでもらうことができます。