
人間のようなボットとチャットする意味があるなら、それが信用できない語り手である必要がある理由は何ですか?-そして、無味乾燥な性格を持っていますか?
これは、私が先週、GoogleのOpenAIのAdvanced Voice Modeに取り組んで以来、考えている疑問です。Gemini Liveは、より魅力的なチャットボット体験を提供しようとする試みです-現実的な声と、いつでもボットを中断できる自由を持っています。
Gemini Liveは「直感的でスムーズな、実際の会話ができるように調整されている」と、GoogleのGeminiエクスペリエンスのGMであるSissie Hsiaoが5月にTechCrunchに語った。 「たとえば、テキストだけでやり取りしている場合よりも、情報をもっと簡潔に提供し、会話形式で回答できる」と彼女は言いました。 「AIアシスタントは複雑な問題を解決できるはずであり...そして、それに従事するときに非常に自然で流動的であるべきだと考えています」。
Gemini Liveとかなりの時間を過ごした後、Googleの以前のAIパワードボイスインタラクション(Google Assistantを参照)よりも自由で自然な感じであることを確認できます。しかし、幻覚や矛盾などの基本技術の問題に対処しておらず、いくつかの新しい問題を導入しています。
非奇妙な谷
Gemini Liveは基本的に、Googleの最新の生成AIモデル、Gemini 1.5 Proおよび1.5 Flashの上に取り付けられた高度なテキスト音声合成エンジンです。モデルはエンジンが声で話すテキストを生成します。会話の走行トランスクリプトは、AndroidのGeminiアプリ(そしてまもなくiOSのGoogleアプリ)のGemini Live UIでスワイプするだけです。
私のPixel 8aのGemini Liveの声は、私がUrsaを選びました。これをGoogleは「中間レンジ」で「関与型」と説明しています(これは私には若い女性のように聞こえました)。同社は、プロの俳優とともにGemini Liveの10の声を設計したと述べており、それが表れています。ウルサは確かに、Googleの古い合成音声の多くと比べて表現力が向上していました、特にデフォルトのGoogleアシスタントの声。
しかし、Ursaおよび他のGemini Liveの声は、不気味な谷の領域から遠く離れた冷静なトーンを維持しています。これが意図的なものかどうかはわかりませんが、ユーザーはまた、どの声のピッチ、音色、テナー、さらには声の速さを調整することもできません。つまり、Advanced Voice Modeには明確な不利があります。