レビュー

Android上でWhisperによる日本語音声入力を実現する「FUTO Voice Input」


「FUTO Voice Input」はAndroidデバイス上で OpenAI Whisperによる日本語音声入力を実現し、ソフトキーボードや汎用音声認識APIと連携し音声認識によるテキスト変換を可能にします。

FUTO Voice Input
https://voiceinput.futo.org/

keyboard / VoiceInput · GitLab
https://gitlab.futo.org/keyboard/voiceinput

◆概要
FUTO Voice Inputがサポートしているソフトキーボードは以下の通り。

・FUTO Keyboard
・HeliBoard
・FlorisBoard supports it on newer releases
・AnySoftKeyboard
・Unexpected Keyboard(v1.23+)
・AOSP Keyboard
・Grammarly Keyboard
・Microsoft SwiftKey

以下のソフトキーボードはサポート対象外です。

・Gboard:Googleの音声入力を使用するようにハードコードされているため
・Samsung Keyboard:Samsung音声入力またはGoogle音声入力のみを許可するようにハードコードされているため
・Simple Keyboard by Raimondas Rimkus:音声がないため
・Simple Keyboard by Simple Mobile Tools:音声がないため
・TypeWise:音声ボタンがないため

FUTO Voice InputはOpenAI Whisperモデルをベースにしているため理論的にはOpenAI Whisperがサポートするすべての言語をサポートしていますが、実際問題として学習時間の少ない言語だと十分なポテンシャルを発揮できません。期待した音声入力ができるかの目安として「学習時間が1000時間以上の言語」のみをサポートしている言語としています。

・英語
・中国語(※ただし現在、繁体字と簡体字の間で奇妙な挙動あり)
・ドイツ語
・スペイン語
・ロシア語
・フランス語
・ポルトガル語
・韓国語
・日本語
・トルコ語
・ポーランド語
・イタリア語
・スウェーデン語
・オランダ語
・カタルーニャ語
・フィンランド語
・インドネシア語

◆インストール
ダウンロードサイトは以下の通りです。

Google Play
F-Droid
APKファイル

今回はGoogle Play経由でインストールします。公式サイトの「Download FUTO Voice Input」の直下にある「Download from Play Store」をタップします。


Google Playの「FUTO Voice Input」のページが表示されるので、「インストール」をタップします。


インストールが完了したら「開く」をタップします。


他の音声入力アプリが有効になっていると「Change default Voice Input」の画面が表示されるので、「Dismiss」をタップして先に進みます。


サポート対象外のソフトキーボードが有効になっている場合「Incompatible keyboard」の画面が表示されるので、「I understand 【有効なソフトキーボード】 is incompatible」をタップして先に進みます。


「既存のキーボードと統合するにはVoice Inputを有効にする必要があります」と表示されるので、「Open Input Method Settings」をタップしてOSのキーボード管理画面を表示して設定を行います。


さしあたって、FUTO Voice Inputおよびサポートされているソフトキーボードを有効化しておきます。


FUTO Voice Inputに戻ると「Voice Inputを使用するにはマイクの使用権限を与える必要があります」と表示されるので、「Grant Microphone」をタップします。


「音声の録音をFUTO Voice Inputに許可しますか?」と表示されるので、「アプリの使用時のみ」をタップし権限を与えて先に進むとインストール時の作業は完了となり、引き続き設定画面に移行します。


◆設定
設定画面は以下の通り。


・Language
音声入力の対象となる言語の設定画面は、初期状態では「English」のみが有効化されている状態です。


下にスクロールすると「Japanese」があるので有効化すると日本語の音声入力が可能となります。


複数の言語が有効な状態になると「English」を無効化することが可能になります。


日本語を有効化したことによりマルチリンガルモデルが必要となるためダウンロードが始まります。そこそこ大きなファイルをダウンロードするのでWi-Fi接続した状態で行うことが推奨されています。


・Model
使用するAIモデルの選択ができる画面です。日本語のみを有効化している状態だとマルチリンガルモデルのみが表示されており、3モデルから選択可能です。特にこだわりがなければデフォルトのままで構いません。


ちなみに英語を無効化していない状態では英語用のモデルも選択可能です。


・Theme
画面のテーマカラーを選択できます。選択候補はダーク系がデフォルトの「FUTO VI Theme」を含めて4つ、ライト系が3つとなっています。


なお、空き枠の「+」をタップしてみたところ「Custom themes coming eventually」と表示されたので何らかのイベント時に配布される模様です。


・Testing Menu
テスト画面では音声入力のテストが可能です。「Trigger voice input」をタップすると音声入力が始まります。


音声入力の受付中は画面中央にマイクのアイコンを表示したポップアップが表示され、タップすると音声入力を終了します。


画面上部のテキストボックスに入力された文字が表示されます。「本日は晴天なり」「本日は晴天なり」「只今マイクのテスト中」と発声したところ、「晴天」を「正点」と変換されたのを除いて正しく表示されています。


なお、英語と日本語を有効にしたところ、音声入力の開始前に対象言語を選択するポップアップが表示されました。


・Payment
FUTO Voice Inputは無料で使用できますが、「もしこのアプリを気に入ったら」Google Play経由で購入することもできます。記事作成時点で確認してみたところ価格は1500円でした。


既に支払済みの場合は「I already paid」をタップすればいいようです。試しにタップしてみたところ、確認のためもう一度タップを要求され、その後「Payment」の項目自体が非表示となりました。


・Advanced
Advanced Settings画面では上級者向けの設定が可能です。特に目につくのは「Suppress non-speech annotations」で、有効にするとせきや音楽といった非音声アノテーションを音声入力の対象から外すことができるとのこと。


◆使ってみた
実際に使ってみる前に、ソフトキーボードからFUTO Voice Inputを呼び出せるようにしておきます。今回はFUTO Voice Inputがサポートしている「Microsoft SwiftKeyキーボード」を使用したいので、Android設定の「キーボードを管理」でFUTO Voice InputとMicrosoft SwiftKeyキーボードの2つを有効にしておきます。


次に、同じくAndroid設定の「言語と入力」で「現在のキーボード」を「Microsoft SwiftKeyキーボード」にします。逆に「FUTO Voice Input」を設定してしまうと文字入力の場面で常にFUTO Voice Inputが表示されてしまうので注意が必要です。


この状態で「Microsoft SwiftKeyキーボードを表示し左上のマイクのアイコンが薄く表示されているボタンを長押しします。


するとFUTO Voice Inputが表示され音声入力が始まります。


まずは「走れメロス」の冒頭部分を朗読し音声入力でテキスト化してみます。初っ端の「目ろす(メロス)」や「ジャチ(邪智)」「ジャーク(邪悪)」で一抹の不安を覚えたものの文章自体はそれほど手間もなく修正できそうです。


次はグリム童話の「灰かぶり」です。細かな点でミスがありますが内容はほぼ理解できます。


さらに「銀河鉄道の夜」も試してみます。「かむぱれんぬら(カムパネルラ)」や「女番人(ジョバンニ)」という登場人物名の変換ミスを除けば割と読める文章となっています。


文体が古めだと変換に手こずるのではないかという可能性を考慮し、記事作成時点に近い GIGAZINEの記事でも試してみます。出力された結果を確認してみると「エツランス(閲覧数)」「インプレゾンディ(インプレゾンビ)」といったあまり一般的ではない用語の解釈に戸惑った形跡が認められます。


◆まとめ
いくつかの文章で音声入力を試してみたところ、単語レベルの解釈・変換ミスはそこそこ見られるものの文章構成は保たれているので修正は容易である印象を受けました。AIモデルの更新次第で大化けする可能性を秘めているので、興味を持った方は是非試してみてください。

この記事のタイトルとURLをコピーする

・関連記事
ページをブックマークしてHTML・スクショ画像・PDFなどで自動保存して検索・ハイライトなどの注釈・複数人での共有・スマホアプリからの利用・RSSの自動保存・AIによる自動タグ付けができる「Linkwarden」、無料でセルフホストも可能 - GIGAZINE

無料&広告なしで音声をテキストに変換できるアプリ「Notely Voice」レビュー、ネット接続不要でスマホのみでWhisperを実行して長文メモを簡単に作れる - GIGAZINE

無料でスマホから切り抜き・描画からフィルター・OCR・幅広い画像処理オプションまでありとあらゆる写真を加工する機能が山ほど使えるオープンソースAndroidアプリ「Image Toolbox」レビュー - GIGAZINE

無料で使えてシンプルデザインのAndroid向けファイルマネージャー「Amaze File Manager」、複数のタブを同時操作可能で広告やアプリ内購入なし - GIGAZINE

無料でYouTubeなどから動画や音楽をダウンロード・保存できるオープンソースAndroidアプリ「Seal」 - GIGAZINE

無料・広告なしでメッセージ送受信できてブログも開設可能でインターネットがダウンしてもBluetoothやWi-Fiのみで通信できるアプリ「Briar」、中央サーバーなしで動作しE2Eで暗号化 - GIGAZINE

スマホに装着するだけで簡単に温度を測定できる外付け赤外線カメラモジュール「HIKMICRO Mini2Plus V2」を使ってみたよレビュー - GIGAZINE

無料でスマホやタブレットで電波時計を同期できる「Time Station Emulator」 - GIGAZINE

in AI,   ソフトウェア,   レビュー, Posted by log1c_sh

You can read the machine translated English article 'FUTO Voice Input' enables Japanese voic….