top of page

PCでの音声入力はどれが使いやすいのか?

  • 執筆者の写真: Ysasa
    Ysasa
  • 19 時間前
  • 読了時間: 9分

Superwhisper と Typeless を試して感じたこと

PCやスマホで文字を入力する方法はいろいろあります。


キーボード入力、スマホのフリック入力、そして最近では音声入力もかなり身近になってきました。

特に最近は、ChatGPTのようなアプリにも音声入力ボタンがあり、話した内容をそのままテキストにできるようになっています。


ただ、実際に使ってみると、音声入力と一口に言っても、かなり用途が異なります。

たとえば、

  • LLMの入力欄に向かって話すタイプ

  • PC上のさまざまな場所に直接入力できるタイプ

  • ボイスレコーダーのように録音してあとから文字起こしするタイプ

では、使い勝手も向いている用途もかなり異なります。

今回はその中でも、PC上のさまざまな場所に直接入力できる音声入力ソフトとして、Superwhisper と Typeless を試してみました。


あわせて、ChatGPT や Claude のような入力欄ベースの音声入力、そしてボイスレコーダー型との違いについても整理してみます。


音声入力の使用感と用途違い

音声入力というと、どれも似たようなものに見えるかもしれません。


しかし実際には、使い方も目的もかなり違います。


ChatGPTのような「入力欄で長く話せる」タイプ

たとえば ChatGPT の音声入力は、比較的長く話し続けられる印象があります。


考え事をしながら少し間を挟みつつ話しても、比較的そのまま受け止めてくれるので、アイデアを流し込む用途には向いています。

一方で、このタイプはあくまでそのアプリの入力欄にしか入力できないという制約があります。


ChatGPTの中では便利でも、メールや文書作成ソフト、ブラウザ上のフォームに直接入れられるわけではありません。


Claudeのような「リアルタイム変換」タイプ

Claude にも音声入力がありますが、こちらはリアルタイムに文字が変換されていく感覚があります。


その場で変換結果が見えるのは便利なのですが、少し考えながら話していると、入力待ちが終わってしまい、続けて入れづらいと感じることもあります。

テンポよく話せるときには使いやすい一方、思考しながらゆっくり話したい人には少し相性があるかもしれません。


Superwhisper や Typeless のような「どこにでも入力できる」タイプ

これに対して、Superwhisper や Typeless の大きな強みは、LLMの入力欄だけでなく、PC上のさまざまな場所に直接入力できることです。

たとえば、

  • メール

  • メモアプリ

  • Wordなどの文書作成ソフト

  • ブラウザ上の入力フォーム

といった場所に、そのまま音声で文字を入れていけます。

実際に使ってみると、この違いはかなり大きいです。


AIチャットの中だけで使うのではなく、PC作業そのものの入力手段として使えるため、用途の幅が一気に広がります。


ボイスレコーダー型は、また別の用途

最近は、録音機能と文字起こし機能を備えたボイスレコーダーも多く紹介されています。


ただ、これは Superwhisper や Typeless とはやはり別の道具だと思います。

ボイスレコーダー型のメリットは、

  • どこでも持ち運べる

  • 会議やインタビューを記録しやすい

  • 音声そのものを残せる

という点です。

一方で、PCで文章をその場で書きたいときには、ボイスレコーダーはどうしても遠回りです。


録音して、保存して、あとで文字起こしして、必要な部分を整える、という流れになるため、直接入力の代わりとしては不便です。

また、音声そのものが残ることは、記録という意味ではメリットですが、逆に音声を残したくない人にはデメリットでもあります。

その意味で、今回試した Superwhisper と Typeless は、「録音」ではなく「その場で文章を入力する」ためのツールとして位置づけるのがわかりやすいと思います。


Superwhisper と Typeless の基本的な違い

Superwhisper

Superwhisper は、完全ローカルでの文字起こしが可能なのが大きな特徴です。


音声データを外部に送らず、手元の環境で処理したい人にとってはかなり魅力があります。

また、コマンドボタンで、カーソルを合わせた任意の場所へ直接入力できるのも便利です。


比較的長くしゃべっても対応しやすく、途中で止まりにくい印象があります。

さらに、買い切りができるのも大きなポイントです。

公式サイト: Superwhisper


Typeless

Typeless は 完全ローカルではないものの、音声はサーバーに残らないという特徴があります。


ローカル完結ではないが、音声データを保存したくないという考え方には合っています。

操作は fnボタンで入力開始という形で、慣れると手軽に使えます。


一方で、こちらは買い切りではなく、サブスクリプション型です。

公式サイト: Typeless


まず結論

実際に試してみた印象を先にまとめると、次の通りです。

  • Superwhisper は、早口かつ短文だと文字起こしに失敗しやすい

  • ただし、それ以外では比較的自然で、プレーンな出力になりやすい

  • Typeless は、文章をそのまま素直に書き起こすというより、整理してリスト化する傾向がある

  • プレーンな書き起こしを求める場合はやや癖があるが、出力としては悪くない

つまり、


自然にそのまま文字起こししたいなら Superwhisper 寄り


整理された形で出したいなら Typeless 寄り


という印象でした。


比較条件

今回は、以下の2パターンで比較しました。

  • 短い文章

  • 長い文章

さらに短い文章では、

  • 早口で話した場合

  • ゆっくり話した場合

も比較しています。


実際の結果

以下は、試した結果を原文のまま掲載します。

(短い文章の場合)

正解: Superwhisper. 日本語をうまく翻訳することができない。

Superwhisperで早口の場合:Superwhisper, nyiponko lukunak konhiyaku selu koto daikinai. Superwhisperでゆっくり喋った場合:Superwhisper.日本語をうまく翻訳することができない。

Typelessで早口の場合:スーパーウィスパー、日本語をうまく翻訳することができない。 Typelessでゆっくり喋った場合:Super Whisper、日本語をうまく翻訳することができない。

(長い文章の場合 全て早口)

正解: 我々の研究室は、ヒトゲノムの機能を解明するための次世代の実験技術とデータサイエンス技術を開発し、難治性疾患の病態解明やその治療・診断に応用する研究を行っています。誰も達成できなかった精度や規模で生命現象を計測・制御するゲノム科学実験技術の開発を目指す。新しいゲノム科学の計測・制御技術で得られるデータから生命情報を抽出する新しいデータ科学技術を開発する

Superwhisper: 我々の研究室はヒトゲノムの機能を解明するための次世代の実験技術とデータサイエンス技術を開発し、難知疾患の病態解明やその治療診断に応用する研究を行っています。誰も達成できなかった精度や規模で生命現象を計測・制御するゲノム科学実験技術の開発を目指す。新しいゲノム化学の計測・制御技術で得られるデータから生命情報を抽出する新しいデータ化学技術を開発する

Typeless: 我々の研究室は、ヒトゲノムの機能を解明するための次世代の実験技術とデータサイエンス技術を開発し、難治性疾患の病態解明やその治療・診断に応用する研究を行っています。

主な研究内容は以下の通りです:

  1. 誰も達成できなかった精度や規模で生命現象を計測・制御する、ゲノム科学実験技術の開発を目指す。

  2. 新しいゲノム科学の計測・制御技術で得られるデータから、生命情報を抽出する新しいデータ科学技術を開発する。


結果から見えたこと

Superwhisper は「短文の早口」に弱そう

もっとも印象的だったのは、短い文章を早口で話したときの崩れ方でした。


日本語として認識されず、ローマ字のような不自然な出力になっており、この条件ではかなり不安定です。

一方で、同じ短文でも、ゆっくり話した場合はかなり正確でした。


つまり、Superwhisper は「短文が苦手」というより、短文かつ早口という条件に弱い可能性があります。


Superwhisper は比較的プレーンな出力

長文では多少の誤認識はあるものの、全体としては話した内容をそのまま文章化しようとする傾向が見えました。


句読点や表記ゆれはあるものの、出力の方向性としてはかなり素直です。

そのため、あとから自分で整えたい人には向いていそうです。


加えて、ローカル処理、比較的長く話せること、買い切りがあることも、道具としての魅力だと感じました。


Typeless は「整えて見せる」方向に強い

Typeless は、単純な文字起こしというより、内容を読みやすく整理して提示しようとする傾向がありました。


特に長文では、途中から箇条書きへと組み替えられており、その特徴がはっきり出ています。

この挙動は、人によって評価が分かれそうです。

そのまま残したい人には、少し手が入りすぎて見えるかもしれません。


一方で、メモや下書きとして使うなら、むしろ見やすくて便利です。


結局、どれを選べばよいのか

今回試してみて感じたのは、どれが一番優れているかではなく、何に使いたいかで選ぶべきだということです。


ChatGPT のような音声入力が向いている人

  • 考えながら長く話したい

  • アイデアをそのまま流し込みたい

  • 入力先がそのアプリ内で完結している

Claude のような音声入力が向いている人

  • リアルタイムに変換されるほうが使いやすい

  • 比較的テンポよく話せる

  • 短めの入力を素早く行いたい

Superwhisper が向いている人

  • できるだけ話した内容をそのまま文字にしたい

  • プレーンな文章として出してほしい

  • PC上のさまざまな場所に直接入力したい

  • ローカル処理や買い切りを重視したい

Typeless が向いている人

  • 文字起こししながら、ある程度整えてほしい

  • 箇条書きや構造化されたメモがほしい

  • 音声を残さずに使いたい

  • サブスクでもよいので、読みやすさを優先したい

ボイスレコーダー型が向いている人

  • 会議やインタビューを記録したい

  • 音声そのものも保存したい

  • 持ち運びながら使いたい

逆に、PCでその場で文章を入力したいなら、ボイスレコーダーはかなり不便です。


その用途では、Superwhisper や Typeless のような直接入力型のほうが明らかに実用的だと思います。


まとめ

今回試した範囲では、


Superwhisper は「短文の早口」に弱いが、それ以外は自然でプレーン


Typeless はプレーンではないが、整理された出力をしてくれる


という違いが見えました。

また、音声入力そのものにもいくつかの系統があります。

  • ChatGPT のように、入力欄で長く話しやすいタイプ

  • Claude のように、リアルタイム変換でテンポよく入れるタイプ

  • Superwhisper や Typeless のように、PC上のさまざまな場所に直接入力できるタイプ

  • ボイスレコーダーのように、録音と文字起こしを組み合わせるタイプ

それぞれに良さがあり、向いている用途も異なります。


だからこそ、「どれが一番か」ではなく、「自分が何をしたいのか」で選ぶことが大切だと感じました。

パソコン上で文章をその場で入力したいのであれば、録音してあとで起こす道具よりも、


直接入力できる音声入力ソフトのほうがずっと相性がよいです。

音声入力は今後さらに一般的になっていくと思いますが、実際に触ってみると、ソフトごとに使い勝手はかなり違います。


だからこそ、自分の作業スタイルに合ったものを選ぶことが重要だと思います。

 
 
 

コメント


  • Twitter

©2020 Yohei SASAGAWA
Wix.com で作成されました。

bottom of page