Gemini Proで料理タイムラプスをSRT化してみた:うまくいくけど、1:51–2:00で“抜け”た話
- Ysasa

- 1月12日
- 読了時間: 10分
背景:動画から作業ログをとる体験をする
本来の目的は、実験作業を動画からどれくらい工程として抽出できるのかを確かめることにある。ただし実験の手技は、見た目が似た操作が繰り返されることも多く、外部から観察できる情報だけでは「何をしているか」の区別が難しい場面が出やすい。そこで本検証では、いきなり実験に適用して評価が曖昧になるのを避けるため、まず 料理 を題材にした。
料理は、食材や器具といった対象物が比較的大きく、形や色の特徴も出やすい。さらに、切る・混ぜる・炒める・盛り付けるといった動作は、腕や手の動きが大きく、外部観察によって捉えられる情報(外面に現れる情報)が多い。このためVLMにとっても、工程認識が比較的安定しやすいはずだと考えた。
今回の料理タスクは、言い換えると ポジティブコントロール(=まず“うまくいくはず”の課題で性能を確認する) の位置づけである。ここで工程抽出が十分にできないのであれば、外部観察だけで区別しづらい実験作業に移ったときには、さらにうまくいかない可能性が高い。その意味で、料理での検証は「VLMで工程抽出を始める前提が成立するか」を確かめるための第一段階として行った。
実験設定:タイムラプスにしてGeminiで解析、SRTを出す
入力データ(動画)
料理中(トマト系のパスタ)の様子を撮影し、**タイムラプス(時間圧縮)**として書き出した。
元の作業時間を圧縮することで、2〜3分程度の短い動画にまとめ、VLMで扱いやすい入力にした。
動画は前後2本に分かれており、順序は以下の通り。
前半:PXL_20260111_024259366.mp4(2:24)
後半:PXL_20260111_025510156.mp4(1:33)
解析方法(Geminiへの指示)
Gemini Pro(VLM)に対して、各動画について「工程をできるだけまとめず、時系列に細かく説明し、字幕ファイル(SRT)形式で出力する」ことを求めた。使用したプロンプトは次の1文のみ。
どのような作業をしているか時系列で詳細に解説してください。できるだけ工程をまとめず詳しく述べてください。それぞれsrt fileとして排出してください。この指示により、まず初回のSRT(1.srt, 2.srt)を得た。
結果:SRT化は「一見うまくいく」
まず全体の印象として、出力はかなり良かった。
前半動画では、冒頭から 調理準備(にんにくの皮むき→スライス→フライパンへ→オイル投入…)の流れが、数秒〜十数秒単位の字幕として並び、工程ログとして読みやすい形式になっている。
後半動画でも、にんにく・唐辛子の加熱→ナス投入→炒め→ベーコン追加…のように、料理として自然な順序で工程が列挙される。
この時点では「タイムラプスでも、料理の工程はかなり拾える」という手応えがあった。
[前半のSRT]
00:00:00,000 --> 00:00:05,000
キッチンに立ち、包丁と黒いまな板を手元に用意する。
00:00:05,000 --> 00:00:12,000
ニンニクを数片手に取り、皮をむいて根本を切り落とす。
00:00:12,000 --> 00:00:18,000
ニンニクをまな板の上で薄いスライスにする。
00:00:18,000 --> 00:00:24,000
スライスしたニンニクをすべてコールドの状態のフライパンに入れる。
00:00:24,000 --> 00:00:30,000
フライパンにオリーブオイルを回し入れる。
00:00:30,000 --> 00:00:38,000
乾燥唐辛子(またはスパイス)をフライパンに加え、コンロにセットする。
00:00:38,000 --> 00:00:44,000
冷蔵庫からベーコン、ナス、トマトを取り出し、作業台に置く。
00:00:44,000 --> 00:00:51,000
キッチンバサミを使い、ベーコンのパッケージを開封する。
00:00:51,000 --> 00:00:56,000
ナスのヘタを切り落とす。
00:00:56,000 --> 00:01:01,000
ナスを縦方向に細長く短冊切りにする。
00:01:01,000 --> 00:01:06,000
トマトのヘタを取り除く。
00:01:06,000 --> 00:01:11,000
トマトをスライスし、さらに食べやすい大きさにカットする。
00:01:11,000 --> 00:01:18,000
ベーコンを取り出し、包丁で一口大の幅に切り分ける。
00:01:18,000 --> 00:01:25,000
切り終わった食材を一旦よけ、まな板の上を片付けて布巾で拭く。
00:01:25,000 --> 00:01:32,000
パスタの袋を取り出し、キッチンスケールを用意する。
00:01:32,000 --> 00:01:39,000
スケールの上にパスタを乗せ、規定のグラム数を計量する。
00:01:39,000 --> 00:01:44,000
コンロの鍋の蓋を開け、お湯の沸騰加減を確認する。
00:01:44,000 --> 00:01:49,000
沸騰したお湯に塩を適量加える。
00:01:49,000 --> 00:01:56,000
再度沸騰するまで鍋に蓋をして待つ。
00:01:56,000 --> 00:02:08,000
シンクで洗い物をしつつ、お湯が完全に沸くのを待つ。
00:02:08,000 --> 00:02:16,000
計量しておいたパスタを手に持ち、鍋の前に立つ。
00:02:16,000 --> 00:02:24,000
パスタを鍋に投入し、お湯に浸かるように軽く押さえる。[後半のSRT]
00:00:00,000 --> 00:00:08,000
フライパンを火にかけ、オリーブオイルでニンニクと唐辛子を加熱し香りを出す。00:00:08,000 --> 00:00:15,000
カットしておいたナスをフライパンに投入する。
00:00:15,000 --> 00:00:23,000
ナスが油を吸うように、トングを使ってニンニクと一緒に炒め合わせる。
00:00:23,000 --> 00:00:30,000
カットしたベーコンを加え、さらに炒める。
00:00:30,000 --> 00:00:38,000
ベーコンの脂が出るまで、ナスと一緒によく炒め合わせる。
00:00:38,000 --> 00:00:45,000
カットしたトマトをフライパンに加える。
00:00:45,000 --> 00:00:53,000
トマトを崩しながら具材全体を混ぜ、少し煮詰めるような状態にする。
00:00:53,000 --> 00:01:00,000
隣のパスタ鍋からお玉で茹で汁をすくい、フライパンに加えてソースを乳化させる。
00:01:00,000 --> 00:01:08,000
茹で上がったパスタを湯切りし、フライパンに移す。
00:01:08,000 --> 00:01:18,000
火をかけたまま、パスタと具材、ソースをトングで手早く絡める。
00:01:18,000 --> 00:01:26,000
お皿を用意し、トングを使ってパスタを高く盛り付ける。
00:01:26,000 --> 00:01:33,000
フライパンに残った具材(ナス・ベーコン・トマト)をパスタの上に乗せて完成させる。失敗:前半 1:51–2:00 だけ“抜け落ちた”
ところが、前半動画の終盤(だいたい 1:51–2:00付近)に、こちらが“実際にやっている作業”がSRT上に現れない箇所があった。初回SRT(1st.srt)ではこの区間が、概ね次のように処理されている。
00:01:49–00:01:56:再度沸騰するまで蓋をして待つ
00:01:56–00:02:08:洗い物をしつつ沸騰を待つ
しかし実際にはこの短時間に、料理の流れとは少し異なる“別の手作業”が入っていた。
介入:ヒントを段階投入して理解度を知り、また再解釈させる
実際には、1:51-2:00あたりで、鍋の蓋のネジが緩んでいるのに気づいて、道具を取ってきて、ネジを締めているという作業だ。
VLMでは、全く認識されていない。
ここからは、モデル出力をそのまま採用せず、怪しい区間だけを狙って再質問する方針に切り替えた。
ヒントを段階的に出して、理解度のはかるやり方だった。
たとえば方針としては、次のような順で条件を足していく。
「料理以外の工程がある」
「時間の指定」
「工具を使用している」
「料理に関わるもの」
最終的には、ヒントを4回与えて、正解するようになった。
修正後のSRT(1-mod.srt)では、該当区間が次のように明示されている。
00:01:52–00:02:00:「【修理】ドライバーを取り出し、鍋の蓋を持ち上げて裏側から取っ手のネジを締め直す。」




考察
料理のメイン工程は拾えても、数秒の“寄り道”や“道具の手元作業”がおちた。
落ちた場合、区間指定をしてヒントを与えると再解釈できた。
大まかな工程、特に大きい物体や見やすい手技のラベル付けやログ化はできるが、細かい部分は落ちる可能性がままある。
“工程”の粒度設計
実験では「準備」「操作」「待ち」「片付け」「点検(今回のネジ締めのようなメンテ)」など、工程ラベルの整理が重要になりそう。
誤認を前提にしたワークフロー化
初回SRT生成
怪しい区間(曖昧/不自然/抜け)を抽出
区間指定+ヒント投入で再解析
反映して“確定版SRT”にする
この流れをテンプレ化すれば、実験動画でも「とりあえずのログ」から「使える工程ログ」へ持っていける可能性があるだろうか?
似た作業の外部からの判定はかなり難しそう。
プロトコルも一緒に入力すれば、対応ができるかも?
おまけ
今回のSRTは、動画ファイルと一緒にyoutubeに入れれれば、字幕になる。また、レポートにまとめることもできる。ちなみに同じGeminiでまとめると以下の総評らしい。手際の良さを褒めてくれていた。手際とか判断できるんだと思った。動画から得られたlogから、レシピを再現してみたが、微妙に違うところもあったがだいたい再現できている。やはり料理は、学習データも多いし結構うまくいくなという印象。ただ知らない手技や意図は、学習データがないと難しいから、集めていく必要があるんだろうなと言う実感をもった。
ご提供いただいた2つの動画(`PXL_20260111_024259366.mp4` および `PXL_20260111_025510156.mp4`)の解析に基づき、一連の作業レポートを作成しました。また、動画内の行動から、この作業の目的と性質を判定しました。
---
# 動画作業解析レポート
## 1. 概要
本レポートは、ナス・ベーコン・トマトを使用したパスタ調理の全工程を記録した2つの動画ファイルの解析結果です。前半は「下準備と予期せぬメンテナンス」、後半は「調理から完成まで」が収められています。
## 2. 動画別 作業詳細
### **前半:下準備・並行作業編**
* **ファイル名:** `PXL_20260111_024259366.mp4` (2分24秒)
* **主な作業:** 食材のカット、パスタの計量、湯沸かし
* **特記事項:**
* ニンニク、ナス、トマト、ベーコンを順序よくカットし、まな板をすぐに拭くなど、衛生面と効率を意識した動きが見られました。
* **【重要】** パスタを茹でるお湯が沸くのを待つ「隙間時間」に、鍋の蓋のつまみ(取っ手)が緩んでいることに気づき、**工具(ドライバー)を取り出してその場で修理(ネジ締め)を行いました。**
### **後半:調理・仕上げ編**
* **ファイル名:** `PXL_20260111_025510156.mp4` (1分33秒)
* **主な作業:** ソース作り、乳化、パスタ投入、盛り付け
* **特記事項:**
* 具材(ナス・ベーコン)を炒める工程からトマトを加えてソース化するまでの一連の流れ。
* 茹で汁を使った乳化、麺とソースを絡める手際、トングを使った立体的な盛り付けなど、調理慣れしている様子が確認できました。
---
## 3. 作業目的と行動判定
### **判定された料理**
**「ナスとベーコン、トマトのパスタ(または アマトリチャーナ風パスタ)」**
### **作業の目的・意図**
この動画の一連の行動は、単なる「料理の手順」だけでなく、**「生活の中のマルチタスク(効率化)」**を目的としていたと判定されます。
**【判定の根拠】**
1. **「ついで作業」の実施:**
料理という主目的の進行中(お湯が沸く待ち時間)に、目についた不具合(鍋蓋の緩み)を即座に修正しています。これは「料理動画のための演技」ではなく、**「リアルな生活上の問題解決」**を優先した行動です。
2. **清掃の習慣:**
食材を切った直後にまな板を拭く、待ち時間にボウルを洗うなど、調理後の片付けを減らすための並行作業が徹底されています。
3. **手際の良い調理:**
パスタの茹で上がりとソースの完成タイミングを合わせるなど、段取りが計算されています。
### **結論**
この動画は、**「手際よく美味しい昼食(または夕食)を作りつつ、キッチンの道具メンテナンスも隙間時間で済ませてしまう、家庭内マネジメントの実践記録」**であると言えます。再現レシピ:ナスとベーコン、フレッシュトマトのスパゲッティ
【材料】(推定:1人分)
パスタ(スパゲッティ):100g(動画の計量シーンより)
ナス:1本(ヘタを取り、縦に短冊切り)
ブロックベーコン:40〜50g(厚みのある一口サイズにカット)
トマト:中1個(スライスしてざく切り)
ニンニク:1〜2片(皮をむいてスライス)
赤唐辛子(鷹の爪):適量(ホール、または輪切り)
オリーブオイル:大さじ2〜3(ナスが油を吸うため多め)
塩:パスタ茹で用(お湯に対して1%〜1.2%)
パスタの茹で汁:お玉1〜1.5杯分
【作り方】
1. 下準備(コールドスタート)
フライパンにはまだ火をつけません。
スライスしたニンニクと、赤唐辛子をフライパンに入れます。
その上からオリーブオイルを回しかけます。これで準備完了です。
ポイント:動画ではニンニクを焦がさないよう、常温の油からじっくり香りを出す「コールドスタート」の手法をとっています。
2. 具材のカットとパスタの計量
ナスは縦に細長く(短冊状)、トマトはざく切り、ベーコンは食べ応えのある大きさに切ります。
パスタを計量します。
鍋のお湯が沸いたら、塩をしっかりめに入れます。
3. 香り出しと炒め
フライパンを火にかけます(弱火〜中火)。オイルがふつふつとしてニンニクの香りが立つまで待ちます。
ナスを投入します。ナスがスポンジのようにオイルとニンニクの旨味を吸い込むよう、しっかり炒めます。
ベーコンを加えます。ベーコンから脂が出てカリッとするまで、ナスと一緒に炒め合わせます。
4. ソース化(フレッシュトマト投入)
トマトを加えます。
ヘラやトングでトマトを少し潰すように炒め、トマトの水分と油を馴染ませて「ソース状」にしていきます。
5. パスタを茹でる 〜 乳化
パスタを鍋に投入し、袋の表示時間より1分ほど短めに茹でます。
パスタが茹で上がる直前に、**パスタの茹で汁(お玉1杯分ほど)**をフライパンに加えます。
フライパンを揺すりながら混ぜ、油と水分を白っぽくトロっとさせる(乳化させる)ことで、濃厚なソースに仕上げます。
6. 仕上げ(マンテカトゥーラ)
茹で上がったパスタを湯切りし、フライパンに移します。
火をつけたまま、ソースと具材がパスタ全体に絡むように、トングで手早く混ぜ合わせます。
7. 盛り付け
お皿にパスタを高く盛り付け、フライパンに残った具材(ナス・ベーコン・トマト)を上に乗せて完成です。

コメント