iPad で Gemini API を叩き、Manus にスプレッドシートを任せた話。AI を持ち歩く生活の入り口

どうも、タニアリと申します。

ChatGPT とか Gemini とか、もはや誰でも触ったことある時代になりましたよね。アプリを開いて、質問を打って、返答をもらう。ここまでは、たぶん多くの人がやっている。ただ、そこから一歩踏み込んで「API を直接叩いて、自分のショートカットに AI を組み込む」とか「自律エージェントに作業を任せる」までやってる人は、まだそんなに多くないんじゃないかな、と思うわけです。

僕がそこに踏み込んだのは、ちょうど1年くらい前です。きっかけは Google AI Studio をいじっていて、「あ、これ API キー出してアプリの中から叩けるんだ」と気付いたこと。そこから iPad の Apple Shortcuts に Gemini API を仕込んで、共有メニューから AI を呼べるようにして……。気付いたら、Manus という自律エージェントにメール整理まで任せている自分がいたわけです。

リビングのソファで iPad を抱える男性の周囲を、メール整理・ドキュメント要約・タスク管理・スケジュール最適化など複数の AI エージェントが取り囲み、「AI を持ち歩く生活：iPad と自律エージェント」と書かれたイメージ

姉妹編として「iPad はおもちゃである」というピラー記事があるんですが、今回はその延長線上で、そのおもちゃで AI を持ち歩いてみたら、どこまでできたか、という話を書いていきます。完全に仕事を任せられるかというと、まだ全然そんなことはないんですが……。それでも、人間がやらなくていい部分は、確実に減ってきてるんですよ。

※本記事にはアフィリエイトリンクが含まれます。

なぜ iPad で API を叩くのか、という素朴な疑問について
Apple Shortcuts に Gemini API を仕込む、僕の作例2つ
1. 作例1：質問するだけのシンプル版（習作）
2. 作例2：スクリーンショットを投げて要約してもらう（実用）
Manus に「めんどくさいこと」を任せる、自律エージェントの世界
1. 受信メールからクーポン情報を抽出する、を Manus に投げてみた
2. Manus じゃなくてもいい。Genspark でも ChatGPT Agent でも、同じことができる
PC との棲み分け：iPad はチャット型 AI 最強、CLI は PC に譲る
完全自動化は幻想、ただし人間がやる部分は確実に減る
1. 今回登場した商品
2. あわせて読みたい

なぜ iPad で API を叩くのか、という素朴な疑問について

「いや、API 叩くんならパソコンでやれよ」って、当然ツッコミが入りそうな話なんですよ。実際、僕も最初はそう思ってました。API ってなんとなくパソコン作業の領域みたいなイメージがありますし、コードを書くなら大きい画面のほうが楽じゃないですか。

ただ、Apple Shortcuts って、コードを書かなくても API を叩けるんですよ。「URL の内容を取得」というアクションに、Gemini API のエンドポイントとプロンプトを設定するだけで、もう動く。ノーコードに近い感覚で API を叩けるわけです。

そうなると、iPad で完結する強みが急に効いてきます。アプリでパッと開ける、共有メニューに仕込めるから「いま見てる画面」から直接 AI を呼べる、ベッドでもソファでも触れる……。ピラー記事で「iPadはおもちゃ」と言いましたが、そのおもちゃに AI が乗ると、おもちゃの域を半歩はみ出る感じがするんですよ。

もちろん、本格的なコードを書きたいとか、ローカルのファイルをいじりたいとなったら、それは PC の領分です。ここは正直に認めます。ただ、「思いついた→ショートカット組む→共有メニューから呼ぶ」までのスピードは、iPad のほうが圧倒的。これが、僕が iPad で API を叩いている理由です。

Apple Shortcuts に Gemini API を仕込む、僕の作例2つ

具体的にどう仕込むかの話に入ります。前提として、Gemini API のキーは Google AI Studio で無料発行できるんですよ。ai.google.dev にアクセスして、Google アカウントでログインして、「Get API key」を押すだけ。クレジットカード登録も要らない無料枠の範囲で、個人で使う分には十分すぎるくらい動きます。

API キーが手に入ったら、Apple Shortcuts で「URL の内容を取得」アクションに、Gemini のエンドポイント URL に API キーをくっつけたものを指定する……っていうところまで来るんですが、いや、ショートカットの構造って、ぶっちゃけ結構難しいんですよ。POST メソッドの設定、ヘッダーの指定、リクエストボディの JSON 整形、返ってきた JSON から欲しい値だけ抜き出す処理……。普通に初見でポンポン組める代物じゃないです。

ただし、ここで朗報があります。そのショートカットの作り方も、Gemini に聞けば教えてくれるんですよ。「Apple Shortcuts で Gemini API を叩いて画像を要約するショートカットを作りたい、各アクションを順番に教えて」とプロンプトを投げれば、わりと丁寧に組み方を返してくれます。AI の使い方を AI に聞く、っていう謎の入れ子構造で、最初の一歩を越えられるわけです。

iPad の Apple Shortcuts に Gemini API を仕込んだショートカットの中身、共有シートから画像を受け取り、base64 でエンコードしてプロンプトとともに API へ送る構成

僕の作ったショートカットの中身は、こんな感じです。共有シートから画像を受け取って、base64 にエンコードして、プロンプトと一緒に Gemini API へ POST する、という流れ。パッと見て「これ全部理解できるわ！」となる人は、たぶんもう自分で組めます。逆に「うわっ難しそう」って感じても、それは正常な反応なので大丈夫です。AI に手取り足取り聞きながら作ればいい。

作例1：質問するだけのシンプル版（習作）

最初に作ったのは、共有メニューから呼べる「質問→回答」のシンプルなショートカットでした。iPad のどの画面からでも、共有メニューを開いてショートカットをタップすると、入力欄が出てきて、質問を打つと Gemini が返答する、それだけのもの。

いや、これね、ぶっちゃけ Gemini アプリを開けば同じことができるんですよ。だから完全に習作です。ただ、「自分のショートカット経由で AI が動いた」という体験が、想像以上にテンションが上がるわけなんですよ。API キーを発行する→ショートカットに仕込む→動く、この一連の流れを一度味わうと、もう一歩踏み込んでみたくなるんです。

作例2：スクリーンショットを投げて要約してもらう（実用）

眼鏡をかけた AI 家庭教師「Genius Tutor」が中学生の男の子に二次方程式や水分子の式を黒板で説明し、男の子が iPad を持ちながら笑顔で「中学生でもわかる解説」と納得しているイメージ、机にはペンギンが描かれたマグカップ

iPad の共有メニューから「ジェミニに画像で聞く」というショートカットをタップしてスクリーンショットを Gemini API に投げるところ

こっちが実用編です。iPad でスクショを撮ったあと、共有メニューから「ジェミニに画像で聞く」をタップすると、その画像を Gemini が読み取って解説してくれる、というショートカット。プロンプトはショートカットの中に仕込んであるので、こちらが毎回入力する必要はありません。

具体的には、画像を base64 にエンコードして、「中学生でも理解できるように教える天才的な家庭教師」というプロンプトと一緒に Gemini API に投げる、という構成です。返ってきたテキストをアラート表示してクリップボードにも入れる、ところまでが1ショートカット。Kindle で読んでて分からない図表とか、Web の専門記事のスクショとか、なんでも投げられます。

ショートカットの実行結果として表示された、Gemini が日常への落とし込みを例え話で説明している中学生向けの解説テキスト

結果はこんな感じで返ってきます。「日常への落とし込み（例え話）」みたいに、概念を中学生でも分かるレベルに噛み砕いてくれるんですよ。これは、勉強系の派生記事「学がない大人が、Kindle × AI で独学を取り戻した話」で詳しく書いた、僕の学び直しのインフラそのものです。

ショートカットの最後にクリップボードにテキストがコピーされて、必要なら別アプリに貼り付けて残しておける共有メニューが表示された状態

あと、最後にクリップボードに結果がコピーされるようにしてあるので、気に入った解説はそのままメモアプリに残せるようになってます。読み流して終わりじゃなくて、必要なら手元に残せる、というワンクッションが地味に効くんですよ。

ちなみに、当然のことですが、API キーは絶対に外に出してはいけません。今回この記事に貼った画像も、キーの部分は塗りつぶしてあります。GitHub にうっかり公開して数万円請求された人が世の中にいる、という話を信じて、そこだけは慎重に。

Manus に「めんどくさいこと」を任せる、自律エージェントの世界

Shortcuts で Gemini を呼ぶのは、いわば「自分のお願いを AI が1回こなす」レベルなんですよ。これが Manus という自律エージェントになると、もうレベルが違ってきます。

Manus エージェントのダッシュボード概念図、メール確認・スプレッドシート入力・ウェブ検索・タスク進捗68% を一画面で並行処理しているイメージ

Manus は、もともと中国で創業されたスタートアップ Butterfly Effect が作った自律型 AI エージェントで、いまは本社をシンガポールに移しているサービスです。あの Instagram の親会社 Meta が25億ドル規模で買収を発表したのが2025年末、と聞くと「そういう規模のサービスなんだ」っていう温度感が伝わるかなと思います（その後の展開は政治レベルでちょっとややこしいんですが……）。

機能としては、クラウドサンドボックス上で AI が自律的に動いて、タスクを最後まで完了させてくれるサービスです。ブラウザを開く、ファイルを操作する、メールを検索する、スプレッドシートに書き込む……。こういう一連の作業を、人間の介入なしで進めてくれる。僕も半年くらい前から触っています。

料金プランは、賢いモードを使える有料プランが月20ドル（Pro プラン）から用意されていますが、普段は無料の Manus 1.6 Lite で十分なんですよ。Lite には毎日300クレジットの無料枠があって、これでメール整理くらいの軽い作業はカバーできてしまう。本当に込み入ったタスクを投げたいときだけ、上位プランを単発で課金して使う、というスタンスでやっています。

受信メールからクーポン情報を抽出する、を Manus に投げてみた

Manus 1.6 Lite に「直近1ヶ月の受信メールから、2026年6月以降も利用できるクーポンやお得情報をスプレッドシートにまとめて。URL も記載して」と日本語でプロンプトを入力した画面

今回この記事を書くにあたって、ちょうどいい題材として実際にやってもらったのが、「受信メールから、来月以降も使えるクーポンやお得情報を抜き出して、スプレッドシートにまとめてくれ」というお願いです。プロンプトは見ての通り、ほぼ自然な日本語。「やってほしいことを素直に書くだけ」で、Manus はそれを理解して動き始めます。

Manus が GWS スキルの確認と Gmail MCP ツールの把握を行い、直近1ヶ月の受信メールを検索・取得してクーポン情報を抽出する処理を実行している画面

裏側では、Manus が「Gmail にアクセスするツールはどれか」「どう検索すればクーポン情報を含むメールが拾えるか」を自分で確認しながら進めています。こっちは何もしてません。プロンプト投げて、コーヒー淹れに行って、戻ってきたら結果が出てる、くらいの感覚です。

ただ、注意点としては……。今回の処理ログを見てみると、Manus は「直近100件のメール」を対象に検索をかけていたんですよ。1ヶ月分って指示したつもりですけど、実際には件数で区切られているらしい。受信頻度が高い人だと「1ヶ月＝100件以上」になることも普通にあるので、本当に1ヶ月分すべて見てくれるかは保証されない、というのが現実です。エージェントなので処理上限は普通にある、と頭の片隅に入れておくと安全ですね。

Manus がまとめ内容の概要として、モバイルバッテリー500円引きクーポン、楽天ペイのキャンペーン、ANAの最大10万円割引クーポンなどを列挙して、スプレッドシートのリンクを提示した画面

結果はこんな感じで、モバイルバッテリーの 500円引きクーポン、楽天ペイの 10,000ポイント抽選、ANA の 100,000円引きクーポン……みたいに、本当に使えそうなものだけがピックアップされてました。完成したスプレッドシートのリンクもくれます。

Manus が作成したクーポン・お得情報まとめのスプレッドシート、サービス名・タイトル・内容・期限・URL の各列にデータが整理されている

スプレッドシートの中身もちゃんとしてます。サービス名、タイトル、内容、期限、URL の5列でまとまっていて、「これは使うかな」「これは要らないな」を眺めて選ぶだけの状態になっている。普段なら自分で受信箱をスクロールして、いちいちメールを開いてはクーポン情報を拾って……という作業、これがゼロです。

もちろん仕事のスプレッドシート、たとえば経費精算とか売上集計みたいなものを Manus にやらせる、というのも理屈の上ではできるはずなんですよ。ただ僕は、普通に暮らしている中でスプレッドシートを「成果物として作る」場面ってほとんどないと思ってます。「いろいろやらせた結果を、表として整理してもらう」くらいが、現実的な使い方なんじゃないかな、と。

ちなみに Manus、ローカル PC を操作するデスクトップアプリ版もあるんですが、正直、僕はほとんど使ってません。理由はシンプルで、「パソコンが目の前にないタイミングで、切羽詰まったローカル PC 仕事をしたい状況がほぼない」から。手軽にいつでも触りたい情報は、もうスマホや iPad から直接アクセスできるサービス（Google ドライブとか）に入れちゃってますしね。ここは一般生活では出番が少ない機能だと感じてます。

Manus と Gmail の接続を管理する画面、設定と接続解除のメニューが表示されており、使い終わったらすぐ解除すれば安心

あと細かい話なんですが、Manus 側のセキュリティはさすがにしっかり作られてると思います。なので必須ではないんですが、それでも気になる人は、タスクが終わったタイミングで Gmail などの連携を切っておくのが安心ですね。再接続もログイン画面が出てくるだけなので、ぜんぜんカンタンに繋ぎ直せます。「気になったら切る、また使うときに繋ぐ」くらいの気軽さで OK です。

Manus じゃなくてもいい。Genspark でも ChatGPT Agent でも、同じことができる

ここまで Manus を例に書いてきましたが、こうした自律エージェント、Manus 一択じゃないんですよ。同じカテゴリのサービスとして「Genspark（ジェンスパーク）」っていうのもあって、「目的を伝えると複数の AI が連携してタスクを処理する」というアプローチはほぼ同じ。Mixture-of-Agents という構成で、9個の LLM と 80以上のツールキットを束ねて動いてくれます。あとは ChatGPT の Agent モードもありますね。

正直に書くと、Manus は親会社の Butterfly Effect が Meta から買収される話が出たり止まったり、いま政治レベルでなかなか騒がしいんですよ……。半年後・1年後にも今と同じように使えるか、はっきりとは言えないわけです。なので「自律エージェント面白いな」と思ったら、Manus に固執せず、Genspark や ChatGPT Agent も触ってみてください。特定のサービスにじゃなくて、「自律エージェント」というカテゴリそのものに乗っかる。これが、変化の早いこの領域でのリスクヘッジになると思っています。

PC との棲み分け：iPad はチャット型 AI 最強、CLI は PC に譲る

iPad と PC の AI 活用の棲み分け比較表、iPad は Chat AI・Shortcuts・Portability が強み、PC は CLI・Local Files・Development が強み、iPad はいつでもどこでも、PC は深く広く活用するプラットフォーム

ここまで「iPad で AI を使う」話を書いてきましたが、正直に書くと、iPad が PC を完全に置き換えることはないです。これは譲れない事実として書いておきます。

整理するとこういう構図なんですよ。

チャット型 AI（Gemini アプリ、ChatGPT アプリなど）：PC と iPad で大差なし、むしろ アプリでパッと開ける iPad に軍配
ショートカット経由の API 呼び出し：iPad の共有メニューに仕込めるのが強い、これも iPad 優位
Manus みたいなクラウドエージェント：実際の処理はクラウド側で動くので、iPad はリモコン。これも問題なし
ターミナル系の AI（Claude Code、Gemini CLI など）：ローカルファイルを直接いじる系。これは PC の独擅場、iPad は一歩譲ります

とくに最後の「ローカルで動く AI」、いまかなり熱い領域なんですよ。たとえば Claude Code はターミナルから自分のプロジェクトのファイルを AI が読んで書いて修正する、みたいなことができる。これは iPad では実質できないので、本気で開発系の作業に AI を使いたい人は、PC が要ります。

ただね、「普通に暮らしてる人」が CLI の AI を毎日使うかというと、たぶん使わないです。僕も、ブログを書いたりお小遣い稼ぎの作業をしたりするくらいの生活で、CLI に頼らないと困る場面はそんなにありません。そう考えると、iPad で完結する「チャット型 + Shortcuts + Manus」の組み合わせが、現実的な落としどころなんですよ。

その意味で、難しいことを考えなくても自律的に動いてくれる Manus は、初心者にも届きやすい入り口になってると思います。CLI に手を出さなくても、自然言語で指示して結果を待つだけで、生活レベルのタスクなら片付いてくれる。これがいいんですよ。

完全自動化は幻想、ただし人間がやる部分は確実に減る

セキュリティとコストの壁を表すイメージ、青く光るシールドとデータ暗号アイコン、AI Performance と Token Cost を天秤にかけた図、持続可能な AI 活用のバランス

記事の結びとして、ここは正直に書いておきたいんですけれども。

僕がここで書いた「日常での AI 活用」って、実はめちゃくちゃ小さなタスクの集まりです。クーポン抽出、画像の要約、ちょっとした調べ物。ビジネスを回すレベルからすると、こんなのは仕事のうちに入らないんですよ。なので、「これで普通に暮らしてる一般人としては、めちゃくちゃ使えるな」という感覚と、「これで仕事を全部片付けるのは無理だな」という感覚、両方を同時に持ってます。

そして、これをビジネスで本気で使おうとすると、また別の壁が出てくるわけですよ。セキュリティの問題です。会社という組織のなかで AI を使う場合、何にでも使っていいわけじゃない、許可されたサービスしか使えない、という制約が普通にあります。サラリーマンやってると、これはガッツリ効いてくる。

それから、コストの問題も無視できないんですよ。AI、本気で使うとお金がガッツリかかります。象徴的な話として、あの Microsoft が、社内開発者数千人に展開していた Claude Code の利用を 2026年6月末までに縮小して、GitHub Copilot CLI へ寄せる、という方針を打ち出しました。理由のひとつとして、ヘビーユーザー1人あたり月最大2,000ドル相当のトークンコストがかかる、という現実が報じられています。

同じ時期に、あの Uber も 「2026年度の AI 予算を、エージェント駆動のワークフローでわずか4ヶ月で使い切った」と報じられていたりして……。世界的に「AI に支払うお金が、人を雇う費用を超えそうな勢いで膨らんでる」のが、いま起きていることなんですよ。

そう考えると、「全部 AI に任せて完全自動化」という未来は、たぶんしばらく来ません。セキュリティとコストという二重の壁があるからです。これは個人で気軽に Gemini API を叩く話とは別レイヤーの、構造的な問題。

ただ、「限られたリソースと許可された範囲のなかで最大限に AI を使う」という方向に進むのは、間違いなく現実的なんですよ。確実に自分自身が手を動かさないといけない部分を、毎月少しずつ削っていく。今日10分で終わってた作業が3分になる、みたいな積み重ね。これが、いまのリアルな AI 活用なんじゃないかな、と僕は思ってます。

そういう意味で、iPad に Shortcuts と Manus を仕込んで、AI を持ち歩くのは、すごくいい入り口です。コードを書かなくていい、PC を抱えなくていい、おもちゃ感覚で AI と付き合える。完全に何かを置き換えてくれるわけじゃないけど、「人間がやる部分」が確実に減っていく感覚は、ちゃんと味わえます。

……というわけで、もしまだ Gemini を「アプリで叩いてる」だけなら、いちど Shortcuts に仕込んでみてください。1時間くらいで動かせるはずです。Manus も、まずは無料の Lite から触ってみればいい。AI を持ち歩く生活、思ったよりすぐ手の届くところにありますよ。

それでは、今回の記事はここまでです！