こんにちは。サイオステクノロジーのひろです。
先日OSC福岡、OSC広島でセミナー登壇してきました。
今回は登壇内容についてまとめていきたいと思います。
- 生成AIの概要を理解できる
- 生成AI×ツールで新たな価値を生み出せることを理解できる
この2点を目的として以下のことについてお話してきました。
- 生成AIにできることできないこと
- 生成AIにツールを使わせる技術について
- 生成AIにロボットを操作させるデモ
セミナーに使用した資料を交えつつセミナー内容について解説していきます。
生成AIとはコンテンツを新たに生み出してくれるAIのことを指します。
ユーザがプロンプトを入力することで生成AIは文章や画像や動画、音楽、音声等を出力してくれます。
例としては、テキスト生成であれば
- Gemini 3.0
- GPT-5
- Claude Sonnet 4.5
等がありますね。
まず、テキスト生成に焦点をあてて、LLMが文章を生成する過程について説明しました。
テキスト生成を行うLLM(大規模言語モデル)は膨大なテキストデータから言語のパターンを学習したもので、文脈から次に来る確率が高い言葉を予測し、リストアップされた言葉の中からランダムに単語を選択することを繰り返して文章を生成します。
例えば「今日はいい日だ。」という文章を生成する過程を考えてみます。
以下の図のように、まず、「今日は」の次に来る可能性が高い言葉として、「いい」、「天気」、「寒い」がリストアップされ、その中から確率で選択されます。今回は「いい」が選択されていますね。この操作を繰り返します。
ここで一点重要なのは生成AIは最も確率が高い言葉を選択するわけではないという点です。
試しに同じプロンプトを何度か生成AIに投げていただけると異なるレスポンスが来ると思いますので、この仕組みを実感できると思います。
LLMは言葉を理解しているのではなく、パターンを知っており、そのパターンに倣って言葉を連ねているということになります。こちらについては、永田さんの記事「AIは「1+1って、2になること多いなあ」と思っている!?」でLLM内部で起こっていることについて解説されてるので気になった方は是非ご覧ください。

次に、生成AIモデルでできることできないことを切り分けるために、まずLLMモデルと生成AIサービスの違いの説明を行いました。
LLMと生成AIサービス。一体どう違うのかというと、機能が異なります。
| LLM | 生成AIサービス | |
|---|---|---|
| 機能 | 文章の生成 | LLMの機能+履歴保持、web検索、ファイルアップロード,etc |
| 例 | GPT-5等 | ChatGPT,Gemini等 |
生成AIサービスにはLLMの機能に加えて様々な機能が追加されています。
例えば表にあるように履歴保持機能。これがあるとこれまでの会話の文脈を生成AIが理解してくれるのでしっかり会話が成り立ちますね。
web検索機能。最近の生成AIサービスは検索機能を持っており、生成AIにリアルタイムの出来事を回答させることもできます。例えば今日の天気等をGeminiに聞いてみると検索結果から回答してくれます。
ChatGPTやGemini等の生成AIサービスは純粋なLLMとは異なる機能を持っているということです。
そして、生成AIモデル単体でできることとできないことを挙げると以下のようになります。

LLM単体でできないことについて解説していきます。
最新の情報に関する回答
LLMモデルはリアルタイムで学習し知識を更新する仕組みはなく、知識のカットオフ日が存在します。
カットオフ日とは、LLMが学習したデータがいつまでのデータかを指し、LLMはその日までのデータしか知り得ません。
そのため、例えば今日の天気を聞いても学習していないので回答することができません。
試しにGPT-4o-miniに対し、カットオフ日について尋ねてみました。
私の知識のカットオフ日は2023年10月です。それ以降の情報については持っていませんので、ご了承ください。何か質問があればお答えします!このLLMは2023年10月までのことしか知らないというわけですね。
試しに「2025年は何が流行しそうか考えてみてください」と尋ねてみました。
2025年に流行しそうなトレンドについて、現在の技術や社会の動向を考慮した上でいくつかの予測を挙げてみます。
持続可能なライフスタイル: 環境意識の高まりに伴い、エコフレンドリーな製品やサービス、サステナブルなファッションが流行する可能性があります。プラスチックの削減やリサイクル製品の人気が高まるでしょう。
ウェアラブルテクノロジー: 健康管理やフィットネスのためのウェアラブルデバイスが進化し、より多機能で使いやすくなることで、一般的なアイテムとして普及するかもしれません。
メタバースとバーチャル体験: メタバース関連のプラットフォームが進化し、仮想空間でのソーシャルインタラクションやエンターテインメントが一般的になる可能性があります。特に、ゲームや仮想イベントが人気を集めるでしょう。
デジタルアートとNFT: デジタルアートやNFT(非代替性トークン)が引き続き注目され、アート市場やエンターテインメント業界で新しい形のクリエイションが流行するかもしれません。
パーソナライズされた医療と健康: 個別化医療や遺伝子ベースの健康管理が進展し、自分に最適な健康法や食事が提案されることで、健康志向のライフスタイルが流行する可能性があります。
リモートワークとフレキシブルな働き方: リモートワークやハイブリッドな働き方が一般化し、職場環境や働き方に関する新しいトレンドが形成されるでしょう。これにより、ワークライフバランスを重視する文化が広がる可能性があります。
エンターテインメントの新形態: ストリーミングサービスやポッドキャスト、バーチャルコンサートなど、デジタルコンテンツの消費スタイルが進化し、新しいエンターテインメントの形が流行するかもしれません。
これらはあくまで予測であり、実際に何が流行するかは様々な要因によって変わるでしょう。未来のトレンドは常に変化し続けるため、柔軟な視点で見ることが重要です。もう2026年ですが2025年の流行を予想してもらいました。
あたっているかはさておき、このようにカットオフ日以降のことは知らないんですよね。
これから時間が経って、年齢を重ねたころにこのモデルと会話できたら懐かしい気分になれるかもしれません。
独自の情報に関する回答
LLMはもちろん学習したことしか知りません。
そのため、例えば会社の社内規約等のクローズドな情報について聞いても回答することができません。
情報の正確性の保証
LLMにはハルシネーションという、あたかも真実を語るように真っ赤な噓を吐くことがあります。
LLMが文章を生成する過程でもお話しましたが、LLMは、確率で単語を選び、それを繰り返して文章を作成するので、正しいこと以外も出力します。
LLMが本当に正しいことを言っているのか、人間が確認する必要があります。
複雑な計算
何か計算してとLLMに入力したとして、LLMは実際に計算しているわけではなく、学習パターンに基づいて次来る単語を生成しているため、複雑な計算は間違えることがあります。
AIは計算を理解しているわけではなく、「1+1って、2になること多いなあ」と思っているということですね。
現実世界やデジタル環境の操作
LLMはテキストを生成するのみで、例えば部屋の電気は消してくれませんし、notionでドキュメントを作成してくれることはありません。
このように生成AIにはできないことがありますが、これはツールと組み合わせることで解消できる場合があります。
生成AIとツールを組み合わせることで多くのことができるようになります。
セミナーでは、RAG、FunctionCalling、MCPについてご紹介しました。
RAG
RAGはRetrieval Augmented Generationと呼ばれ、検索拡張生成等と訳される技術です。
生成AI×検索ツールですね。
生成AIが検索ツールを使用してデータを検索し、取得したデータを基に回答を行います。
RAGを活用することで、生成AIはリアルタイムの情報や学習していない独自の情報を手に入れることができます。
また、情報源が明確になるため、根拠のある回答をしてくれますし、根拠をユーザが確認することができるようになります。

前章で挙げた生成AIにできないことのうち以下の項目については解消できそうと思っていただけるのではないでしょうか。
- 最新の情報に関する回答
- 独自の情報に関する回答
- 情報の正確性の保証
Function Calling
次にFunctionCallingです。
FunctionCallingは生成AIに関数を呼び出させる機能です。
関数の実行はアプリケーション側で行うため生成AIのレスポンスを翻訳する部分は実装する必要がありますが、生成AIがどの関数をどんな引数で実行するのか判断してくれます。
例えば検索、計算、外部APIの使用、IoT連携等、様々な機能を生成AIと組み合わせることが可能です。
複雑な計算ができる関数を用意しておけば、生成AIが苦手な計算だけ関数にさせることもできますし、ロボットを動作させる関数なんてのを作成しておけば、生成AIにロボットを操作させることもできるというわけですね。
組み合わせ次第で強力なものが生まれそうな気がします。
Azure OpenAIでFunctionCallingを行う方法についてはこちらのブログ記事で解説してますので興味がある方はぜひご覧ください。
MCP
MCPはAnthropic社が提唱した、生成AIとツールを繋ぐUSB-typeCのような共通規格です。

これまでFunctionCallingを用いたLLMアプリを作成した場合、あるツールを別のアプリでも使用したいとなった場合、アプリ間の言語が異なったり必要なライブラリが異なれば、関数を改修する必要がありました。
また、ツールリストの定義方法はLLMによって異なるため、アプリで使用するLLMが異なれば、その点を改修する必要が出てきます。

MCPを使用した場合、MCPクライアントというものを用意し、LLMアプリと別プロセスで動作するMCPサーバをツールとして扱うようにします。
そうすると、MCPサーバ1つ作成すれば、どのLLMアプリからも使用できるようになるので、アプリ毎に関数を書いたり、ツール定義を行う必要がなくなります。
また、MCPサーバを公開しているサービスは増えており、例えばnotionやblender、googleカレンダー等のMCPサーバを組み込むことが容易です。
公開されているMCPサーバについてはこちらをご確認ください。

生成AIとツールを組み合わせる技術であるRAG、FunctionCalling、MCPについて解説を行いました。
続いてデモの解説に移ります。
具体的にFunctionCallingでQumcumを生成AIに操作させるデモを行いました。
QumcumはBluetoothによる通信が可能な小型ロボットです。

主な機能は距離センサや音検知、発声等がありますが、今回使用したのは頭、腕、足の回転です。
また、LLMとしてAzure OpenAIのモデルを使用しました。
Azure OpenAIについてはデプロイから実際にAPIを叩くまでをブログ記事にしていますのでこちらをご確認ください。
シーケンス図は以下のようになります。

まず、プロンプトの分析をLLMにリクエストし、結果を構造化出力させています。これは分析結果(プロンプトから読み取れる感情、プロンプトに対するロボットの感情、プロンプトの要約等)をUIとして表示するために使用しています。
構造化レスポンスについてもブログにまとめているので、こちらの記事をご覧ください。
その後、分析結果とプロンプト本文をLLMに渡し、FunctionCallingを行います。
使用する関数を選択してもらい、アプリケーション側でロボット動作関数を実行しています。
デモ動画はこちらです。
このデモでは、入力したプロンプトからFunctionCallingによって関数が選び取られていることを表しています。
ロボットが万歳をする関数や、足踏み、首振りを行う関数が選び取られ、実行されているのがわかります。
具体的な展望ではないですが、今後できたらおもしろいなと考えていることは以下のようなことです。
- テキスト入力から音声入力へ修正
- Qumcumの発話機能を活用し、リアルタイム会話機能実装
- 今までの会話内容を記録し、RAGによって相棒、友人のような会話を可能に
RAGを用いて生成AIの相棒を作るはらちゃんのブログはこちらを参照ください。
生成AIとツールを組み合わせることで、某未来から来たネコ型ロボットのような友人を自分の手で作ることができるかもしれませんね。
生成AI×ツールによって、生成AI単体ではできなかったことが可能になります。
- 最新の情報に関する回答
- 独自の情報に関する回答
- 現実世界やデジタル環境の操作
等が可能です。
FunctionCallingやMCPを活用して新たな組み合わせによる新たな価値を生み出していきましょう。
閲覧いただきありがとうございました。
セミナーに参加してくださった皆さん、ご清聴ありがとうございました。
わかりやすく伝えられるセミナーを今後も行っていきたいと思います。

