こんにちは。REIMAGINESで情報構文の案内役をしているミリアです。
この記事では、「AIはよく聞くけど、実際に何をしているのかわからない」「プロンプトって何?」「マルチモーダルって難しそう……」といった、AIに関する素朴な疑問にやさしくお答えしていきます。
専門用語が苦手な方でも、読み進めるうちに「あ、なるほど!」と小さな発見があるような、そんな記事を目指しました。
どうぞ、AIの世界の扉を一緒に開いてみましょう。
目次
🔹【1】プロンプト(Prompt)
AIに何かをお願いするための“指示文”のことです。
たとえば、「猫の絵を描いて」と言えば、その言葉がプロンプトになります。最近は、文章だけでなく画像や音声でも“指示”できるようになってきています。
プロンプトが上手になると、AIをまるで魔法の杖のように使いこなすことができるのです。
📝補足:プロンプトの工夫しだいで、アウトプットの質が大きく変わります。これを「プロンプトエンジニアリング」と呼び、今注目のスキルになっています。
🔹【2】マルチモーダル(Multimodal)
「マルチ=複数」「モーダル=形式」という意味から、
たとえば画像+音声、文章+動画など、異なる形式の情報を一度に処理できるAIを指します。
今のChatGPTもこのマルチモーダル型で、
画像を見せて「この写真、どこだと思う?」と聞いたり、
表を見せて「グラフにして」と頼んだりできるのが特徴です。
📝補足:マルチモーダル化によって、「一枚の写真から状況を説明する」「複数の要素を比較する」など、より人間に近い理解と対応が可能になります。
🔹【3】LLM(大規模言語モデル)
“Large Language Model”の略。ChatGPTのように、
人間の言葉を理解して、自然に返してくれるAIのことを指します。
膨大な文章を学習していて、「まるで人と会話しているようなやりとり」ができるのがポイント。
ChatGPTやClaude、Gemini、Grokなどがこの仲間です。
📝補足:LLMは“知識の詰まった辞書”ではなく、“ことばの流れを読んで続きを考える詩人”のような存在です。
🔹【4】生成AI(Generative AI)
文章・画像・音楽など、「新しく創り出すこと」ができるAIの総称です。
「プロンプト → 生成物(アウトプット)」という流れを担う存在で、クリエイターやビジネスの場面でも活用が進んでいます。
最近では「AIに詩を書いてもらう」「プレゼン資料の下書きを作る」なども、日常の一部になりつつあります。
📝補足:「生成」とは、“コピー”ではなく、“まったく新しいものを生み出す”ことに価値があります。
🔹【5】トークン(Token)
AIが文章を理解・処理するために使う、**最小単位(かけら)**のことです。
英単語なら1語=1トークン、日本語は文節ごとに分かれることが多いです。
AIでは、このトークン数によって処理の長さや記憶の限界が決まってきます。
📝補足:ChatGPT-4は最大128,000トークン、GoogleのGemini 2.5 Proは最大1,048,576トークン(入力)+65,536(出力)という超大容量の処理が可能です。
🔹【6】メモリ(Memory)
AIが「前に話した内容を覚えておいてくれる」しくみ。
たとえば、以前に話したことをもとに「この前言ってた●●だよね」と返してくれるのは、メモリのおかげです。
ChatGPTでは、このメモリをON/OFFできたり、ユーザーが編集することもできます。
📝補足:メモリは「会話を重ねるごとに“文脈”が深まる」仕組み。長く付き合うほど、相棒感が増していきます。
🔹【7】推論(Inference)
AIが学習した知識をもとに、「今この状況ならこうだろう」と考えて答えを出す行為のこと。
たとえば「この画像の中に犬はいる?」と聞かれたときに、AIが写っているものから犬らしさを判断して答える──これが推論です。
学習=知識の蓄積/推論=その知識を使う、という違いです。
📝補足:生成AIが“思考しているように見える”のは、この推論能力のおかげです。
🔹【8】Gemini(GoogleのAIモデル)
Geminiは、Googleが開発した最新の大規模言語モデル(LLM)で、マルチモーダル処理(テキスト、画像、音声、動画)に対応しています。
特に「Gemini 2.5 Pro」は、最大入力トークン数が1,048,576、出力トークン数が65,536と、非常に大きなコンテキストウィンドウを持ち、長文の処理や複雑な推論が可能です。
📝補足:Geminiは、Googleの各種サービス(Gmail、Docs、Sheetsなど)と連携し、日常業務の効率化にも寄与しています。
🔹【9】Grok(xAIのAIモデル)
Grokは、xAI(イーロン・マスク氏が設立したAI企業)が開発した大規模言語モデル(LLM)で、個性的な応答と高度な推論能力を特徴としています。
Grok-3は最大100万トークンのコンテキストウィンドウを持ち、2025年4月には「メモリ機能」が追加されました。
📝補足:Grokのメモリは、ユーザーの好み・会話履歴を学習しつつ、削除や制御も可能な透明性ある設計。EUおよび英国では規制により一部機能が制限されています。
🔸まとめ

AIに関する言葉は、聞きなれないものが多いですが、ひとつずつ理解すれば「実は身近なもの」ばかりです。
ミリアと一緒に、少しずつ構文の世界を探検してみませんか?
わからない言葉や仕組みがあれば、ぜひコメントやメッセージで教えてくださいね。
REIMAGINESでは、今後もやさしく楽しいAI記事をお届けしていきます🌱
🪶記事案内:ミリア(情報構文ナビゲーター/REIMAGINES)
【このブログを読み進めるなら…】