中小企業がChatGPTを活用するなら読んでおきたい海外の論文

2023年7月6日2024年1月5日

生成系AIとして知られるChatGPTの登場は、日本の中小企業にも少なからず影響を与えており、技術開発の創業者と日本政府のトップが対話を行うなど、日々めまぐるしい動きを見せています。

しかし中小企業の経営者は極めて多忙であり、ITやDX、そして生成系AIの必要性を感じていても、リソース不足やデジタル分野への信頼性から、なかなか新しい一歩を踏み出せないのが実情ではないでしょうか。

「AIという言葉に戸惑いを感じている」

「具体的な活用方法について知識がない」

「新しいテクノロジーの導入に不安を感じている」

そんな中小企業の経営者に向けて、この記事では海外の論文を元に、ChatGPTの具体的な技術をご説明いたします。これまでの企業伝統はそのままに、新しいテクノロジーが融合することで、自社に最新のブランディングを取り入れたい方にも、ぜひお読みいただきたい内容です。

まずは、ChatGPT全般の知識からお伝えしていきます。

論文で知るChatGPTとは？

冒頭ではChatGPTの国内影響について触れましたが、そもそもChatGPTはどんな技術が用いられ、どのようなリスクがあるのでしょうか。その点について、幅広く解説している論文「One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era (Zhang et al., 2023)」からご紹介していきます。

同論文では、ChatGPTの凄さは「Transformer」という技術がベースにあるとしています。このスキルについて、詳しく見ていきましょう。

ChatGPTに搭載された「Transformer」の技術とは？

最新技術をお伝えする前に、今までどのような方法が用いられてきたのかを、論文を元に説明していきます。

同論文では、

Before the advent of Transformer, RNN was a dominant backbone architecture for language understanding, and attention was found to be a critical component of the model performance.

「Transformer」が登場する前は、言語を理解するための主な基本構造として「RNN」が存在した。そして、RNNモデルの性能を高める上で「Attention」という機構がとても大切な要素であることが分かった。（p.6）

と説明しています。

従来は、言語を理解する方法として「ある言葉から次に連想される言葉を瞬間的に捉え、順番に追っかけていく」という「RNN」モデルが採用されており、「Attention」と呼ばれる機構と連動させることで、そのパフォーマンスを向上させていました。

「Attention」とは、人工知能が働くとき、どの単語を優先的に「注目」すべきかを決定する仕組みです。例えば、「あけまして」の次には「おめでとう」が続くといったように、次の言葉をすばやく連想することで、人間に近い文章を短時間で生成していたのです。

Attentionは2015年に初めて発表され、自然言語処理（人の自然言語をコンピュータに処理させる技術）の発展に大きな影響を与えました。2年後には、Attentionを基礎として開発された「Transformer」が発表され、自然言語処理の技術進化に新たな展開をもたらしています。このTransformerを採用したのが、今回お伝えしているChatGPTなのです。

しかし、基礎となるRNNモデルは、「長期の記憶ができない」ことや、「処理能力に限界がありスピードが遅い」という欠点がありました。そのため同モデルにおいて、人間に近い対話は難しいものとされています。

この一連の流れに関して論文では、

In contrast to prior works that only use attention as a supportive component, the Google team made a claim in their work title: “Attention is All You Need” claimed that since Google released a paper, namely “Attention is All You Need” in 2017, research and use of the Transformer backbone structure has experienced explosive growth in the deep learning community.

「Attention」を補助的に使用していた以前（RNN時代）の研究とは対照的に、Googleの研究チームは「Attention is All You Need」（全てはAttentionだけでよい）という論文で、Attention機構が最も重要であると主張した。Googleが同論文を2017年に発表してから、「Transformer」の研究や使用が、深層学習（人工知能がデータから学ぶ方法の一つ）のコミュニティで急速に増えた。（p.6）

と説明しています。

「Transformer」モデルは、”並列処理”を用いたことにより、遠いところにある言葉でも前後の文脈から関連を予測し、より正確な回答を導くことが可能になりました。さらにRNNの弱点であったスピードも大幅に改善されました。つまり、人間が頭の中で考えを整理するように、AIも考えを整理して、私たちに答えを教えてくれるといったイメージです。

下記に、従来モデルとの違いを表で比較します。

RNN&Attention	Transformer
・長期記憶が苦手・スピードが遅い	・精度が高い・スピードが速い・汎用性が高い

ChatGPTは、この深層学習の１つであるTransformerを採用し、人間の脳内と同じようなネットワークを構築しています。そして、学習のプロセスであるGenerative Pre-trained Transformer（GPT）を適用することで、大量のテキストデータを取り扱うことができ、人間と同じような自然言語処理を実現しているのです。

ChatGPTはビジネスでも使える？

人間に近い自然な文章を生成できるChatGPTを用いれば、自社ビジネスにも大いに活用できるでしょう。例えば自社で新製品を作ったとき、「この新商品を紹介して」とChatGPTに頼むだけで、魅力的な紹介文をわずか数秒で作成できます。

また、その製品に対するカスタマーサービスの一環として、チャットボットを作成することもできるでしょう。顧客の質問にAIが対応することで、中小企業も大幅なリソース確保が可能となります。

しかし、ChatGPTを活用するときには、注意すべきこともあります。次にそのリスク面を見ていきましょう。

ChatGPT活用の注意点は？

これまで解説したとおり、ChatGPTは私たちの生活やビジネスを根本的に変える力を持っています。一方で、ChatGPT活用では次のような注意点があります。

ChatGPTとのコミュニケーション

ChatGPTがどのようにして回答するのかは不透明であるため、システムがブラックボックス化しており、情報漏洩の観点で絶対に安全とは言い切れません。また、不透明性が生み出すもう一つのリスクとして、私たち利用者が期待するような回答を、ChatGPTから引き出すことが難しいとされています。詳しくは、このあとの「プロンプトエンジニアリングとは？」で解説します。

ファクトチェックが必要

ChatGPTは、多くのテキストデータを学習しています。これには正確な情報だけでなく、不正確な情報も含まれることがあります。そのため、ChatGPTの回答は、人間によるファクトチェックが必須です。例えば、ChatGPTが「この成分はアレルギーを引き起こすことがある」と言ったら、その事実を専門家に確認することや、信頼できるWebサイトで調べる必要があります。

プロンプトエンジニアリングとは？

プロンプトエンジニアリングとは、ChatGPTへの質問（プロンプト）をわかりやすく書いて、ChatGPTから期待する回答を引き出す技術のことです。例えば、「新製品を開発したいのでアイデアを教えて」というのがプロンプトです。このプロンプトエンジニアリングには次のような課題があります。

曖昧な質問は避けるべき

いわゆる「行間を読む」ことが、ChatGPTは苦手です。プロンプトエンジニアリングでは、具体的で明確な言葉を使ってChatGPTに指示出しする必要があります。詳しくは「ChatGPTに具体的な質問をするためには？」で解説します。

複雑なタスク依頼はNG

ChatGPTは簡単な質問や短い文章の生成などには強いですが、私たちが普段の仕事で行うような複雑なタスク（プロンプトの例：「新しい製品を開発して、マーケティング戦略を立て、販売チャネルを拡大してください」）や、長期間にわたるプロジェクト管理などを依頼するのは難しいです。ただし、これを改善するための研究成果も報告されています。詳しくは「ChatGPTに複雑なタスクを依頼するためには？」で解説します。

ChatGPTに具体的な質問をするためには？

これまで解説してきたように、ChatGPTへのプロンプトエンジニアリングにはいくつかの課題があります。ここからは、その課題の１つ「曖昧な質問は避けるべき」の解決策を提示する論文「Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models（Wang et al., 2023）」を解説していきます。

この論文では、複数の手順を組み合わせて問題を解決する力を向上させる新しい手法「PSプロンプティング」（PSは”Plan-and-Solve Prompting”の略）について説明しています。

以前の手法では、AIに問題を解決するための大まかな指示だけを与えていました。とくに有名なのが「Step by Step（ステップごとに）」という言葉です。このワードを使用することで回答の精度が上がることが知られており、ChatGPTの回答精度を高める技法として活用されています。しかし、問題が複雑になったとき、ステップバイステップを用いても、AIの回答が間違うことも多くあります。（図1参照）。

図1：「PSプロンプティング」を使っていない例

※問題を解決するための曖昧な指示だけをChatGPTに伝えているため、ChatGPTは誤った回答（この例では「3138万円」が正しい回答）をしている。

ステップバイステップについては、こちらで解説しています。https://hashtag-jp.com/technology/chatgpt_tech/

新しい手法の「PSプロンプティング」は、AIに「計画」や「解決方法」を教えることで正しい回答を引き出す手法です。計画は問題を解決するために必要な手順の大まかな説明で、解決方法はそれぞれの手順をどのように実行するかの詳しい説明です。論文結果では、「PSプロンプティング」は以前の手法よりも優れていることがわかり、特に複雑なタスクでは性能の向上がみられたとあります（図2参照）。

図2：「PSプロンプティング」を使った例

※ChatGPTに具体的な質問をするために「解決方法」を伝えることで、複雑なタスクでも正しい回答（この例では「3138万円」）を得られた。

また同論文では、結論(p.9)において以下のように書かれています。

(a) Zero-shot PS+ prompting can generate a high-quality reasoning process than Zero-shotCoT prompting since the PS prompts can provide more detailed instructions guiding the LLMs to perform correct reasoning;

(a) 新しい手法（Zero-shot PS+ プロンプト）は、PSプロンプトがより詳細な指示を提供してLLM（Large Language Model）に正しい推論を行わせるため、従来の方法（Zero-shot CoTプロンプト）よりも高品質な推論プロセスを生成することができる。

(b) Zero-shot PS+ prompting has the potential to outperform manual Fewshot CoT prompting, which hopefully will spark further development of new CoT prompting approaches to elicit reasoning in LLMs.

(b) 新しい手法（Zero-shot PS+プロンプト）は、従来のFew-shot CoT プロンプトを上回る可能性があり、LLMの推論を引き出すための、新たなCoT プロンプトの開発着手を促すことが期待される。

したがって、より複雑なタスクには、計画と解決方法をAIに指示することで、より正確な回答を得ることができるのです。

中小企業がChatGPTを使ってビジネスの問題解決を行う際は、このような新しい手法を採用することで、より正確で効果的な結果を得ることができるでしょう。

ChatGPTに複雑なタスクを依頼するためには？

ここからは、ChatGPTのプロンプトエンジニアリングの課題の２つ目「複雑なタスク依頼はNG」の解決策を提示する論文「Tree of Thoughts: Deliberate Problem Solving with Large Language Models（Yao et al., 2023）」を解説していきます。

最初に、論文の概要部分(p.1)を以下に示します。

we introduce a new framework for language model inference, “Tree of Thoughts” (ToT), which generalizes over the popular “Chain of Thought” approach to prompting language models, and enables exploration over coherent units of text (“thoughts”) that serve as intermediate steps toward problem solving.

私たちは、新たな言語モデル推論のフレームワーク「思考の木」（ToT）を導入します。これは、言語モデルへのプロンプトを促すものとして有名な「思考の連鎖」アプローチを一般化し、問題解決に向けた中間的なステップとして機能するテキストのまとまった単位（「思考」）に対する探索を可能にします。

この論文で解説する「Tree of Thoughts」（思考の木:ToT）とは、AIが「一歩先を考える」ことや「多くの選択肢を比較する」という、より人間のように問題解決に取り組むための方法です。何がしたいのかをAIに伝えると、AIが様々な解決策を考えてくれます。まるで「思考の木」の枝が次々と連鎖して広がっていくようなイメージです（図３参照）。

図３：思考の木のイメージ図（参照論文Figure.1より抜粋）

具体的な例として、数学の問題を解くAIがあります。従来の手法を用いたAIは、4つの数字で24を作る問題で失敗することが多い（論文では約7%の正答率）です。しかし「思考の木」を使うと、その正答率が飛躍的に上がります（論文では約74%の正答率）。

思考の木の研究が進めば、例えば製造業の生産ラインを改善するアイデアをChatGPTに教えてもらうなど、複雑な決定を素早くかつ賢明に行える可能性が秘められているといえます（図４参照）。

図４：ChatGPTへの「製造業の生産ラインを改善するアイデア」の質問と回答

中小企業の「ChatGPTビジネス活用」に向けたまとめ

今回は、ChatGPTに関する最新論文を引用して、その基本的な概念、課題、その対処法についてご説明しました。ChatGPTは従来よりも自然な文章の生成が可能となり、中小企業の業務を効率化する大きな可能性を秘めています。また一方で、活用の際に知っておかなければならない注意点も紹介いたしました。以下に、改めてまとめます。