アイキャッチ
ChatGPTの活用法の本なので、AIエージェントと白黒猫にしてみました。
「白黒タキシード猫が対等な立場で、人型のAIエージェントと会話している。 AIエージェントは上半身だけで、台座の上に載っています。水彩画風」
というプロンプトでDALL-Eにお願いしたところ、
「The black and white tuxedo cat conversing on an equal footing with a humanoid AI agent, who is depicted as an upper torso on a pedestal, styled as a watercolor painting.」として生成してもらいました。
その後、Canvaで文字を入れました。
Amazonにおける本の紹介
待望の「ChatGPT Plus(有料版)」のビジネス活用に特化した書籍がついに刊行。2023年11月のアップデート対応!
もう、ほぼ「魔法」です!
Excel・PowerPointやデータ分析、画像生成など、かんたん雑用丸投げ術で仕事が楽になる!
★日本初、ChatGPT Plus(有料版)のビジネス活用に特化!
★非エンジニアにもらくらく使えるワンランク上の業務効率化!
★サポートサイトにそのまま使えるプロンプトが超充実!
amazon.co.jp
感想
ChatGPTの解説本は数多あれど、この本はKaggle Grandmasterの「カレーちゃん(@currypurin) 」さんと東大松尾研の「からあげ(@karaage0703)」さんが書かれた本ということで、Kindle版発売までわくわくしながら待っていました!
お二人はこの本以外にもそれぞれ著書を出されていますし、X (Twitter)でもとても有名なので、ご存じの方も多いと思います。
本書の特徴としては、ChatGPT plusの機能を活用していること、お二人ともデータサイエンティストなので、データ可視化の章があるということがあります。
ご存じない方もいらっしゃるかと思いますので補足すると、ChatGPT plus(月20ドル≒ 3000円程度)に加入するとできるようになることをまとめておきます。▶部分を押していただくと展開されます。
無料のChatGPTだけでも便利ですが、plusに加入することによって、
- 高性能で長文テキストや画像・音声を入力できる「GPT-4」
- カスタムGPTを作れる「GPT Builders」、画像生成AI「DALL-E」
- インターネット上の情報を検索する「ブラウジング機能」
- ブラウザ上でプログラムを実行できる「Advanced Data Analysis(旧Code Interpreter)」
機能などを使うことができます(高いけど…円安つらい)。
ChatGPT plusでできるようになることの詳細はこちら(文字のあたり押すと展開されます)
- GPT-4へアクセスできます。応答速度が速く、32Kのコンテキストウィンドウを持つことで、長い文脈のテキストも理解し、より関連性の高い応答を生成できます。またテキストだけでなく、画像や音声も扱えます。
- GPT Buildersは、カスタムGPT(ChatGPTのバージョン)を作成するためのツールです。これを利用することで、特定のタスクやトピックに合わせてChatGPTをカスタマイズできます。作成したGPTは、設定に応じて他のユーザーと共有したり、OpenAIのGPT Storeで公開したりすることができます。APIを叩くことで外部サービスとの連携も可能です。
- テキストから画像を生成するモデルDALL-Eが使えます。
- インターネット上の情報を検索する「ブラウジング機能」があります。
- Advanced Data Analysis(旧Code Interpreter)は、データの探索や解析をブラウザ上で行うツールです。PDF、テキストファイル、PowerPoint、Word、Excel、CSVファイルなど、複数のファイル形式をサポートしています。
- OpenAIでは、トレーニングに使用されるコンテンツのオプトアウト(ユーザーが生成したコンテンツを将来のモデルトレーニングから除外する選択)が可能です。
本書では、これらの機能を活用して、画像や音声の処理、ドキュメント作成、データ可視化・分析などのタスクを効率化する方法が紹介されています。
逆に言うと、無料のChatGPTでは利用できない機能なので、その点は注意が必要です。
しかし、この本を読んだら、きっとplusに課金したくなると思いますよ!
特に面白かったのは、「Advanced Data Analysis」を活用しているところでした。
プロンプトで外部ライブラリを読み込ませるコードを実行させて、グラフの日本語表示やデータを地図上に表示させたりしています。
わたしはplusに課金していて、よくコードを生成してもらっているのですが、Advanced Data Analysisはあまり使ってこなかったので、こういう使い方もあるのか〜、こんなこともさせられるのか〜!と思いました。
最後にGoogle Colabでコードを実行することも書かれているとおり、ある程度プログラミングスキル(と環境構築スキル)がある人は、たぶんAdvanced Data Analysisで実行するよりも、自分の開発環境で実行したほうが早いのではないかと思います。
本書の対象読者は「データサイエンスをやっているorやりはじめているが、プログラミングはまだあまりできない」人だと思われ、そういう人にとってはAdvanced Data Analysisはかなり便利だと思います。
そういう意味で、本書は「データサイエンスはじめの一歩をChatGPTとやろう」というのが裏テーマだと感じました。
もちろん、「ChatGPT plusに課金するか迷っている」人にとっても、これだけのことができるんだということがわかって面白いと思います。
本書を読むと、「課金してChatGPTといっしょにいろいろつくってみたい・やってみたい」という気持ちになりますよ!
とてもおもしろかったです。
読書メモ
chapter 1 ChatGPT の基礎知識
ChatGPTは、チャット形式のインターフェースを持つAIで、大規模言語モデル(LLM)に基づいています。その人気は、公開からわずか5日で月間利用者数が100万人を超えるほどです。
このAIは、Transformerというアルゴリズムに基づき、自然言語処理において高性能を発揮します。ChatGPTの用途は多岐にわたり、「生成」「変換」「解釈」の3つの大きなカテゴリに分けられます。
さらに、ChatGPT Plusでは、Browsing、Advanced Data Analysis、DALL・E、GPT-4Vなどの拡張機能が利用可能で、これによりテキスト以外のデータの処理が可能になります。
しかし、利用にあたってはいくつか注意点があります。
- GPT-4の学習データは、2023年4月までのインターネット上のテキストデータを含んでいますが、それ以降の情報は反映されていません。
- OpenAIや他のプラットフォームは、APIの使用にあたってリクエスト数やデータ量に制限を設けている場合があります。
- ハルシネーションとは、モデルが事実ではない情報を生成することを指します。生成された情報は常に検証が必要です。
- 生成されたコンテンツを商業的に利用する場合は、著作権の問題を慎重に検討し、必要に応じて法的助言を求めることが重要です。
- 機密情報を扱う際には、データの匿名化や機密情報の非公開など、適切なデータ保護措置を講じることが重要です。
chapter 2 ChatGPT の基本的な使い方
初期登録後、ChatGPTとの会話はログインしてから簡単に開始できます。具体的な使い方として、会話履歴の隠し方、複数行の入力方法、会話の修正や再生成、回答のコピー方法が示されています。また、プロンプトの書き方では、具体性や明確な指示の重要性、何度か試してみること、わからないことは直接ChatGPTに聞くことが推奨されています。カスタム指示では、ChatGPTに対する個人的な設定を行い、よりパーソナライズされた回答を得る方法が説明されています。
chapter 3 ChatGPT Plusのセットアップ
第3章では、ChatGPT Plusのセットアップとその拡張機能の使用方法について説明しています。この機能は、2023年11月時点でChatGPT PlusまたはChatGPT Enterpriseのユーザーが利用可能です。セットアップには、ChatGPT Plusへの登録とGPT-4の選択が必要です。登録には課金が伴い、手順に従ってプランをアップグレードする必要があります。拡張機能として、Web検索機能「Browsing」とデータ分析機能「Advanced Data Analysis」が紹介されており、これらを使うことでChatGPTはインターネット検索やPythonを用いたデータ処理が可能になります。
chapter 4 ファイルのアップロードとダウンロード
第4章では、ChatGPTを使用してファイルのアップロードとダウンロードを行う方法について解説します。具体的な手順として、Excelファイルを例にアップロードのプロセスを説明し、対象ファイルを選択してアップロードする方法、アップロード後にPython環境でデータを分析する方法を紹介します。また、ファイルのダウンロード方法も説明し、ChatGPTがダウンロードリンクを生成するプロセスを示します。この章では、ChatGPTが扱えるファイルの種類も紹介しており、テキスト、画像、Officeデータ、音声、動画、プログラム&スクリプト、データベース関連、圧縮ファイルなど、幅広いファイル形式に対応していることが強調されています。アップロードできるファイルサイズは1ファイルあたり512MBまでと制限されています。
chapter 5繰り返し作業を一瞬で
ChatGPTの拡張機能を用いた文字列操作とファイルの一括操作に関する説明をまとめています。具体的には、文字数のカウント、特定単語の出現回数の計測、テキストファイルやWordファイル内の文字数計測、特定単語のハイライト、テキスト間比較、正規表現によるパターンマッチングといった文字列操作について述べられています。
また、ファイル名の一括変更、ファイルの統合、拡張子の変更、フォルダの作成と削除、条件に基づく一括削除、テキストファイル内の文字列の挿入・置換、特定の行や単語の削除、さらにはQRコードの生成など、複数のファイルやフォルダに対する一括操作方法も紹介されています。
これらの操作はAdvanced Data Analysis機能を通じて実行されます。
chapter 6画像の多彩な加工・生成
画像処理の基本タスクには、モノクロ化、画像回転、切り抜き、リサイズ、画像結合、ドット絵化、エッジ化、複数ファイルの一括処理が含まれます。Pythonの標準的な画像処理ライブラリを使って、JPEG、PNG、GIF、BMPなどの主要な画像ファイル形式を扱うことができます。複数の画像ファイルに対して一括で処理を行うことができ、これにより以前は面倒だった作業を簡単に行うことが可能です。
処理を行う際には具体的な指示をする必要があり、曖昧な指示では結果が変わる可能性があります。ChatGPTと相談しながら処理を決めることもできます。
ChatGPTは2023年11月時点でDALL・Eと呼ばれる画像生成AIを使い、プロンプトに基づいて絵を描くことができます。
画像はダウンロード可能で、複数の画像生成もできますが、生成可能な枚数はOpenAIのサーバー負荷により変動します。ChatGPTで生成した画像は商用利用が可能ですが、実在の人物や著作権のあるキャラクター、公序良俗に反する画像は生成できないようになっています。
ChatGPTはAdvanced Data Analysisの画像認識機能とGPT-4Vを使った高度な画像認識を提供しています。Advanced Data Analysisでは主に顔認識などの簡単なタスクを、GPT-4Vでは画像の説明、OCR、物体の数え上げ、位置検出、異常検出など多様な認識タスクが可能です。
Advanced Data AnalysisではOpenCVとdlibライブラリを用いた顔検出が可能ですが、dlibの方が高性能です。
顔のランドマーク検出やモザイク加工など、顔検出を応用した処理も実現できます。GPT-4Vを使用することで、画像の詳細な説明や文字の読み取り(OCR)、専門的な図の解説、物体の数え上げなど、高度な画像認識タスクが可能になります。
日本語フォントをアップロードする必要があり、「Noto Sans Japanese」や「IPAフォント」などの商用利用可能なフリーフォントを使用することができます。
chapter 7 手軽に音声ファイル処理
ChatGPTを使って、WAV、MP3、AAC、WMAなどの主要な音声ファイル形式を読み込むことができます。ファイルのアップロードとダウンロードは4.1節で説明した手順に従います。
スペクトル可視化により、音声の周波数成分を表すスペクトルを表示します。スペクトログラムはスペクトルを時間方向に並べたもので、音の音色を視覚化します。SciPyライブラリを使用して、音声ファイルの最初の10秒間のスペクトログラムを表示する例が挙げられています。
音声ファイルの編集には、音声の切り出しや無音部分のカットなどが含まれます。無音部分をカットする際には、pydubのdetect_nonsilent関数を使用し、無音の最小期間を100ms、無音の閾値を-40dBと設定します。
音声のピッチシフト(音の高さを変更)やタイムストレッチ(音の高さを変えずに速度を変更)も、簡単なプロンプトで実行できます。
複数の音声ファイルをZIPファイルにまとめ、一括で波形表示などのデータ処理を行うことが可能です。
chapter 8丸投げ!PowerPoint スライド作成
ChatGPTを使用して、PowerPointファイルの作成や読み込みが可能です。指定されたテーマに基づいてスライドを自動的に生成することができます。既存のPowerPointファイルを読み込み、内容を拡張してより詳細なスライドを作成することができます。
Webサイトの内容を要約して、それをスライドにまとめることもChatGPTによって実行できます。これは、特定のテーマに関する情報を効率的にスライド資料に変換する際に便利です。
ChatGPTはスライドに直接画像を挿入することはできませんが、どのような画像を追加すると良いかの提案をすることができます。実際の画像の追加は、ユーザーが行う必要があります。
chapter 9 マニュアル不要でExcel操作
ChatGPTを使用してExcelファイルの読み込みやデータの確認が可能です。サポートページから経費のExcelデータをダウンロードし、ChatGPTに読み込みとデータ確認を依頼できます。
特定のデータをExcelファイルから抽出し、その結果を別のExcelファイルに保存することもできます。
ChatGPTを用いて、Excelシートにグラフを埋め込むことができます。ここでは、openpyxlライブラリを使用して、金額を月ごとに集計した棒グラフをExcelファイルに埋め込む例が示されています。
Excelの関数を用いたデータの集計や加工も、ChatGPTによる自動化が可能です。プロンプトを工夫することで、関数をシートに直接書き込み、Excelファイルをより便利に再利用できます。
ChatGPTはExcelの関数結果を自動でチェックすることができません。そのため、関数を書いてもらった後は、手計算や他の方法で結果の正確性を確認する必要があります。
Excelファイルに機密データが含まれている場合、ダミーデータを用いた関数の作成を通じて、データの機密性を保ちながらChatGPTを活用することが考えられます。
chapter 10 WordファイルとPDFファイルの便利技
ChatGPTを使用して、テキストデータやWordファイルの生成、PDFファイルの読み込みや要約、ページの結合、削除、回転などの操作が可能です。
大容量のテキストデータを扱うことができ、ファイルとして2億文字以上の長文を扱うことが可能です。これは、PDFファイルの読み取りやファイル形式の変換など、ドキュメントに対する様々なデータ処理を実施できることを意味します。
ドキュメントの要約では、長文を10000文字ごとに分割してから要約する方法を採用します。これにより、ChatGPTのトークン数の制限を受けずに、大量のテキストを効率的に要約することができます。
ファイル形式の変換では、テキストファイルをWord形式やPDF、Markdownなど異なるファイル形式に変換することができます。特に、PDFファイルの変換では、日本語フォントを使用することで文字化けを防ぐテクニックが紹介されています。
PDFファイルの読み込みでは、PDFMinerライブラリを使用して日本語の文書を正確に読み込む方法が示されています。また、読み込んだテキストをファイルに保存することも可能です。
PDFファイルの内容を要約する際には、PDFMinerを使って1ページずつ要約を行い、その後全体を要約する方法が効果的です。
PDFファイルのページ操作では、ページの結合、削除、回転などの操作を指示することで、簡単にPDFドキュメントを編集することが可能です。
chapter 11 データからかんたんグラフ作成
データをグラフ化することで、情報を直感的に理解しやすくなり、重要な意思決定を支援します。ナイチンゲールのチャートは、可視化がいかに強力な影響を与えうるかを示す古典的な例です。
ChatGPTを使って、日本語でのグラフ表示が可能になります。これは、japanize-matplotlib ライブラリを利用することで実現します。
ChatGPTは折れ線グラフ、棒グラフ、円グラフなど、多様なグラフの作成をサポートしています。
Excelのような表形式データや、センサーから得られるデータも、ChatGPTを通じて視覚化可能です。
GeoPandasやjapanmapライブラリを使用して、データを世界地図や日本地図上に表示する方法があります。これにより、地理的な分布や傾向を視覚的に把握できます。
ワークアウトデータを地図上にプロットしたり、時系列データの変化をアニメーションGIFとして表現することができます。これにより、データの動的な変化を直感的に理解できます。
chapter 12 データからビジネスに役立つヒントを得る
分析のアイデアとして、店舗別売上比較や時間帯別売上動向などが挙げられています。また、天気データを追加することで、天候による売上の変動を分析する例が示されています。
X(旧Twitter)データの分析では、Analyticsデータとアーカイブデータの2種類の分析方法が紹介されており、投稿時間帯やコンテンツのバリエーション、文字数とエンゲージメントの関係を分析する方法が説明されています。
ビットコインの価格データについては、Bollinger Bands(ボリンジャーバンド)を用いた分析が紹介されており、価格がボリンジャーバンドの下側に近づいた際の投資タイミングの分析が行われています。
ボリンジャーバンドは、株価などの価格の平均値周辺に、その変動幅を示す上下のバンドを描くことで、価格の「通常の範囲」を可視化するテクニカル分析ツールです。
chapter 13業務を効率化する
Excelで前年の売上データに基づき顧客を2つのグループに分け(10万円以上と10万円未満)、それぞれのグループに合わせたキャンペーンメールを自動で生成します。
Excelを用いて東京の夏の気温の変化を分析し、5年移動平均でトレンドを可視化します。その分析結果をPowerPointのスライドにまとめ、スライドのレイアウト調整はPowerPointのデザインアイデア機能を使って行います。
Excelでシフト表を作成し、勤務者の希望を満たすように調整します。条件を明確にしてChatGPTに指示することで、適切なシフト表を作成することが可能です。
AI Diagramsプラグインを利用して、特定のテーマに基づくカラフルなマインドマップをChatGPTで自動生成します。生成されたマインドマップはWhimsicalのWebサイトで自由に編集できます。
論文読みは、ChatGPTに特定のキャラクターになりきってガイドしてもらうことで、より楽しく理解できます。TeX形式で論文を読み込ませると、数式なども適切に認識してくれるため、理解が深まります。
chapter 14 ゲームで遊ぶ
ChatGPTが地図上の特定の国に色を塗り、その国名をユーザーが当てる「国当てゲーム」や、ChatGPTに数字をテキストファイルに書き出してもらい、ユーザーがその数字を当てる「数字当てゲーム」を作成しています。
chapter 15 ブラウザアプリを作る
ChatGPTを使ってWebブラウザで動作するアプリケーションを作成できます。
プログラミングの知識がない人でも、ChatGPTにコードの作成を依頼することでアプリを作ることが可能です。
例として、時計アプリとポモドーロアプリの作成方法が紹介されています。
作成したアプリはZIPファイルに固めてダウンロードでき、解凍後にindex.htmlを開くことで使用できます。
アプリのデザインは、既存のアプリを参考にしたラフをChatGPTに伝えることで指定できます。
ポモドーロアプリでは、25分の作業と5分の休憩が終わると音が鳴るように修正指示をすることができます。
chapter 16 Python を ChatGPTと勉強する
ChatGPTにカリキュラムを考えてもらい、Pythonの初学者向けに学習内容を提案してもらいます。「pythonの初学者です。Pythonを勉強するカリキュラムを考えてください。一緒に実践しながら学びたいです。」といったプロンプトを使います。
コードのアップロード、解説、実行をChatGPTに依頼することができます。
ChatGPTにコードの改善やリファクタリング(コードを読みやすくしたり、メンテナンスしやすくする作業)を依頼することができます。
chapter 17 アドバンスな活用法にチャレンジ
GPTSやGoogle Colaboratoryを用いることで、ChatGPTの使い方をさらに広げることができます。これにより、専用のGPTを作成したり、自由なプログラミングや日本語分析が可能になります。
GPTSを利用すると、あらかじめ指定した行動や情報をもとにカスタマイズしたChatGPTを作成できます。これは、特定の目的に合わせたChatGPTを利用するのに役立ちます。
企業が公式のチャットボットとして使用したり、外部APIと連携したり、GPT Storeで利益を得ることが可能です。
GPTを作成する際は、GPT Builderを使う方法と、自分で設定を行う方法があります。
Google Colaboratoryは、Googleが提供する無料のPython実行環境です。特にAIの学習に適しており、ChatGPTと組み合わせることで、さらに強力なツールになります。
ChatGPTでは使用できないライブラリも、Google Colaboratoryを利用することで実行することができます。
コメント