668

CFA協会ブログ

         

No.668

2024年5月24日               

オープンソースコミュニティにおける LLM の構築:投資専門家への行動喚起
Building LLMs in the Open-Source Community: A Call to Action for Investment Professionals

マーク・フォーチュン

 

ChatGPTおよびその他の自然言語処理 (NLP)チャットボットは、強力な大規模言語モデル (LLM) へのアクセスを民主化し、より高度な投資手法と拡張性を促進するツールを提供しています。これにより、投資への私たちの考え方が変わり、投資専門家の役割が変化しています。

 

私はCFA Instituteのシニア投資データサイエンティストであるブライアン・ピサネスキ, CFAに話を聞き、投資専門家がオープンソースコミュニティにて LLMの構築を開始する助けとなる彼の最近のレポートについて議論しました。

 

このレポートは、オルタナティブデータや非構造化データ、および機械学習 (ML) 技術をワークフローへ適用する方法について詳しく知りたいと考えているポートフォリオマネージャーやアナリストにとって、役立つものです。

 

「技術トレンドを常に把握し、複雑なデータセットを解析するためのプログラミング言語を習得し、ワークフローを拡大するツールについて詳しく知ることは、より技術的な投資分野へと業界を前進させるため、必要なことです」とピサネスキは言います。

 

非構造化データとAI: 投資プロセスを強化するためのLLM のファインチューニング』では、現代の投資プロセスを急速に再定義している、1つの分野の微妙な違いについて言及しています。それは、つまりオルタナティブデータと非構造化データです。オルタナティブデータは、財務諸表などの伝統的なデータとは異なり、多くの場合、PDF やニュース記事などの構造化されていない形式のなかに存在していると、ピサネスキ氏は説明します。

 

これらのデータから洞察を得るには、より高度なアルゴリズム手法が必要である、と彼はアドバイスします。NLPは、話し言葉や書き言葉を解析するMLの関連分野であり、多くのオルタナティブデータや非構造化データを扱うのに特に適しているとも、彼は付け加えます。

 

 

ESGのケーススタディによるLLM の有効性の実証

NLPの進歩やコンピューティング能力の飛躍的な向上、オープンソースコミュニティの繁栄は、生成AI (GenAI) モデルの出現を促進しました。重要なこととして、GenAI は、以前のバージョンとは異なり、学習の対象としたデータから推定して、新しいデータを作り出す能力を持っています。

 

ピサネスキはレポートの中で、環境と社会、ガバナンス(ESG)投資のケーススタディを紹介することでLLMを構築することの有効性を実際に示し、企業のソーシャルメディアから重要なESGの開示情報を特定する際の活用方法を説明しています。ESGAI 導入の機が熟した分野であり、オルタナティブデータを使用することで非効率性を見抜き、投資収益を獲得できる分野であると、彼は考えています。

 

NLPの能力の向上と、ソーシャルメディアのデータから得られる知見の増加が、ピサネスキが研究をする動機となりました。しかし、研究が2022年に実施されてから、使用していたソーシャルメディアのデータのいくつかが無料ではなくなってしまったと、彼は嘆きます。AI企業がモデルをトレーニングする際に必要となるデータの価値への認識が高まっていると、彼は説明します。

 

LLMのファインチューニング

LLM にはファインチューニングと呼ばれる、プロセスにてカスタマイズできる機能があるため、非常に多くの使用例があります。ファインチューニング中に、ユーザーは自らの好みを組み込んだオーダーメイドのソリューションを作成します。ピカネスキは、まず NLPの進歩と ChatGPTのような最先端モデルの誕生について概説することで、このプロセスを考察しています。また彼は、ファインチューニングのプロセスを開始するための構造も提供しています。

 

ChatGPTの発表以来、より小規模の言語モデルのファインチューニングvs分類タスクの実行ための最先端 LLM という、対立構造は変化しました。「これは、従来のファインチューニングでは人間がラベル付けした大量のデータが必要であるのに対し、最先端のモデルはほんの数例のラベル付けタスクによって分類を実行できるためです。」 とピサネスキは説明します。

 

分類間の微妙な違いを理解するために大量のラベル付きデータが必要なタスクでは、大規模な最先端モデルを使用するよりも、小規模言語モデルでの従来のファインチューニングの方がより効果的である可能性があります。

 

オルタナティブデータとしてのソーシャルメディアの力

ピサネスキの研究は、ソーシャルメディアから得られたオルタナティブデータを解析するML技術の力を浮き彫りにしています。サステナビリティレポートや投資家との電話会議と比較し、よりリアルタイムに近い情報をソーシャルメディアから得るという新たな能力によって、ESGの重要性は小型株企業で活用した方がより多くの利益が得られる可能性があると、彼は指摘します。「特に小規模の企業に適用した場合、ESG データが非効率になる可能性が際立ちます」。

 

「この研究は、ソーシャルメディアやその他のリアルタイムの公開情報を活用するための最適な分野を示しています。しかしそれ以上に、データを取得した際、データを分けて細分化し、パフォーマンスにおけるパターンや不整合性を探すことで、研究を簡単にカスタマイズする方法を強調しています。」と彼は付け加えます。

 

この研究では時価総額による重要性の違いを調べていますが、ピサネスキは、業界の違いや、他のパターンを見つけるためのインデックスの異なる重み付けの方法といった、他の違いも分析できうると述べています。

 

「あるいは、ラベル付けタスクを拡張して、より重要性の分類を含めることや、開示情報の微妙な違いに焦点を当てることもできます。可能性は研究者の創造性次第なのです。」と彼は言います。

 

CFA Institute Research and Policy Center2023 年の調査である『生成 AIと非構造化データ、およびオープンソース』は、投資専門家にとって重要な入門書です。1,210件の回答を得たこの調査では、オルタナティブデータ投資の専門家が利用しているものや、ワークフローで GenAI の活用方法が詳しく調べられています。

 

この調査は、非構造化データに関連した、投資専門家のワークフローの様々な場面において、どのライブラリやプログラミング言語が最も価値があるかを取り上げ、調査の参加者から得た貴重なオープンソースのオルタナティブデータの情報源を提供します。

 

人工知能と人間の知能、およびそれらの補完的な認知能力の協調が、投資専門家の将来を大きく左右します。GenAIの導入は、AIプラスHI (人間の知能) 組み合わせの新たな段階を示すものになるかもしれません。

 

この投稿が気に入られたらEnterprising Investorのご購読をお願い致します。

執筆者

Mark Fortune

(翻訳者:安部 智宏, CFA

 

英文オリジナル記事はこちら

Building LLMs in the Open-Source Community: A Call to Action for Investment Professionals | CFA Institute Enterprising Investor

 

) 当記事はCFA協会(CFA Institute)のブログ記事を日本CFA協会が翻訳したものです。日本語版および英語版で内容に相違が生じている場合には、英語版の内容が優先します。記事内容は執筆者の個人的見解であり、投資助言を意図するものではありません。

また、必ずしもCFA協会または執筆者の雇用者の見方を反映しているわけではありません。