リクルートのAI研究機関、Transformers事前学習モデルを構築し解析精度を向上した日本語自然言語処理ライブラリ 「GiNZA version 5.0」を公開

株式会社リクルート

logo_recruit

株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村 吉弘、以下リクルート)は、当社のAI研究機関であるMegagon Labsより、国立国語研究所との共同研究成果として、Transformers事前学習モデルを用いることで、解析精度を大幅に向上させた日本語自然言語処理オープンソースライブラリ(以下、OSSライブラリ)「GiNZA version 5.0」を無料公開しました。

1. 日本語自然言語処理OSSライブラリ「GiNZA」について

自然言語処理技術とは、私たちが日常的に使っている言語(自然言語)をコンピューターに処理させる一連の技術を指し、検索エンジンや機械翻訳、対話システム、顧客の声分析など、生活・ビジネスに おけるさまざまなシーンで利用されています。

リクルートのAI研究機関・Megagon Labsが開発・提供する「GiNZA」は、機械学習を利用した日本語の自然言語処理に関心があり解析を行いたいと考えている研究者やエンジニア、データサイエンティストに向けて開発された、無料で利用可能なライセンスの下で公開されたOSSライブラリです。ビジネスの現場で広く利用されることを想定し、ワンステップでの導入や高速・高精度な解析処理、単語依存構造レベルの国際化対応などの特長を備えています。「GiNZA」を使えば、構文構造の解析から、人名・組織名・地名・商品名・数値といった固有表現抽出まで統合的に解析でき、また、日本語文法に根ざした、日本語の文節を単位とする解析結果が容易に得られます。

2020年1月のversion 3.0公開以降、19ヵ月で10万ダウンロードを超え、Universal Dependencies(UD、※1)の日本語解析系として、学術機関だけでなく、頑健かつ柔軟な応用が可能な実用的ライブラリを望む産業界の多くの方々にご利用いただいています。Megagon Labsは今後も「GiNZA」をアップデートしていくことで、より速く、高精度な日本語の自然言語処理を可能にし、あらゆる産業において自然言語処理の活用が促進される世界を目指し、研究活動を進めてまいります。

「GiNZA」公開ページ

2. 「GiNZA version 5.0」アップデートの主な特長

(1)20億文以上のWebテキストで事前学習を行ったTransformersモデルを用いて解析精度を飛躍的に向上 
  • 大規模テキストで事前学習したTransformersモデルを独自に構築
    近年、多くの自然言語処理タスクで最高精度記録を更新し続けているTransformersモデルの多くは、大量のテキストデータによる単語の穴埋め問題(Masked Language Model)を事前学習タスクに用いています。Megagon Labsは、インターネット上の大量のテキストを収集したmC4データセット(※2)から抽出した日本語テキスト20億文以上を利用して、広範な分野をカバーするTransformers事前学習モデルを独自に構築しました。Transformersモデルには事前学習効率が高いELECTRA(※3)を、そのトークン化処理には日本語Universal Dependenciesと同じ国立国語研究所UniDic短単位をベースとするSudachiTra(※4)を、それぞれ採用しました。構築したTransformers事前学習モデルは「transformers-ud-japanese」(※5)として別途公開します。

  • 処理パイプラインへのTransformersモデルの組み込み
    「GiNZA」が使用するPython(※6)向け自然言語処理フレームワークspaCy(※7)では、2021年1月にリリースされたversion 3での機能拡張により、処理パイプラインへTransformersモデルを容易に組み込むことができるようになりました。「GiNZA version 5.0」ではspaCyの処理パイプラインの最前段に組み込んだ「transformers-ud-japanese」から得られる単語(サブワード)の意味ベクトル表現を用いることで、後段の依存構造解析・固有表現抽出・品詞推定の精度を大幅に向上することができました。

  • 国立国語研究所との共同研究成果の依存構造解析モデルを提供
    2014年から全世界で取り組みが始まった「Universal Dependencies」は、人類が用いる多様な言語を、一貫した構文構造・品詞体系で分析可能にすることを目的とする取り組みです。日本においても、当初から、Universal Dependenciesの日本語への適用に関する研究と、日本語版UDコーパス(データ)構築が、同時に進められてきました。Megagon Labsは、国立国語研究所と共同で、日本語版UDに基づいた高精度な依存構造解析技術の研究開発、および、日本語版UDコーパス中の固有表現への正解ラベル付与などの取り組みを行い、これらの成果を組み込んだ「GiNZA日本語UDモデル」を公開しています。
    「GiNZA version 5.0」で使用する「GiNZA日本語UDモデル」は、国立国語研究所の大規模かつ高品質な「現代日本語書き言葉均衡コーパス」をUniversal Dependencies体系に変換したUD_Japanese-BCCWJ r2.8と、広範囲なインターネット上のテキストで事前学習された「transformers-ud-japanese」を組み合わせて依存構造解析モデルの学習を行うことで、幅広い分野に適応可能な解析モデルを構築しています。

(2)用途に応じて複数の解析モデルを提供 

Transformersモデルは解析精度を大幅に向上できる反面、計算量の増大により処理速度が低下するデメリットがあります。「GiNZA version 5.0」では解析精度重視、または、処理速度重視のように用途に応じてモデルを切り替えて使用することができます。提供するモデルは次の2種類です。 (Python 3.6以上と対応するpip環境が必要です。GiNZAの過去のバージョンをインストール済みの場合は事前にアンインストールしてください。)

解析精度重視モデル (ja-ginza-electra)
インストールコマンド: pip install -U ginza ja-ginza-electra 
処理速度重視モデル (ja-ginza)
インストールコマンド: pip install -U ginza ja-ginza

※1 全世界の多様な言語を一貫した文法・品詞体系で解析可能にすることを目指した国際的学術プロジェクト 
※2 インターネット上のテキストを収集したCommon Crawlテキストデータセットに対して、Googleが開発したフィルタを適用して構築した多言語テキストデータセット(事前学習にはmC4の日本語テキスト全体をさらに文らしさで絞り込んだ約20億文を使用) 
※3 ICLR2020でStanford大学とGoogle Researchが発表した敵対的学習を模した機構で事前学習効率を大幅に向上したTransformersモデル(学習用ライブラリにはNVIDIAのDeepLearningExampleのTensorFlow2による実装を、解析フレームワークにはHugging Faceのtransformersをそれぞれ使用)
※4株式会社ワークスアプリケーションズ・エンタープライズの自然言語処理研究に特化したAI研究機関「ワークス徳島人工知能NLP研究所」が開発するHugging Face Transformers向けトークナイザライブラリ(形態素解析器としてGiNZAと同じSudachiPyを使用)
※5 Hugging Face Inc.が公開する機械学習モデル共有リポジトリHugging Face Hubから公開中(https://huggingface.co/megagonlabs/)
※6プログラミング言語の一つで、シンプルで記述力の高い言語として人気があります。データサイエンス領域だけでなく、ウェブアプリケーション開発などでも広く利用されています
※7 ExplosionAI GmbHが開発する最先端の機械学習技術を取り入れた高機能な自然言語処理フレームワーク



この記事をシェアする

シェアする

この記事のURLとタイトルをコピーする

コピーする

プレスリリーストップへ戻る