×閉じる
機械学習|レポート Machine learning

共同研究「類似論文の検索における機械学習の適用可能性の調査・検証」レポート

2021年03月24日

しまねソフト研究開発センターでは、株式会社テクノプロジェクトと「類似論文の検索における機械学習の適用可能性の調査・検証」をテーマとして共同研究を行いました。

以下に取組の内容を紹介します。

共同研究の背景

 先端研究で扱われるテーマは細分化し続けており、それに伴い論文で扱うテーマも細分化している。その一方で、論文誌が扱うテーマは幅広く、しかも、世の中には同じテーマを扱う論文誌が無数に存在する。あるテーマに関する参考論文の洗い出しは、『細かいカテゴリに属する情報』を『荒くカテゴライズされており、格納先の候補が複数あるアーカイブ』から網羅する作業であり、しばしば多大な労力と時間を要する。

 近年の機械学習技術の発展により、自然言語処理を行う AI の性能が実用に耐えうる水準に到達しつつある。本研究では、機械学習技術の『医学研究分野(特に内視鏡分野)における先行研究調査』への適用可能性を検証する。

これまでの成果(2019年度にITOCとの共同研究で実施※)

  • 関連性の高い論文同士は類似性が高いという仮説に基づき、 BERT の発展手法である RoBERTa を利用して類似文章を検索するアルゴリズムを作成した。
  • 手作業で集めた内視鏡分野の論文約100本を対象に上記のアルゴリズムを適用し、相互に類似した論文のリストを作った
  • 類似論文のリストを内視鏡分野の専門家(鳥取大学医学部助教)に評価していただき、『関連性のある論文が見つけられており、また、ある程度のあいまいさを許容した検索になっているため、従来なら見つけられなかった論文を見つけることもできる可能性がある』旨の評価を頂いた。

共同研究「類似文章の検索における機械学習の適用可能性検証」レポート

共同研究の概要

<1>大規模なデータを対象とした性能評価

 実際の先行研究調査は、数万~数十万件程度ある論文を対象に行う。それに対して、これまでのアルゴリズムの性能評価の対象はわずか100本の論文に過ぎず、テーマに偏りがあることも考えられる。したがって、これまでの検証では十分に性能が評価できたとは言い難い。今回の共同研究の範囲では、数万件の論文データを取得し、それらのデータを利用してアルゴリズムの性能評価を行った。

<2>処理時間の短縮

 これまでの研究で開発したアルゴリズムは、1単語あたり約1000次元の特徴量ベクトルを解析して類似度を算出する。1 論文あたりで平均して500~600 words 程度の文章を解析の対象としており、実運用に際しては数万~数十万件オーダーの文書を解析することが想定される。100件分の論文を対象に検索を行った際の処理時間から算出すると、1件の論文と類似した論文を10000件の論文から検索する処理にかかる時間は6 ~ 7 分程度となり、レスポンスが極めて遅い。今回の共同研究の範囲では(i)より小さい次元の特徴量ベクトルを出力するモデル、および、(ii)特徴量ベクトルの次元削減、を行い処理時間の短縮を試みた。

共同研究実施期間

令和3年1月4日 ~ 令和3年3月28日

実施内容

<1>大規模なデータを対象とした性能評価

1.大規模なデータを対象とした性能評価   

 上図に、大規模なデータを対象とした性能評価におけるデータフローを示す。上図に示すデータ収集・特徴量抽出フェーズ、および、特徴量解析フェーズで行った検証内容を以下に記述する。

1. データ収集・特徴量抽出フェーズ

 医学を中心とする生命科学の文献を収集したオンラインデータベースに MEDLINE がある。データ収集・特徴量抽出フェーズでは、MEDLINE の無料検索エンジンである Pubmed の API を利用してデータの収集を行った。収集したデータの内訳は以下の表のとおりである。

1-1. 収集したデータの内訳

 その後、収集したデータから RoBERTa モデルで特徴量ベクトルの抽出を行った。この特徴量抽出は大きなマシンリソースを要求する処理であるため、ITOC 殿の AWS 環境をお借りして実施した。仮にこの処理をローカルマシンで実行すると 5 日程度かかり、その間、ローカルマシンのCPU/メモリリソースをほぼ 100% 占有し続ける。ローカルマシンは他業務にも利用するため、この処理を実行することは現実的ではなかった。しかし、今回は AWS 環境を利用することで 5 時間程度で解析を終え、しかも、その間業務に支障が生じることが無かった。解析した特徴量は同じく ITOC 殿の AWS 環境(Amazon S3)に保存した。

2. 特徴量解析フェーズ

 データ収集・特徴量抽出フェーズで AWS 環境に収集した特徴量ベクトルをローカルマシンにダウンロードし、その特徴量ベクトルを検索対象として類似論文の検索を行った。検索クエリには以前、検索結果の評価にご協力いただいた専門家の方の書いた論文のアブストラクトを利用した。

 その後、アルゴリズムが出力した類似論文リストを専門家の方に提出し、検索結果の評価をしていただいた。結果、『ある程度の曖昧さを許容しつつ関連する論文を取得できている』旨の評価を頂いた。このことから、実運用で想定される規模の数の論文を対象に検索を行った場合でも関連性のある論文の検索が出来ていると考えられる。その一方で、性能の指標としては個人の感覚による部分があり、また、いまだ定性的な評価にとどまっている点に課題が残る。

<2>処理時間の短縮

 類似文章検索アルゴリズムの実行時間短縮を行うべくモデルの変更、および、特徴量ベクトルの次元削減を行った。行った内容と効果を下表に示す。

2.処理時間の短縮

 表に示した通り、検索クエリの解析にかかる時間を 30 sec から3 sec 程度に、検索にかかる時間を10000件当たり約400 sec から約20 sec 程度に短縮することが出来た。

 また、次元削減に伴い文章の特徴量が失われ、類似度の精度が低下することが考えられる。そこで、文の類似度を評価するデータセット STS-B を利用して、次元削減に伴う性能変化の評価を試みた。下表に、類似度の定量的変化を評価するために利用したデータセット STS-B の一部を示す。

2-1.データセット STS-B の一部

 sentence1, sentence2 は類似度を評価する対象の文章のペア、score は sentence1 と sentence2 がどの程度意味的に近い文であるかを示す指標であり、数値が大きいほどsentence1 と sentence2 が類似していることを示す。本検証では sentence1, sentence2 のペアを無作為に100ペア抽出し、それらの類似度を本研究で開発した類似度評価アルゴリズムで求めた。その後、求めた類似度と score の相関係数を算出した。

2-2. 類似度と score の相関係数

 上図は算出した相関係数と、削減した次元数の関係を示す。相関係数は、はじめ次元削減数にほとんど依存せず0.6 程度の一定値を取る。その後、次元削減数が500程度で減少に転じ、0に向けて急降下する。この振る舞いは500次元近くまで次元削減を行っても、少なくとも STS-B で評価できる範囲では類似度評価の性能が劣化しないことを示している。

 また、定性的な評価として、次元削減を行った後のアルゴリズムを利用して論文63000本を対象に類似論文検索を行った結果を概観した。検索クエリには前節で用いたものと同じ文を用いた。筆者が判断する範囲では、「1.大規模なデータを対象とした性能評価」の際に検索した結果と同程度に似た論文が抽出できていた。今後、専門家に評価を依頼し、より専門的な見地から結果を評価する必要がある。

共同研究から得られたこと、分かったこと

<1>類似文の検索機能の実現可能性についての検証結果

 実業務で想定される規模の論文数を対象に検索を行った場合でも、類似する論文の検索が可能であることを示唆する結果が得られた。今後、実行速度のさらなる改善などユーザビリティの改善が十分に行えれば、論文検索サービスとしての応用も期待できる。その一方で、人間の感性に寄らない評価指標が存在せず、定量的な品質評価が難しい点が課題である。

<2>類似文検索アルゴリズムの高速化に関する知見

 以前に比較して、10倍程度(10,000件当たり20秒程度)の速度まで、類似検索アルゴリズムを高速化した。また、次元削減を行う過程で、 STS-B を利用して類似検索の性能を定量的な値として扱い性能劣化を評価した。今後、人の感性による定性的な指標と今回利用した指標の比較が十分に行えれば、類似検索性能の定量的な指標として扱える可能性もある。

今後の事業方針等について

 今回の研究成果は、論文のアブストラクトを検索クエリとした類似論文の検索の実現可能性を示唆するものである。類似論文の検索が可能となれば、論文の執筆者が先行研究を調査する作業だけでなく、論文の査読者が論文引用の妥当性をチェックする作業など、省力化に貢献する機能への応用が期待できる。文書処理全般を効率化するサービスのうち、まずは、このような機能のみを実装したプロトタイプを作成し、ユーザ候補に利用していただくことで、課題の洗い出しや、あるべきユーザインターフェースの明確化を行いたい。

 問い合わせ先

公益財団法人しまね産業振興財団 しまねソフト研究開発センター(ITOC) 担当:広瀬
〒690-0826 島根県松江市学園南1丁目2−1くにびきメッセ西棟4F
TEL:0852-61-2225 FAX: 0852-61-3322 itoc@s-itoc.jp

このページのトップへ