ベースライン確保のための研究

私たちは、フェイク情報に惑わされず、適時判断に必要な情報を、学習データの有無に依らず限られたデータから抽出して生成するスモールデータ細粒度解析(small data fine-grained analysis)という情報分析技術の研究開発を行っています。

セキュリティ分野では現在、あらゆる産業でセキュリティ基準が定められています。1000を超える要求事項や管理策からなる基準もめずらしくありません。一方、事業者は、自社のセキュリティ管理策(社内基準)や製品のセキュリティ仕様(製品仕様)と、業界基準や法令要求との差異を検討することに日々多大な労力を強いられています。

本研究では、クラスタリング技術(階層的クラスタリング)、自然言語処理技術、トピックモデル技術、他多数の統計的分析技術を組み合わせて、文書分析ツールTact(タクト)を開発しています。

文書分析ツールTactは、文書の比較分析、文書構造の分析、文書成熟度や文書劣化度の評価、文書中の用語の分布分析に活用できます。分析対象は、日本語または、英語の文書です。言語の違いにより、情報抽出の方法が異なります。 図1は、プロファイリング分析と呼ばれる機能により、文書中の文章どうしの関連度を、濃い(=強い)~薄い(=弱い)で表現した分析結果です。対角線の外に濃い色の塊(クラスタ)ができたり、バラバラの点(ノイズ)ができる場合、追記や削除を繰り返して経年劣化した文書や推敲が不十分な文書であることが多いようです。構造的な分析の他に、文書どうしを文章単位で対応させることもできます。図2は、キーワード分布分析と呼ばれる機能により、文章中の各キーワードの出現頻度(横軸)と出現位置の偏り方(縦軸)をマップしたものです。分析において重要となるキーワードの特定に利用できます。

こうした文書分析機能を活用することにより、これまでに、ガイドライン開発や、社内基準のメンテナンスの技術相談に多数対応して参りました。

文書分析ツールTactは、現時点では非公開ですが、文書分析技術を必要とするユーザーに気軽に分析ツールを利用していただけるよう、ハンズオン演習素材を開発しています。技術相談、分析ツールの試用、演習体験等をご検討の際は、お気軽にご相談ください。

図
図1
図
図2