新聞記事から作成した「単語ベクトル」を公開　朝日新聞社・レトリバ共同研究の成果を社会還元

2017年11月23日 11:34 AM ニュース

株式会社朝日新聞社は、株式会社レトリバと自然言語処理分野における共同研究契約を結び、今年7月より研究を進めていますが、今回、その成果の一部を「単語（埋め込み）ベクトル」という形で研究者向けに原則無償で公開し、技術を還元すると発表しました。

新聞記事から作成した「単語ベクトル」を無償公開

今回公開されるのは、1984年8月～2017年8月の朝日新聞の記事データ約800万件（延べ約24億単語）から獲得した、単語ベクトルと呼ばれる日本語研究用の資源です。

単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化（ベクトル化）したものです。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなります。世界では、単語ベクトルの利用によって自動翻訳や要約、音声認識など自然言語処理の研究が加速しています。

たとえば、「大きな」と「大きい」という二つの単語は数値的に似た単語ベクトルで表されますし、対義語である「大きい」と「小さい」も、使われ方が似ていることから、これらも似た単語ベクトルで表されます。

公開される単語ベクトルは、米グーグルが提案したword2vecと呼ばれる手法、および米スタンフォード大学の研究チームが提案したGloVeと呼ばれる手法で生成したものを、研究者が使いやすいフォーマットに整えたもので、約75万語にのぼります。さらに、これらの単語ベクトルをもとに、同義語同士が似た単語ベクトルの関係になるように調整した別の単語ベクトルも公開されます。

自然言語処理を研究する上で、単語ベクトルは必要不可欠なものになってきました。単語ベクトルを生成するには大規模な文章データが必要で、特に日本語の単語ベクトルを作るためには、無償で公開されている日本語のWikipediaを使うなどしかありませんでした。
今回は、朝日新聞社とレトリバの共同研究で使用している単語ベクトルを公開することで、日本語処理研究の活性化と、さらには他の研究者からのフィードバックによる、本共同研究の加速が期待できます。

※本件の詳細は、http://www.asahi.com/shimbun/medialab/word_embedding/ をご覧ください。

朝日新聞社は、新規事業の開発やAIをはじめとする最先端技術の研究にあたる社内組織であるメディアラボと、社内のシステム開発や業務イノベーションに向けたIT技術研究・開発、技術者の育成を担う情報技術本部が中心となり、AIを利用した新事業開発・業務改革を進めています。本共同研究では、朝日新聞社から若手エンジニア数人をレトリバへ派遣して、両社でノウハウを積極的に共有しています。