朝日新聞社が新聞記事で学習した人工知能「見出し生成API」を公開 記事本文を入力すると、見出しの候補を数秒のうちに出力
朝日新聞社は、自然言語処理研究の成果の一つである「自動見出し生成」の機能を体験できるAPI(Application Programming Interface)を、評価用途に限って無償で公開しました。
専用ページ(https://cl.asahi.com)で利用者登録の上、どなたでも利用・評価できます。
このAPIは、記事本文を入力すると、見出しの候補を数秒のうちに出力します。過去30年分の朝日新聞記事のデータを活用し、学習データとしての処理効率を上げるためのフィルタリングなどをした上で、ディープラーニング(深層学習)により、記事本文に対する見出しをなるべく正しく出力できるよう事前に学習させています。
なかでも、出力する見出しの長さをコントロールでき、ユーザーが指示した文字数に合わせて見出しを生成できることが特徴です。
これは、記事が掲載されるメディアやデバイスによって、見出しの長さに厳しい文字数制限がある場合が多いため、実用上必要な技術となります。同時に複数の見出しを出力することもできます。
もともと自動見出し生成の技術は、一つの記事に対し、複数のバリエーションの見出しを付与したり、見出しのついていない長文の内容をひと目で把握したりする用途で期待されています。
今回のAPIは必ずしも毎回完璧な見出しを出力できるわけではありませんが、公開することによって利用者からの評価や、需要・用途のフィードバックをしてもらえることを期待しています。
公開は8月末までを予定。公開したAPIのモデルは評価用のため、現在開発中のものより精度が低くなっています。
朝日新聞社は、自動見出し生成に関しては、NLP若手の会 (YANS) 第13回シンポジウム デモ賞(http://yans.anlp.jp/entry/yans2018report)や言語処理学会 第25会年次大会 若手奨励賞(https://www.anlp.jp/award/nenji.html)など複数の学会やシンポジウムで賞を受賞しています。
自動見出し生成の研究を通じて得られたノウハウをもとに、利用者の要望に応じたAPIのカスタマイズやチューニングも有償で受け付けます。
今回公開されたWebサイトでは、このAPIのほか、機械学習用にカスタマイズされた記事データや、以前から公開されている朝日新聞単語ベクトルも合わせて公開されています。今後も、研究を通じて得られた成果は本サイトで継続的に公開されていく予定です。
【関連】
▼朝日新聞社メディアラボ 人工知能研究の取り組み