技術 ブログ

読書メモ:オープンデータ時代の標準Web API SPARQL



スキルの棚卸のため、こちらも過去読んだ本について書きます。

Linked Data: Webをグローバルなデータ空間にする仕組み」と「セマンティック・ウェブのためのRDF/OWL入門」で書かれているように、RDFの記述形式に沿ってデータ化を行っても、やたらと付加情報の多いテキストデータとなり、何もできません。

データをRDFトリプルのタートル形式にしたものを、blazeGraphのようなRDFグラフデータベースに格納すると、SPARQLというSQLのような問い合わせ言語でグラフデータを検索および取得可能になります。

こちらの書籍では、そのSPARQLを使ったデータの問い合わせ方法を学べる唯一の日本語で書かれた本です。

SPARQLで誰でもデータの問い合わせができるWEBサイトを「公開SPARQLエンドポイント」と言い、あらゆる人(およびプログラムが)気軽にSPARQLを用いてデータを取得可能です。

有名なSPARQLエンドポイントに、Wikiデータ・クエリーサービスがあり、あの有名なWikipediaのデータをコンピュータからでも可読可能な形式にしたWikidataというサービスのデータをSPARQLで取得し、活用できます。

SPARQL自体マイナーな問い合わせ言語かもしれませんが、Wikipediaのような巨大な言語データベースから統計を取ったり、AI技術の教師データとして使う場合に有用とのことです。

SQLに似ていて多くのシステムエンジニアなら、それほど学習負荷なく扱えるようになると思います。

知らない人からすると初めて聞く言葉でパニックになるかもしれません(自分はそうでした)が、この本を参考に、Wikiデータ・クエリーサービスでSPARQLの練習をしてみてはいかがでしょうか?

自分は、業務通じて過去、このSPARQLエンドポイントを含めたWikibase (Wikidataのオープンソース版)サービスの構築を行いました。

本場のWikidataでは、RDFグラフデータベースにOSSのblazegraph(他にはOracleやIBMでも製品があるようです)を使っているようです。

エンジニアとして、あの有名なWikipedia財団にオープンソースで貢献したい場合は、Wikibaseを手始めに構築してみてはいかがでしょうか?

コメント投稿フォーム

メールアドレスが公開されることはありません。 が付いている欄は必須項目です