Coppell Technologies

スマートシティの標準規格

Menu

Coppell Technologies (Top)
Fiwareで都市OSを動かしてみよう
NGSI-LDにも挑戦
データ仕様の現状と課題

スマートシティの標準規格

データモデルのユースケース

Column
Link集
用語集

Coppell

Technologies

 4. 語彙 (共通パーツ)


2022-09-29/2023-02-10

 スマートシティに実際にサービスを実装する各種業界の視点でいうと、権限を持つ公的機関や権威ある標準化団体が策定した網羅的な「標準語彙」というべきものはありません。これは恐らく語彙という無限の広がりを持つとともに、業界や専門分野毎に方言とか専門用語と言うべきものが多数存在する点に加え、年々歳々変化し続ける性質によるものだと思われます。この難敵に対し、グローバルにはschema.orgなどのコミュニティーが存在し、ほぼデファクトスタンダードの地位を占めつつ、日々更新されていくコミュニティー活動があります。国内では、今年3月にデジ庁のGIFに統合されたIMIのコア語彙というものがあり、共通的な語彙を抽出して「コア語彙」を策定する事で、実際に業務で使用する「ドメイン語彙」を民間含めて効率よく策定できる土台を整えています。
 後の章で詳しく述べますが、当面のスマートシティの活動ではNGSI v2のインタフェースで活用する事になります。NGSI v2を前提とする場合、デジタル庁のコア語彙は幾つか課題があります。例えば、自由度が大きすぎて、利用者が個々にデータモデルを策定すると、突合が難しくなってしまいます。また、NGSIではData Model名(Entity type)やAttribute名(Attribute name)も統一する必要がありますが、コア語彙ではそこまで定義していません。そこで、コア語彙、およびschema.orgを継承して、NGSI V2準拠を前提としたドメイン語彙を策定する事が必要です。ドメイン語彙の考え方はコア語彙に書かれていますので、興味があれば参照してください。
 スマートシティでは、データはクロスドメインで活用する事が前提なので、「ドメイン」という用語で誤解を招く可能性があります。更に言うと、NGSI V2に特化して事細かに規定したものを「語彙」と称して良いのかについても疑問があります。そこで、本書では語彙と言う用語は避けて、共通パーツと呼ぶことにします。

検討項目 NGSI v2からみた語彙に対するニーズ (共通パーツに対するニーズ) コア語彙 共通パーツによる解決策
規定の対象と制約事項 NGSI V2の範囲。つまり、UNICODE、UTF-8、WebAPI、JSON+GeoJSONが前提。また、csvの様なデータセット一括のデータ交換よりも、一件ごとのデータ交換を主眼とする。
スマートシティの主要なアクターである自治体の参画を考え、出来る限りGIFを尊重する
広く一般が対象。行政以外にも適用できる事を意識しており、GIFの他の規定にも縛られない UNICODE、UTF-8、WebAPI、JSON+GeoJSONでのEntity毎のデータ交換を前提として検討する。
NGSI V2の規定やNGSIの一般的な使われ方に反しない限り、GIFの規定を出来る限り尊重する
項目や表現方法の選択肢 そのままデータモデルに取り込まれる事を考えると、自由度は少ない方が望ましい。 コア語彙では幅広い自由度をもって定義している。項目の必須であるかどうかの指定はない 共通パーツとして、列挙型項目に許される値である、列挙型メンバも定義する。
語彙の名称 クラス名ではなくデータモデル名 (Entity type) やデータ項目名 (Attribute name) に採用すべき名称が明示されていて欲しい。また、データ項目名は先頭が小文字の米国英語で構成されるキャメルケースであって欲しい 語彙の名称はクラス名のみ。クラス名は日本語であり、NGSI V2の規定上、項目名には流用できない 想定される項目名を新たに定義する。その際、schema.orgやSmart data models等のグローバル標準との整合も検討する。尚、この項目名は強制せず、臨機応変に変更する事も許す。例えば、法人の住所には、登記上の住所と郵送先や面談時の住所が異なる場合があるなど、同じパーツであっても別の意味を持たせることがあるため。
値の属性 緯度経度 緯度経度については、GeoJSONが望ましい 緯度と経度は別項目で数値と規定。他にも多くの選択肢が併存 緯度経度を一つの項目にまとめ、GeoJSONとする
値の表記 id NGSI-LDへの移行や共存を考え、NGSI-LDの標準が望ましい 文字列との定義。省略可 必須項目とし、NGSI-LDの形式に合わせる
緯度経度 緯度経度の精度など、GIF内のコア語彙以外に散在する規定も、語彙の中で定義してあってほしい 緯度と経度は別項目。精度の規定も無い GIFの他の規定も共通パーツを定義する中で取り込む
日時 DateTime属性への統一が望ましい 色々な表記が併存 GIFの他の規定も共通パーツを定義する中で取り込む事で、DateTimeの表記と合致させる
電話番号 特に定義されていない。事例では、単に文字列としている。 色々な表記が併存 GIFの他の規定を採用する。実際には、+国番号-ゼロを除く市外局番- それ以下の番号など、標準的な規定となる
論理値 Booleanを活用し、FalseやTrueで表現することで、表記の揺れを避けたい "有"と"無"など、文字列で表現 Booleanの採用が望ましいが、項目ごとに判断が必要
コード 特定の地域(日本国内など)、特定の業界、および定義の不明確なコードは視認性や互換性の観点から避けたい。 コード自身の定義はない。尚、コアデータモデルや標準データセットでは、政府のコードを多用している 個別に判断する。
列挙型メンバ 列挙型メンバの値と意味付けを定義してあることが望ましい 特に定義はない。尚、コアデータモデルや標準データセットでは自治体での活用を念頭に規定がある 共通パーツとして定義する
IRI 語彙ごとにユニークなURLを割り当て、JSON-LD化に準備。可能な限りschema.orgを採用 特に定義はない 将来的にNGSI-LDへの移行を考慮し、IRIも出来る限り定義する。schema@org等のサブセットとなっているものは、schema.orgの規定をそのまま採用。新規に定義した語彙やschema.orgの語彙のサブセットになっていないものは、新たに定義なおす

 以下、参考のためにGIF等の説明を記載します。

3.1 GIFのコア語彙
2022年8月13日
 政府相互運用性フレームワーク(GIF: Government Interoperability Framework)が、2022年3月にデジタル庁から発表されました。データの整備やデータ交換のフレームワークとの事ですが、現在の版はデジタル庁発足前に各省庁に分散していた各種の規約を集めたもので、2023年には改版される予定との事です。コア語彙は、現在の版でGIFを構成するものの一つとして位置づけられています。
 現在のコア語彙は、情報共有基盤 -- IMI(Infrastructure for Multilayer Interoperabilit)のサイトに収録されていて、誰でも見る事ができます。IMIは共通語彙基盤と文字情報基盤に分かれており、共通語彙基盤は更に共通語彙とDMDに分かれ、共通語彙はまた更にコア語彙とドメイン語彙に分かれています。コア語彙は、「幅広い業務分野に共通する、基本的な語彙」であるとされかなり限定された語彙だけが収録されています。この点で、後で出てくくるschema.orgなどとは考え方が異なっている様です。
  「語彙」は英語ではVocabularyと言いますが、用語の定義です。用語の定義と言っても良く分からないと思いますので、実物を見てみましょう。下図は「氏名」というものの定義です。「氏名」という情報には、「姓」や「名」という属性情報が含まれると言う意味です。他にもカナやローマ字の属性などもありますね。


後の章でデータモデルが出てきますが、策定したいデータモデルの中に氏名情報も入れたい場合、「回数」の指定に従いながら、値型を拾っていく事で、データモデルを設計する事が出来ます。尚、コア語彙は項目名を決めるものではありませんし、「回数」を見ても分かる様に自由度も高いため、詳細はデータモデルの設計時に決めていきます。


3.2 ドメイン語彙
2022年8月13日
 GIFにはドメイン語彙は含まれておらず、またIMIも管理しないし登録も不要となっています。このため、浅学な筆者の知る範囲では、ドメイン語彙その存在を認識していません。
 但し、今後スマートシティの実装を進めていくにあたり、オープンな環境下で議論/策定され、IRIの情報も含めて公開され、柔軟に改版されていくドメイン語彙の策定は必須となると考えられる。筆者の勝手な意見ではあるが、柔軟性を確保し、既存の規定類に忖度しない必要があることから、できれば政府からは独立性が高いコミュニティーで運営されることが望ましいと考えます。


3.3 グローバルな語彙
2022年8月13日
 グローバルには語彙は多数定義され、活用されています。また、日本のコア語彙の様に厳密に語彙の範囲を限定しておらず、データモデルと言うべき定義も含まれています。日本のコア語彙では氏名などのクラスの定義はありますが、個々のプロパティの名称は決められていませんが、グローバルには名称や項目の値に許される値(列挙型メンバ)なども決める事で自由度を下げてデータ交換を容易にしているようです。コア語彙と最も大きな違いは国による制定ではなくコミュニティーによる制定である事です。従って、語彙間で違いはあり得ますし、同じ用語の定義が違う内容である事もあり得ます。利用する側が選択し、使われない語彙は淘汰され、全体として進化していく事になります。
 想像してみて下さい。例えば政府の各種統計を見ると性別は男女の二つです。これに対し、ISO標準では不明、男性、女性、適用不能の4種類です。政府がコア語彙で「性別」の値の列挙型メンバを決めるとき男女だけにするでしょうか、それともISOの様な4種類にするでしょうか。それともLGBTQまで分けてもっと多数の選択肢を用意するでしょうか。それだけで政治論争になりそうです。民間であれば、語彙が並立して使う側が選択して淘汰していくだけですよね。
サイト名/URL 説明
Schema.org
https://schema.org/
最も基本的な語彙や列挙メンバの登録先。デファクトスタンダードであり、日本のコア語彙なども参照している。2022-08-12現在、797のタイプと1453のPeopertyと14のデータタイプと462の列挙型メンバが登録されている。
SAREF
https://w3id.org/saref
デバイスの出力に関するPropertyの集大成。Webページに多量の定義が並んでいる。
Smart Data models
https://smartdatamodels.org/
スマートシティを含む各種スマートサービスのための語彙とデータモデル集。
GoodRelations
http://www.heppnetz.de/ontologies/goodrelations/v1
schema.orgのeコマース向け拡張。
GEOJSON-LD VOCABULARY
https://geojson.org/geojson-ld/vocab
GeoJsonの語彙。
SAREF4AGRI
https://saref.etsi.org/saref4agri/
SAREFの農業向け拡張。実体はhttps://saref.etsi.org/saref4agri/に存在する。
SEMIC core vocabulary
https://joinup.ec.europa.eu/collection/semantic-interoperability-community-semic/core-vocabularies
欧州委員会が中心となり推進している行政を中心としたデータモデル体系
NIEM
https://www.niem.gov/
米国政府のデータモデル体系。各州も参照しており、安全保障系のデータが充実している。