prasinos' work memo

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

DOI

DOI についてちょっと調べてみた。

やはり、International DOI Foundation が登録機関に命名を移譲するすたいるであった。DOI URI はスラッシュで区切られた登録機関番号とデータ名からなっていて、要は登録機関 (RA) のやり放題である。すると、いろいろ疑問が湧いてくる。

まずは、登録機関を作れない場合はどうしたらいいか。登録機関たるの要件は不勉強だが、誰でも紙に印刷さえすれば原理的には図書が作れるのに対して、経済的に恵まれない個人・団体が細々と作っているようなデータは取りこぼされたりしないか。取りこぼされるのはしょうがないとして、DOI がないと引用できないとかいう投稿規定は作りにくいのでないか。

ついで、本当に永続的かという問題。いいかげんな登録機関をでっち上げておいて、トンズラこいてしまわれたら IDF は一体どうするのか。まさか、未来永劫森羅万象の図書館を肩代わりなんてできないし、データが消えたあとでクリアリングハウスを続けてもしかたがない。結局のところ登録機関が消えたらその DOI たちは解決不能になって、「あんな登録団体あてにするから悪いんだよごめん」で済むんだろうが、そんだったら原理的には DNS だって似たようなものだ。

ま、このへんがさきほど感じていた「割り切れない気持ち」なんではないかと思う。
スポンサーサイト

JCDL2005 メモ(2)

JCDL 2005 のまとめの続き。
報告書風だけど、とりあえず出すあてはない。ま、そのうち何かの役に立つかも知れないけれど。

[会議の目的]

JCDL とは ACM IEEE Joint Conference on Digital Libraries (米国計算機協会および国際電気電子工学会共同の電子図書館に関する会議)の略であって、電子図書館のに関する諸問題を広く議論するために毎年開催されている会議である。2005 年の課題は「研究・教育のためのサイバーインフラストラクチャ」であり、科学技術研究および教育に関する応用面に焦点がおかれた。

私が聴講した Workshop on International Scientific Data, Standards, and Digital Libraries (科学データ、標準、ならびに電子図書館に関するワークショップ) は NSF (全米科学財団) ならびに CODATA (Committee on Data for Science and Technology) の協賛のもと、科学資料を電子的に共有するためのデータ標準化活動について議論するために開催された。参加者および問題意識は昨年開かれた NSF/NSDL Workshop on Scientific Markup Languages (全米科学財団・米国立科学電子図書館共催、科学マーク
アップ言語に関するワークショップ) を引き継いでおり、本年は Semantic Web との関連について主に議論された。

[気象分野からみた本会議の重要性]

Semantic Web はウェブの創始者ティム・バーナーヅ・リーが提唱し世界ウェブコンソーシアム(ちょっと無理な訳か?) World Wide Web Consortium (W3C) が推進している計画で、現在のウェブの HTML を XML に拡張し、また意味論 ontology や RDF 等と称する機構を付け加えていってマークアップの機械可読性を高めようという計画である。要は、現在のウェブが所詮は文字と絵の羅列であってその解釈には人間を必要とすることが大前提となっているのに対して、情報の書き方をより高次化することで計算機の自動・半自動処理を推進しようと言うことである。

その Semantic Web が科学データと電子図書館との関連で取り上げられる背景には情報の可読性の問題があるはずだ(ここは私の推測)。電子データは情報の複写や伝送を容易にする反面で、見知らぬ標準で書かれたデータを読みにくくするという副作用がある。紙の図書館では書籍という情報のかたまりを同定するために必要なメタデータ(著者とか表題とか)が既に標準化されており、いかなる分野の書籍からも読み取ることができるのに、「科学技術情報を網羅する電子図書館」を作ったとしても、データの出元分野以外の司書はそこを単なるファイル置き場以上に管理することができない。当然これではいけないというのが図書館を大切にする欧米の発想であるはずで、また個々の科学技術に投資するにあたってなるべく応用可能性の高い成果を求める立場からみても同じような潜在的な要請があるのだろう。

そこで W3C の Semantic Web の枠組みですべてを統一するということが考えられる。昨年のワークショップでは科学技術の多くの分野で開発されている科学マークアップ言語 (データ記述言語ともいえよう)が報告されたが、その多くはすでに XML を元にしたものであった。したがって、今回は意味論 ontology の話題が多くなったのである。

すべての科学技術データを Semantic Web に統一しようという試みが成功するかどうかは未知数であるが、長期的に見れば気象を含めた個々の科学データ標準に対してそのような統一への社会的要請が高まっていくものと予想される。

[議事概要]

1日目: 各分野固有の国際的標準化活動

Space Telescope Science Institute (米国) の Robert Hanisch は仮想天文台でのデータ標準について講演した(招待講演)。仮想天文台は世界各国の天文台間の草の根的な国際連携(国際間の資金移動はまったくないそうである)で運営されている分散データベースである。

データは基本的に天球座標上に参照された二次元画像データである。したがって、単なる RDB に対して二次元球面座標の問い合わせ機能を付加するのが基本である。ぶっちゃけこれって地理情報システムっていうんじゃないのって気がしないこともないが、ともあれ彼らは地理業界とは(少なくとも)一見無関係にそういうシステムを作りあげた。

要素データの FITS 形式は普及しているので残された。これは二次元ラスタとキーワード・値ペア属性群からなっており、つまり netCDF の二次元版のようなものである。ただこれだけでは些か問い合わせに不自由し、メタデータの標準としてダブリンコアの拡張の OAI-PMH なるものを作った。SQL の拡張として空間問い合わせができる ADQL を作り、DBMS へのラッパーとして実装し、その問い合わせの結果の伝送形式としてXML ベースの VOTable 形式を策定した。より上位のサービスには Web サービスの機構を採用し、Global Grid Foundation との協力のもとで実装している。

最後に草の根活動の成功の鍵は適正なプロジェクトサイズということで、それはいったいどれくらいかという質問が出たが、コアメンバー数百人、技術会合85人ということだった。プロジェクトの大きさのメトリックとして、技術会合の人数はなるほど使えるかもしれない。

米国地質調査所 USGS の Vivian B Hutchinson は全米生物情報基盤 National Biological Information Infrastructure (NBII) について報告した。NBII はその名前が NSDI (全米空間データ基盤) に酷似していることからも推察されるように、USGS が主催する産官学民連携の生物情報データベースである。具体的な活動は、語彙集の策定、メタデータ標準(NSDI 版の上位セット)策定、クリアリングハウス運営、ソフトウェア提供ということである。

マクマスター大学(カナダ)の David Brown は結晶学分野においてのデータ交換標準である CIF について報告した。CIF は 1990 年に策定され、1996 年には Acta Crystallographica 誌に投稿の際に使用が義務づけられた。具体的にみるとこのファイル形式はテキストベースのタグ・値構造であるが、「ループ」という機能を用いてある程度の表を表現することが可能になっているのだという。ただし、ループを活用するソフトウェアは現れていない。

思うに、(1)学術界で強制的な標準化が成功した背景には、結晶学という分野において定型的なデータの記載が重要であることがあるのだろう。(2)あまり高度のデータ構造はソフトウェアの開発力が不十分な業界では活用できない。このことは、将来XMLベースなどにおいて分野横断的に表構造の標準化が成ったときに、より高次のソフトウェアの可能性が高まることを示している、といえる。

高知工科大学の門馬は物性データベースの言語 MatML について報告した。XML Schema から RelaxNG に移行し、これでソフトウェア開発が容易になったらしい。どうでもいいことかもしれないが、Relax は ISO 標準になったらしい。

Galdos Systems (カナダ) の David Burggraf は GML について報告した。筆者の発見は (1) GML は ISO TC 211 標準 ISO 19136 になろうとしている。(2) OGC は Web Processing Server (WPS) や Web Registry Server (WGS) なんかを作った。後者は簡単にいうと地理データのグーグルだという。(3) 用語が GISci の講学テキストと微妙に違って、coverage はラスタデータで表される場 (field) を指し、feature はベクタデータで表される地物を指していた。どうやらこれが coverage の定義らしい。(4) 地理参照座標系を指示する方法として、 GML では投影法とパラメタ群から自力で定義する分析的な方法と、「よく知られた辞書」を参照する統合的な方法が二本立てで用意されており、どちらを使ってもよいらしい。

ハノーファー大学(ドイツ)の Jan Brase は科学データを参照するのに用いるための DOI URL なるものについて報告した。論文でデータを引用するときに、これまでだったら論文誌の書誌情報を書くところにこの DOI URL を書けばいいようにするということなのである。それだけだったら HTTP URL でもよさそうなものであるが、一時的に作成できるかわりにいつ消えるとも限らない URL に対して、DOI は Intl DOI Foundation の管理のもとで永続性をもつことが売りなのだそうだ。確かにご立派な計画であるが、本当に運営がうまくいくのかちょっと眉につばをつけたくなるような気がした。

2日目の情報はまたこんど。

科学技術とセマンティックウェブ

科学技術データにセマンティックウェブを使うといいぞ、という話がアメリカでどのくらい真面目に考えられているのかなあと思った。

とりあえず、適当にググってみると、

(1)Science の Policy Forum の記事Hendler (2003)。この頃に一応スタートであるらしい。アブストでファンドレイズを訴えているところからみて、アイデア持っている人が「これはいけるべよ」と思って書いたのでしょう。

(2)NSF/NSDL 主催の科学マークアップ言語に関するワークショップ (2004) の報告書。エグゼクサマリではセマンティックウェブを使えと名指しはしていないけれど、多様な科学マークアップ言語の仲介の機能を開発する必要が訴えられている。

まあそんなところだ。具体化は全然していないのだけれど、構想はしっかり存在しているというべきか。

[trans] Caron and Nativi (2004)

翻訳シリーズ、第二弾は Domenico/Caron グループの前回作にいきましょう。今度は番頭さんが書いているから文章はずっとかっくいーです。

原文はここにあります。

(5/19 初稿 7/24 追加) 続きを読む

SIS という言葉への違和感

Caron and Nativi (2004)を訳して思ったが、どうも SIS という言葉には違和感がある。えーと、ファイルフォーマットを Information System というのも不思議なんだけど、それ以前の問題として、自分らが科学全体を勝手に代表してない? という疑惑があるわけだ。気象学関係者が地理のことがわかんないように、地理に関係するけど他の分野のことなんかまったくわからんでしょう、と思うわけなのだが、それでも AIS でなくて SIS なのかなあ。

ま、AIS か SIS かは人によって違うようなのであるから、もうちょっとちゃんとチェックしてから物をいわなくてはならないのであるが。そして例によってチェックはそのうち後回し...。

セマンティックウェブ

ちょっと気になる記事があったので、JCDL の話を先取り。セマンティックウェブを前提として皆オントロジーの話をふって、なんだかよくわからないんだけど実際にはシソーラスだか用語集を作るってな感じのことをしている人が多かったのですよ。今になってそういうことがブームになることの意味って何だろう、ってなのがずっと気になってきたのですが、finalvent の日記の Web 技術論(それ自体はブラウザの話みたいだからよくわからないしまあ I don't care) のところについたコメントに、
少ない規定で無数の要素を統制し、成果を積み上げて完成度を上げるのがエンジニアリングなら、ウェブにはエンジニアリングが事実上存在しなかったということかと。セマンティックウェブなるものはエンジニアリングの導入の試みだと思います。コンフォーマンスを強制する仕掛けをようやく論じられるようになったわけで。
XMLもHTMLもSGMLの派生技術なので、アドホックオントロジーというか、アリストテレス、リンネ、(十進分類の)デューイと同じ立場で試行錯誤をする自由が原理的にはすべての人に開放されているわけです。

なんて書いてあるんですね。まだいまいちぴんとこないんだけど、ちょっと意味づけを教えてもらったみたいで嬉しい。用語集を決めたら、それに従わなければならない(統制)けれど、利用者はそれにしたがっているデータだけが得られることを当てにできる(完成度)というわけね。で、その用語集作ることは、デューイやリンネなどの名前が出ているように、これは博物学なのですね。


これは面白い説なんだけど、人に紹介するときには何か引用しないと具合が悪いなあ。
やっぱしセマンティックウェブが何たるかをある程度勉強しないといかんですなあ。
ああ、また勉強すべきことばかり増えていく、ってセマンティックウェブ自体は前世紀からの宿題なんだけど。

当面の作業予定

しばらく更新が滞りました。

JCDL2005 のメモは1割くらいで、続きを書かなければいけないのだけど、私的にはそれ以前から引きずっている翻訳プロジェクトを一段落させてから臨みたいと思います。頭がパンクするです。

すぐに時間がなくなるので、また、ソフトウェア物づくりにも取り組まなくては。

論文もこちらにボールが帰ってきているし.....

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。