Darwin Core
Contents
Darwin Coreとは
Darwin Core (DwC) は生物多様性情報のための標準フォーマットであり、生物多様性データを共有するための項目や語彙を定義します。DwCはTDWG (Biodiversity Information Standards, formerly The International Working Group on Taxonomic Databases) によって管理されています。
これまでのOBISスキーマはSimple DwCに基づいたDwC1.2のOBIS拡張版であり、それらは列と行の組み合わせを超えるようなデータ構造を許容していませんでした。また、OBISスキーマには、当時のDwCが対応していなかった (しかし、OBISにとっては重要な) 項目が加えられていました (例えば、start and end date、start and end latitude and longitude、depth range、lifestage、terms for abundance、biomass、sample sizeなど) 。
2009年にTDWGのExecutive CommitteeはDwCのアップデートバージョンをTDWG Standardとして承認したことを公表しました。Ratified DwCは様々なコミュニティからもたらされた専門的で革新的な知見が統合されており、また、継続的な強化のためのガイドラインを備えています。Darwin Core Quick Reference GuideはTDWGの項目定義およびRatified Darwin Coreのための関係する事例にリンクしています。
2013年に、第3回OBIS運営会議は全面的にTDWG-Ratified DwCに移行することを承認しました。旧OBIS項目とDwCとの対応表はこちらです。
Darwin Core項目
DwC項目はお手持ちのデータセットの列名に相当します。すべてのDwC項目のリストはTDWGで確認できます。以下はOBISへの提供の際に、最も重要となるDwC項目の概要と、使用時におけるガイドラインです。
[注意!]現在OBISでは、8つの必須DwC項目を定めています:occurrenceID、eventDate、decimalLongitude、decimalLatitude、scientificName、scientificNameID、occurrenceStatus、basisOfRecord。
以下のDwC項目はClass Taxonに関係しています:
- scientificName
- scientificNameID
- scientificNameAuthorship
- kingdom
- taxonRank
- taxonRemarks
以下のDwC項目はClass Identificationに関係しています:
- identifiedBy
- dateIdentified
- identificationReferences
- identificationRemarks
- identificationQualifier
- typeStatus
以下のDwC項目はClass Occurrenceに関係しています:
- occurrenceID
- occurrenceStatus
- recordedBy
- individualCount (OBISは測定値をeMoFに加えること推奨しています)
- organismQuantity (OBISは測定値をeMoFに加えることを推奨しています)
- organismQuantityType (OBISは測定値をeMoFに加えることを推奨しています)
- sex (OBISは測定値をeMoFに加えることを推奨しています)
- lifeStage (OBISは測定値をeMoFに加えることを推奨しています)
- behavior
- associatedTaxa
- occurrenceRemarks
- associatedMedia
- associatedReferences
- associatedSequences
- catalogNumber
- preparations
以下のDwC項目はClass Record level に関係しています:
- basisOfRecord
- institutionCode
- collectionCode
- collectionID
- bibliographicCitation
- modified
- dataGeneralizations
以下のDwC項目はClass Locationに関係しています:
- decimalLatitude
- decimalLongitude
- coordinateUncertaintyInMeters
- geodeticDatum
- footprintWKT
- minimumDepthInMeters
- maximumDepthInMeters
- locality
- waterBody
- islandGroup
- island
- country
- locationAccordingTo
- locationRemarks
- locationID
以下のDwC項目はClass Eventに関係しています:
以下のDwC項目はClass MaterialSampleに関係しています:
- materialSampleID
Darwin Coreガイドライン
分類と同定
scientificName項目には元々記録された学名が (それがたとえ無効であったとしても) 入ります。元々記録された学名はオリジナルデータセットに遡るために必要です。その学名は、可能な限りもっとも低次な分類階級であるべきで、種以下のレベルが理想的ですが、属・科・目・綱といった高次分類群も許容されます。OBISはscientificNameには命名者を含めないことを推奨し、命名者はscientificNameAuthorshipを利用することを推奨します。
scientificName項目には同定の精度 (conferやaffinity) を含むべきではなく、それらは、IdentificationQualifierに格納されるべきです。下方の事例を参照してください。
taxonRemarksには分類群や学名に関する付記やコメントが格納することができます。
WoRMSのLSIDがscientificNameID (必須項目) に格納される必要があります。OBISはこのIDを用いて、World Register of Marine Species (WoRMS) から、シノニムや無効名に対する有効名や分類学的階級といった分類学的情報を引き出し、OBISに格納します。LSIDは永続的で、locationに依存しない、生物学的に有意なリソースにたいして固有名称を付与するための識別子です。LSIDに関する詳しい情報はwww.lsid.infoです。例えば、Solea soleaに対するWoRMS LSIDはurn:lsid:marinespecies.org:taxname:127160であり、各WoRMS分類群ページの下部で確認することができます。
例えば、Solea solea
KingdomとtaxonRankは、提供されたscientificNameがWoRMSに存在しない場合に、分類群名を同定する場合に役立ちます。特にkingdomは、提供された学名を、同一の属-種の組み合わせであるホモニムに結びつけてしまう可能性を避けるために役立ちます。kingdomとtaxonRankは正しいscientificNameIDが付与されている場合には必要ありません。
OBISは、同定がどのように実施されたのかについての情報提供を推奨します。例えば、検索表、専門家による同定 (形態学vsゲノミクス) などです。”誰が”分類学的同定を行ったのかはidentifiedByに入り、”いつ”についてはdateIdentifiedに入ります。日付と時刻に対してはISO 8601:2004 (E) 形式を用いてください。詳しくはTime項目をご確認ください。同定に用いたフィールドガイドといった参考文献のリストはidentificationReferencesに記載することが出来ます。その他の情報はidentificationRemarksに入れることが出来ます。
レコードが命名的タイプ標本を指している場合、typeStatus項目にholotype、syntypeなどが入ります。
[注意!]不確実な同定に用いられるcf.やaff.と言った修飾語はidentificationQualifier項目に入れる必要があります。
事例:
scientificName scientificNameAuthorship scientificNameID taxonRank identificationQualifier -------------- ------------------------ ----------------------------------------- ----------- ----------------------- Lanice conchilega Pallas, 1766 urn:lsid:marinespecies.org:taxname:131495 species Gadus Linnaeus, 1758 urn:lsid:marinespecies.org:taxname:125732 genus cf. morhua
出現情報
occurrenceID (必須項目) は生物出現記録の識別子であり、永続的なグローバルユニークIDである必要があります。データセットが、生物出現記録の (グローバルでユニークな) IDを有していない場合、それらを生成する必要があります。いまのところ、この永続的なIDのデザイン、 (データセットからグローバルレベルまでの) 固有性レベル、および、ID生成のためのアルゴリズムやフォーマットに関するガイドラインはありません。しかし、永続的なグローバルユニークIDがない場合は、institutionCode、collectionCode、catalogNumber (catalogNumberが無い場合は、自動生成番号) の組み合わせから生成することができます。詳しくは下記を参照してください。OBIS-ENV-DATAフォーマットのデータセットの場合もoccurrenceIDが必要ですので注意してください。
occurrenceStatus (必須項目) は、何らかの場所において何らかの生物の在/不在についての言明です。この項目は在レコードと不在レコードとを区別するために重要です。また、この項目にはpresentもしくはabsentのどちらかが入力されている必要があります。
生物量に関するいくつかの項目:organismQuantityとorganismQuantityTypeがTDWG-ratified DwCに追加されました。かつてのindividualCount項目より、より汎用性があります。しかし、OBISは、サンプリングイベントおよびサンプリング情報とそれらの測定値とを結びつけることができる項目の標準化の観点から、定量的な測定値に対してはExtended MeasurementorFact extensionを使用することを推奨しています。
[注意!]OBISは、すべての定量的測定値とサンプリング関連は、Darwin Core filesではなくextended MeasurementorFact extensionにおいて取り扱うことを推奨しています。
例えば博物館コレクションのように標本が収集され保管されている場合、catalogNumberは当該コレクションにおけるレコードの識別子として、そしてpreparationsは保存方法や処理方法を記述するために用いられます。上述のtypeStatusも同様の用途で用いられます。
associatedMedia、associatedReferences、associatedSequencesはいずれもグローバルユニークIDもしくはURIであり、それぞれ、関連するメディア (例えばオンライン画像・映像) 、関連する文献 (例えばDOI) 、遺伝子シークエンス情報 (例えばGenBANK ID) です。
associatedTaxaには出現情報に関連するIDや学名のリストが (連結され、区切られた状態で) 格納されます。例えば、当該生物の出現がコンブ (Laminaria digitata) の出現と関連している、といったような場合に使用します。
sexに対して推奨される語彙はBODC vocab : S10を、lifeStageについてはBODC vocab: S11をご確認ください。Behaviorの語彙については未整備です。
occurrenceRemarksには出現情報に関するコメントや付記を格納することができます。
recordedByにはオリジナルの出現情報に対して責任がある人、グループ、組織のリストが (連結され、区切られた状態で) 格納されます。主要な採集者・観察者、特に、個人的識別子 (recordNumber) を付与した人物が最初に記載されるべきです。
事例:
eventID scientificName occurrenceStatus organismQuantity organismQuantityType ------- ------------------ ------------------ ------------------ ---------------------- 1 Abra alba present 12 organisms 1 Pectinaria koreni present 48 organisms 2 Abra alba absent 0 organisms 2 Pectinaria koreni present 48 organisms
レコードレベルの項目
basisOfRecord (必須項目) はレコードの種類を指定します。すなわち、出現記録が、保管されている標本に基づくのか、あるいは、観察に基づくのか、などです。例えば、博物館・大学・研究機関のコレクションに含まれる標本の場合、語彙としてはPreservedSpecimen (死んでいる場合) 、FossilSpecimen (化石。これにより採集時点で死亡していたのか、標本が生きていたのかを、OBISが区別することができます) 、LivingSpecimen (計画的に保持・飼育された生きている標本。例えば、水族館や培養コレクションにおける標本) があります。標本が無い場合、basis of recordはHumanObservation (例えば、野鳥観察、計数後に遺棄したベントスサンプルなどに基づく場合) 、MachineObservation (例えば、DNAシークエンスや画像識別などの自動化センサに基づく出現情報などの場合) となります。
[注意!]basisOfRecordがpreservedSpecimen、LivingSpecimen、FossilSpecimenの場合、institutionCode、collectionCode、catalogNumberも入力してください。それらは、第三者がコレクションにアクセスし、再検討することを可能にします。加えて、ventRemarksにどのようなイベントであったのかを入力することも重要です (OBISマニュアルのeventも確認してください) 。その場合、座標精度は、野外採集イベント (すなわちin-situ) であったのか、あるいはコレクションからの情報であったのか (すなわちex-situ) を反映します。固有のmaterialSampleIDを持つ標本はin-situとex-situとに由来する複数のレコードを持ち得ます。それらは、由来の追跡や、標本素材の将来的な利用を可能にします。
institutionCode項目はデータ所有機関を識別し (そして、多くの場合頭文字表記) 、collectionCode項目は当該機関内のデータセットやコレクションを識別します。コレクションが複数の機関にまたがることは出来ません。したがって、コレクション内のレコードは全て同じinstitutionCodeを持たなくてはいけません。catalogNumberはデータセットまたはコレクション内のレコードのための識別子です。
上述したようにoccurrenceIDは、例えば、institutionCode、collectionCode、catalogNumberの組み合わせで生成できます:
institutionCode collectionCode catalogNumber occurrenceID --------------- ---------------- --------------- ---------------- UGhent NSBS 123 UGhent_NSB_123 UGhent NSBS 456 UGhent_NSB_456
bibliographicCitationにレコード単位で異なる引用表記を与えることができます。一方で、単一の引用表記をデータセット全体に対して与える場合はメタ-データに格納すべきです (EMLをご確認ください) 。レコード単位での引用表記は、本における章の引用表記になりえ、その場合、その本はデータセットの引用表記になります。レコード単位の引用表記は、データセットの引用表記より優先されます。しかし、レコード毎に異なる引用表記を生成することは推奨されません。なぜなら、多数の引用表記が爆発的に発生することになり、データの再利用を妨げることになります。
modifiedは当該リソースに変化が加えられた最新の日付-時刻です。この項目ではISO 8601:2004 (E) 表記を使用する必要があります。時刻に関する説明をご確認ください。
dataGeneralizationsは、提供されたデータが、オリジナルの状態から簡素化もしくは簡略化された場合に使用します。その場合、高品質のデータがリクエストに応じて利用可能であることを示してください。
場所情報
decimalLatitudeとdecimalLongitude (必須項目) には、対象とする場所の地理的中央点をgeodeticDatumに格納した空間参照系の緯度と経度 (ただし、度の10進表記) で格納して下さい。当該10進数はcoordinateUncertaintyInMetersに与えられた不確実性レベルに対して妥当な値でなくてはなりません (少なくとも桁の範囲内であること) 。
coordinateUncertaintyInMetersは、対象とする場所すべてを含む最小円の半径です。
decimalLongitudeに関して、正の値は北緯を表し、負の値は南緯を表します。全ての値は-90~90以内になくてはなりません。decimalLongitudeに関して、正の値はグリニッチ子午線の東、負の値は西を表します。全ての値は-180~180以内になくてはなりません。空間参照系はWGS84 (EPSG:4326) が望ましいです。くわしくはEPSG codeをご確認下さい。度/分/秒表記の座標はcoordinates toolを使って変換できます。地図上の地点・線分・ポリゴンで与えられた場所の座標を決定する、あるいは、座標が正しいのかを確認するツールもあります。このツールはジオコーディングされた地名も許容します。
出現情報の場所の名前が分かっているものの正確な座標が分からない場合、座標値を得るためにジオコーディングサービスの使用を推奨します。Marine Regionsは地名を検索することができ、座標とメートル単位の精度を返します。精度はcoordinateUncertaintyInMetersに使用できます。そのほか、Getty Thesaurus of Geographic NamesやGoogle Mapsも使用可能であり、対象となる場所を調べた後、十進数の座標値がページURL内に表示されるでしょう。場所に関する付加的な情報はDwC項目のwaterBody、islandGroup、island、countryに格納することができます。locationAccordingToには、場所の座標を得るときに用いたgazetterの名前を入れる必要があります。
場所の形状をあらわすWell-Known Text (WKT) 表記はfootprintWKTに入れる事が出来ます。これは例えば、追跡、トランゼクト、曳航、トロール、生息域の拡大、あるいは正確な場所が不明な場合に特に便利です。WKT表記はOBISのWKT toolを使って生成することが出来ます。このツールは重心と半径も計算でき、それらは、decimalLongitude、decimalLatitude、coordinateUncertaintyInMetersに格納できます。WKTポリゴンから、中心と半径を計算するR toolもあります。
WKT表記の事例:
LINESTRING (30 10, 10 30, 40 40) POLYGON ((30 10, 40 40, 20 40, 10 20, 30 10)) MULTILINESTRING ((10 10, 20 20, 10 40),(40 40, 30 30, 40 20, 30 10)) MULTIPOLYGON (((30 20, 45 40, 10 40, 30 20)),((15 5, 40 10, 10 20, 5 10, 15 5)))
minimumDepthInMetersとmaximumDepthInMetersに入力するとき、水深は当該サンプルが得られた水深であって、その場所の水柱水深ではないことに留意してください。
locationIDは場所情報のセットに対するIDです (station IDやmarineregionsからのMRGIDなど) 。例えば、Balearic PlainはMRGID:http://marineregions.org/mrgid/3956となります。
イベント
eventIDはサンプリングイベントや観察イベントに対する識別子です。parentEventIDは上位イベントに対する識別子で、一つもしくは複数のサブサンプリングイベント (eventID) を持ちます。eventIDは繰り返して得られるサンプルやサブサンプルに対して使用されます。ただし、繰り返して得られるサンプルそれぞれに固有のeventIDが付与されていること、そして、それらはあなたのデータセットにおける固有のサンプルID (それらはmaterialSampleIDにも記録することができます) に基づいていることを確認して下さい。OBISでは“eventID”と“materialSampleID”とを区別する必要はありません。むしろOBISはそれら二つの項目を同一のものとして扱います。それぞれの場所や時間における実態のあるサンプルもしくはサブサンプルに対するユニークサンプルIDは、サンプルのトレーサビリティおよびデータの出自にとって非常に推奨される情報です。eventRemarksは航海・エクスペディション・調査船・調査地点・サンプル・サブサンプルなどに関する情報を保持することが出来ます。しかし、航海・エクスペディション・調査船・調査地点などの名称はMeasurementorFact Extensionに格納すべきです。Adding the event type in eventRemarksにイベントの種類を入れ、下位イベントのeventIDにparentEventIDを繰り返して使用することで、データセットの構造を理解しやすくなるでしょう (その場合、”:”を区切り文字として使って下さい) 。詳しくはDe Pooter et al. (2017) の、複雑なベントスデータセットにおけるイベントの階層構造についての事例を参照して下さい。
habitatはイベントが生じた場所の記述もしくはカテゴリーです (例えば、海山、熱水噴出口、海草、岩礁、潮間帯、沈船など) 。
事例:
parentEventID eventID eventRemarks -------------- ------------------------ ------------ Cruise-X cruise Cruise-X Cruise-X:Station-A station Station-A Cruise-X:Station-A:01 sample Station-A:01 Cruise-X:Station-A:01:aa subsample Station-A:01 Cruise-X:Station-A:01:ab subsample Station-A Cruise-X:Station-A:02 sample
時間
出現情報が記録された時の日付および時刻はeventDateに格納されます。この項目はISO 8601規格が用いられます。OBIS はハイフン”-”を使用するextended ISO 8601形式を推奨します。
ISO 8601 datesは異なる解像度での時間モーメントを表現することができますし、期間を表現することもできます。期間の場合は区切り文字として/を使用して下さい。日付と時刻の間には区切り文字Tが入ります。時間はタイムゾーンが末尾につく可能性がありますが、それらが無い場合、その時刻はlocal timeであると推測されます。時間がUTCの場合はZが加えられます。ISO 8601 datesのいくつかの事例は下記です:
1973-02-28T15:25:00 2005-08-31T12:11+12 1993-01-26T04:39+12/1993-01-26T05:48+12 2008-04-25T09:53 1948-09-13 1993-01/02 1993-01 1993
年、月、日に加えて、ISO 8601はordinal dates (年および年における日数) とweek dates (年、週、およびその週の日数) もサポートしています。それらの日付はあまり一般的では無く、YYYY-DDD
(たとえば、2015-023) やYYYY-Www-D (例えば、2014-W26-3) の形式です。
ISO 8601 durationsは使用すべきでありません。
サンプリング
sampleSizeValueとsampleSizeUnitに関する情報は、生物量が特定されているときに、とても重要です。推奨されるもっとも良い方法としては、sampleSizeUnitに対して、SI単位を使用する、もしくは、SI単位とともに使用することが認められているnon-SI単位を使用することです。例えば、litre・square metre・cubic centimetreです。
しかしながら、サンプリング面積や容量の情報を格納する場合、sampleSizeだけではそのサンプルを解釈するには十分ではない場合があるため、拡張されたMeasurementorFact (eMoF) のほうがより適しています。例えば、プランクトンネットの曳網の場合、ネットを通過する水の体積が重要になります。ニスキンボトルの場合、ボトル内の実際の水量よりも濾された水量がより重要です。これらの事例だけでなく、一般的に全てのプロトコルのサンプリング努力を記述する場合において、eMoFはパラメータ定義を柔軟にし、複数パラメータをとおしてサンプル全体や全体処理が記述可能になります。eMoFによって、データ提供者が使用している項目を、統一化された語彙へと標準化することもできます。
次の章Ecological Metadata Languageでは、メタデータ (データセットの説明) を取り扱います。