標本理論

第4回 リスクと責任 — 標本学における科学的誠実性

1. 序論 — 科学の信頼と標本の責務

序論 — 科学の信頼と標本の責務

標本は、単なる収蔵品ではありません。それは科学的証拠であり、分類学的判断の根拠であり、生物多様性研究の基盤です。新種の記載、既存種の再検討、分布域の確定、保全状況の評価。これらすべての科学的営みは、標本の存在と、その情報の信頼性に依存しています(Bebber et al., 2010)。

前回、技術的手段による真正性保証の可能性と限界を検討しました。DOI、電子署名、ブロックチェーン。これらの技術は確かに有用ですが、技術はあくまで道具です。道具を正しく使うかどうかは、人間の判断と倫理に委ねられています。最も精巧な検証システムも、データを作成し入力する人間が不誠実であれば、無意味です(Steneck, 2006)。

デジタル化の進展は、標本学に新たな倫理的課題をもたらしています。物理標本からデジタルデータへの重心移動は、可逆的ではありません。一度デジタル依存が定着すれば、物理標本への回帰は困難です。この不可逆的変化の中で、私たちは何を守り、何を警戒し、誰がどのような責任を負うべきなのでしょうか。

本稿では、標本デジタル化がもたらすリスクと、それに伴う科学者の責任を論じます。デジタル唯一化の危険性、改ざん・偽造の可能性、責任の所在問題。そして最終的に、科学的誠実性(scientific integrity)という根本原理に立ち返ります。

1.1. 標本依存研究の現状

まず、現代の植物学研究において、標本がどの程度利用されているかを確認します。

1.1.1. 分類学における標本の中心性

植物分類学は、標本なしには成立しません。新種記載には、タイプ標本の指定が必須です。既存種の再検討には、複数の標本館に所蔵された多数の標本を比較する必要があります。ICN(国際藻類・菌類・植物命名規約)は、標本の物理的存在と、その情報の正確性を前提として構築されています(Turland et al., 2018)。

近年の研究では、分子系統学的手法が普及し、DNA配列データが重要な役割を果たすようになりました。しかし、分子データと形態情報は相補的であり、標本の重要性は減じていません。むしろ、DNA抽出元の標本(voucher specimen)が適切に保存・管理されているかが、研究の再現性を左右します(Culley, 2013)。

1.1.2. 生態学・保全生物学における標本利用

生態学や保全生物学においても、標本は重要なデータ源です。過去の分布記録、開花時期の変遷、形態的変異の地理的パターン。これらの情報は、長期間にわたって蓄積された標本から抽出されます。特に気候変動の影響評価において、100年以上前の標本と現代の標本を比較する研究が増えています(James et al., 2018)。

1.1.3. デジタル化率と現物参照率

研究者がどの程度デジタル標本に依存しているかを概観します。GBIF やその他のデータベースから得られる統計によれば、世界の主要標本館のデジタル化率は、おおむね10〜30% 程度です。すなわち、所蔵標本の大半は、いまだにデジタル化されていません(Nelson & Ellis, 2019)。

一方で、研究論文を分析すると、近年は物理標本を直接調査せず、デジタル画像のみに基づく研究が増加しています。特に若手研究者や予算制約のある地域の研究者は、デジタルデータに依存する傾向が強いとされます。この傾向は、COVID-19 パンデミック期に標本館が閉鎖されたことで、さらに加速しました(Kissling et al., 2018)。

このような状況において、デジタルデータの質と信頼性は、研究成果の質に直結します。デジタル標本への依存が高まるほど、そのリスクも増大するのです。

2. デジタル唯一化のリスク

2.1. 現物廃棄・データのみ保存という問題

予算削減と保管スペースの制約により、一部の標本館では、標本をデジタル化した後に物理標本を廃棄するという考え方が浮上しています。特に「重複標本(duplicate specimens)」や「教育用標本」など、学術的価値が相対的に低いとされる標本が、その対象となります。

この発想の背後には、「デジタルデータがあれば十分」という前提があります。しかし、第2回で論じたように、デジタル標本は物理標本の部分的表現に過ぎません。現在の技術では記録できない情報、将来の技術によって初めて観察可能になる情報。これらは、物理標本が存在して初めてアクセス可能です(Suarez & Tsutsui, 2004)。

さらに、「学術的価値が低い」という判断自体が、現在の知識水準に基づくものです。50年後、100年後の研究者が、私たちが「重複」と見なした標本から重要な情報を発見する可能性は否定できません。過去の研究者が「価値がない」として廃棄した標本が、後に取り返しのつかない損失であったと判明した事例は、少なくありません(Bebber et al., 2010)。

2.2. 「唯一の証拠」が仮想化する危険性

より深刻なのは、タイプ標本のような唯一性を持つ標本がデジタル依存に晒されるリスクです。タイプ標本は、定義上「代替不可能」です。それが失われれば、学名の基準点は永遠に失われます。

では、タイプ標本が高精度にデジタル化され、3Dスキャンデータやマイクロ CT 画像が完備されていれば、物理標本を失っても問題ないのでしょうか。答えは「否」です。なぜなら、デジタルデータは「記録された時点の情報」しか含まないからです。将来、新たな分析技術が開発されたとき、デジタルデータではなく物理標本が必要になる可能性は常にあります。

たとえば、DNA 解析技術の発展により、1990年代には想像もされなかった古い標本からの DNA 抽出が可能になりました(Culley, 2013)。同様に、50年後には、現在は測定できない化学成分や同位体比率などが、分類学的に重要になるかもしれません。物理標本が存在しなければ、こうした技術的進展を活かすことは不可能です。

2.3. 再検証不能な科学的判断の増加

デジタルデータのみに基づく研究が増えると、第三者による再検証が困難になります。ある研究者がデジタル画像から新種を記載したとします。別の研究者がその判断を疑い、再検討しようとしても、画像からは得られない情報(質感、微細構造、匂いなど)が判断に必要な場合、検証は不可能です。

これは、科学的方法論の根幹である反証可能性(falsifiability)を損ないます(Goodstein, 2010)。反証できない主張は、科学的主張ではありません。標本データがデジタルのみに依存することは、科学の自己修正機能を弱体化させるリスクを孕んでいます。

3. 改ざん・偽造の可能性

3.1. AI 生成画像・改変データの混入リスク

生成 AI 技術の急速な発展は、標本学に新たな脅威をもたらしています。現在の画像生成 AI は、高品質な「標本写真風」画像を生成できます。訓練データに実際の標本画像が含まれていれば、実在しない種の標本を極めてリアルに「偽造」することが技術的に可能です(Frassl et al., 2018)。

偽造の動機は様々です。業績を水増しするため、特定の仮説を支持するデータを「作り出す」ため、あるいは単なる悪意や混乱目的。科学史において、データ捏造は繰り返し発生してきました(Fanelli, 2009)。デジタル技術は、その実行を容易にします。

さらに問題なのは、善意による「改善」です。たとえば、標本画像の不鮮明な部分を AI で「補完」したり、欠損した構造を「復元」したりするケースです。これらは画像の「見やすさ」を向上させますが、同時に元の情報から乖離します。この乖離が明示されなければ、利用者はそれを「実際の標本の状態」として受け取ることになります。

3.2. 真正性保証が崩れたときの連鎖的影響

主要な標本データベースに偽造データが混入し、それが長期間発見されなかった場合を想定します。その偽造データに基づいて複数の研究論文が出版され、さらにそれらを引用した論文が蓄積されます。やがて偽造が発覚したとき、その影響は連鎖的に広がります。

学名の有効性が疑われ、分類体系が揺らぎ、保全評価が誤っていたことが判明します。訂正と再検証には膨大な労力がかかり、科学への信頼は損なわれます(Steneck, 2006)。この「信頼の連鎖崩壊」は、技術的問題である以上に、社会的・制度的問題です。

3.3. 科学的不正検出の限界

従来の科学的不正(データ捏造、改ざん、盗用)は、統計的異常、再現性の欠如、矛盾する報告などから検出されることがありました(Fanelli, 2009)。しかし、高度な AI 生成データは、統計的に自然であり、矛盾のない偽データを作成できます。

前回論じた電子署名やブロックチェーンは、「データが作成後に改変されていないこと」は検証できますが、「作成時点でデータが真正であること」は検証できません。すなわち、最初から偽造されたデータに電子署名を付与すれば、それは「改変されていない偽造データ」として流通します。

究極的には、データの真正性は作成者の誠実性に依存します。技術は誠実な作成者を支援することはできますが、不誠実な作成者を完全に排除することはできません(Goodstein, 2010)。

3.4. 意図的改変と非意図的エラーの境界

3.4.1. 「補正」「復元」「予測」の問題

画像処理技術は、標本画像の「質」を向上させます。ノイズ除去、コントラスト調整、色彩補正。これらは、標本をより鮮明に見せるために行われます。しかし、どこまでが「補正」で、どこからが「改変」なのでしょうか。

たとえば、標本の一部が破損して失われている場合、AI で「復元」することは許容されるのでしょうか。復元された部分は、実際の標本には存在しない情報です。しかし、それが周囲の構造から推測される合理的な形態であれば、「科学的復元」として正当化される余地もあります。

問題は、この「推測」が明示されるかどうかです。復元部分が通常の画像と区別されずに提示されれば、利用者はそれを実際の観察結果として受け取ります。これは意図的改ざんではないかもしれませんが、結果として誤解を招く点で、科学的誠実性の問題となります(Steneck, 2006)。

3.4.2. 研究者の善意による不正

多くの科学的不正は、悪意からではなく、善意や自己欺瞞から生じます(Fanelli, 2009)。「もう少しデータがあれば、明確な結論が出せるのに」という思いが、データの選択的報告や、曖昧なデータの「解釈」を正当化します。

標本データにおいても、同様の心理が働きます。「この標本は保存状態が悪いが、おそらくこういう形態だったはずだ」という推測が、いつの間にか「観察事実」として記録される場合があります。デジタル環境では、こうした「解釈の混入」がより容易になります。物理標本を直接見ている他者によるチェックが働きにくいからです。

4. 責任の所在問題

4.1. データ作成者の責任

標本をデジタル化する作業者(digitizer)は、第一次的な責任を負います。正確な撮影、適切なメタデータの記録、品質管理。これらは、データの信頼性を左右します(James et al., 2018)。

しかし、デジタル化作業は、しばしば予算と時間の制約の下で行われます。大規模デジタル化プロジェクトでは、短期雇用のスタッフや学生が作業を担当することもあります。彼らは必ずしも分類学的専門知識を持たず、標本の重要性を十分に理解していない場合があります。データ作成者に求めるべき責任の範囲と、それを支える訓練・環境整備の体制は、機関として明確にされるべき問題です。

4.2. データ管理者の責任

標本館やデータベースの管理者(curator / repository manager)は、データの品質管理と長期保存の責任を負います。入力データの検証、エラー訂正、バックアップ体制の維持。これらは、継続的な労力と資源を要します(Hedrick et al., 2020)。

しかし、多くの標本館は慢性的な人員不足と予算不足に悩まされています。データの完全性を保証するための体制を構築する余裕がない場合、責任の所在は機関レベルから制度・政策レベルへと遡及します。データベースが技術的障害やサイバー攻撃によって損傷した場合の損失責任についても、明確な枠組みが求められます。

4.3. データ利用者の責任

研究者がデータベースから標本データをダウンロードし、それに基づいて研究を行う場合、利用者も責任を負います。データの出所を確認し、信頼性を評価し、可能であれば物理標本で検証する。これらは、科学的誠実性の基本です(Culley, 2013)。

しかし実際には、データの大量利用が常態化する中で、個々のデータの検証は困難です。機械学習研究では、数千から数万の標本画像を訓練データとして使用します。これらすべてを個別に検証することは、事実上不可能です。訓練データに誤りが含まれていた場合の研究成果の責任については、現状では明確な規範が存在しておらず、早急な議論が求められます。

4.4. システム提供者の責任

GBIF や iDigBio のような大規模プラットフォームの運営者も、一定の責任を負います。データの集約、品質フィルタリング、ユーザーへの情報提供。これらは、プラットフォームの信頼性を支えます(Nelson & Ellis, 2019)。

しかし、プラットフォームは通常、データの内容について保証しません。利用規約には「データは現状有姿で提供され、正確性は保証されない」といった免責条項が含まれます。これは法的には妥当ですが、プラットフォームが科学インフラとして機能する以上、一定の品質保証責任を負うべきかという問いは、科学政策上の重要課題です。

4.5. 責任の階層化と分散

標本データの作成から利用までには、複数の主体が関与します。責任は、これらの主体に階層的・分散的に配分されるべきです。データ作成者は作成時点での正確性に、管理者はデータの保全と更新に、利用者はデータの適切な使用と引用に、プラットフォームはデータ流通インフラの維持に、それぞれ責任を持ちます(Steneck, 2006)。

しかし、この責任分担が曖昧であることが、現状の問題です。エラーや不正が発見されたとき、「誰の責任か」が不明確であれば、問題は放置されます。標本学コミュニティ全体として、責任の明確化と、それを果たすための支援体制の構築が急務です。

5. 小結 — 科学の責任を再定義する

デジタル化は、標本学に新たなリスクをもたらしました。デジタル唯一化による物理情報の喪失、AI 技術を用いた偽造の可能性、責任の所在の曖昧化。これらは、技術的問題であると同時に、倫理的問題です。

しかし、問題の根本は技術ではなく、人間にあります。技術は中立的です。それを誠実に使うか、不誠実に使うかは、使用者の倫理観に依存します。したがって、真に必要なのは、技術的対策だけでなく、科学者コミュニティ全体の倫理的自覚と、それを支える制度的枠組みです(Goodstein, 2010)。

標本の物理的保全こそが、最終的な責任の所在です。デジタルデータがどれほど充実しても、それは物理標本の「派生物」です。物理標本が失われれば、デジタルデータの根拠も失われます。したがって、標本館はデジタル化を推進すると同時に、物理標本の保存に対する責務を決して軽視してはなりません(Suarez & Tsutsui, 2004)。

研究者もまた、物理標本への敬意を持ち続けるべきです。デジタルデータの便利さに依存するあまり、標本が「かつて生きていた個体」であり、「採集者の労苦」と「時間の蓄積」を体現する存在であることを忘れてはなりません。標本は、単なるデータソースではなく、生物多様性という現象の歴史的記録なのです(James et al., 2018)。

次回は、これまでの議論を統合し、物理標本とデジタル標本の共存モデルを提示します。両者を対立させるのではなく、それぞれの強みを活かした「二層モデル」の構想です。標本学は、過去の遺産を守るだけでなく、未来の知識基盤を構築する営みでもあります。その未来像を、最終回で描きます。

参考文献
  • Bebber, D. P., Carine, M. A., Wood, J. R., Wortley, A. H., Harris, D. J., Prance, G. T., … Scotland, R. W. (2010).Herbaria are a major frontier for species discovery.PNAS, 107(51), 22169–22171.
    https://doi.org/10.1073/pnas.1011841108
  • Culley, T. M. (2013). Why vouchers matter in botanical research.
    Applications in Plant Sciences, 1(11), 1300076.
    https://doi.org/10.3732/apps.1300076
  • Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data.PLOS ONE, 4(5), e5738.
    https://doi.org/10.1371/journal.pone.0005738
  • Frassl, M. A., Hamilton, D. P., Denfeld, B. A., de Eyto, E., Hampton, S. E., Keller, P. S., … Rinke, K. (2018).Ten simple rules for collaboratively writing a multi-authored paper.
    PLOS Computational Biology, 14(11), e1006508.
    https://doi.org/10.1371/journal.pcbi.1006508
  • Goodstein, D. (2010).On Fact and Fraud: Cautionary Tales from the Front Lines of Science.
    Princeton University Press.
  • Hedrick, B. P., Heberling, J. M., Meineke, E. K., Turner, K., Grassa, C. J., Park, D. S., … Davis, C. C. (2020).Digitization and the future of natural history collections.BioScience, 70(3), 243–251.
    https://doi.org/10.1093/biosci/biz163
  • James, S. A., Soltis, P. S., Belbin, L., Chapman, A. D., Nelson, G., Paul, D. L., & Collins, M. (2018).
    Herbarium data: Global biodiversity and societal botanical needs for novel research.
    Applications in Plant Sciences, 6(2), e1024.
    https://doi.org/10.1002/aps3.1024
  • Kissling, W. D., Ahumada, J. A., Bowser, A., Fernandez, M., Fernández, N., García, E. A., … Hardisty, A. R. (2018).Building essential biodiversity variables (EBVs) of species distribution and abundance at a global scale.Biological Reviews, 93(1), 600–625.
    https://doi.org/10.1111/brv.12359
  • Nelson, G., & Ellis, S. (2019).The history and impact of digitization and digital data mobilization on biodiversity research.Philosophical Transactions of the Royal Society B, 374(1763), 20170391.
    https://doi.org/10.1098/rstb.2017.0391
  • Steneck, N. H. (2006). Fostering integrity in research: Definitions, current knowledge, and future directions.Science and Engineering Ethics, 12(1), 53–74.
    https://doi.org/10.1007/s11948-006-0006-y
  • Suarez, A. V., & Tsutsui, N. D. (2004). The value of museum collections for research and society.
    BioScience, 54(1), 66–74.
    https://doi.org/10.1641/0006-3568(2004)054[0066:TVOMCF]2.0.CO;2
  • Turland, N. J., Wiersema, J. H., Barrie, F. R., Greuter, W., Hawksworth, D. L., Herendeen, P. S., … Smith, G. F. (Eds.). (2018).International Code of Nomenclature for algae, fungi, and plants (Shenzhen Code). Regnum Vegetabile 159. Koeltz Botanical Books.
    https://doi.org/10.12705/Code.2018