探索多模态基础AI和专家参与模式在土著河流野生鲑鱼渔业可持续管理中的应用

Paper易论

1237人浏览 · 2025-05-14 07:34:14

Paper易论 · 2025-05-14 07:34:14 发布

Chi Xu ${ }^{1}$ , Yili Jin ${ }^{1,2}$ , Sami Ma ${ }^{1}$ , Rongsheng Qian ${ }^{1}$ , Hao Fang ${ }^{1}$ , Jiangchuan Liu ${ }^{1}$ , Xue Liu ${ }^{2}$ , Edith C.H. Ngai ${ }^{3}$ , William I. Atlas ${ }^{4}$ , Katrina M. Connors ${ }^{5}$ , Mark A. Spoljaric ${ }^{6}$
${ }^{1}$ Simon Fraser University, Vancouver, Canada ${ }^{2}$ McGill University, Montréal, Canada
${ }^{3}$ The University of Hong Kong, Hong Kong, China ${ }^{4}$ Wild Salmon Center, Portland, USA
${ }^{5}$ Pacific Salmon Foundation, Vancouver, Canada ${ }^{6}$ Haida Fisheries Program, Skidegate, Canada

chix@sfu.ca, yili.jin@mail.mcgill.ca, {masamim, rqa4, fanghaof, jcliu}@sfu.ca, xueliu@cs.mcgill.ca, chngai@eee.hku.hk, watlas@wildsalmoncenter.org, kconnors@psf.ca, mark.spoljaric@haidanation.com

摘要

野生鲑鱼对北太平洋沿岸的生态、经济和文化可持续性至关重要。然而，气候变化、栖息地丧失以及缺乏基础设施支持的偏远生态系统中的数据限制，为有效的渔业管理带来了重大挑战。本项目探讨了将多模态基础AI与专家参与框架相结合，以增强太平洋西北地区土著河流中野生鲑鱼监测和可持续渔业管理的方法。通过利用基于视频和声呐的监测技术，我们开发了AI驱动的工具，用于自动物种识别、计数和长度测量，减少了人工工作量，加快了结果交付，并提高了决策准确性。专家验证和主动学习框架确保了生态相关性，同时减少了标注负担。为应对独特的技术和社会挑战，我们将来自大学研究人员、渔业生物学家、土著资源管理从业者、政府机构和保护组织的跨领域、跨学科团队汇聚在一起。通过这些合作，我们的研究促进了合乎伦理的AI共同开发、开放数据共享和基于文化的渔业管理。

1 问题陈述

野生鲑鱼是北太平洋沿岸社会生态系统的组成部分。超过一万年来，它们支持着繁荣的渔业 [Yoshiyama, 1999; Carothers et al., 2021]，维持当地经济、丰富文化和保持生态平衡 [Walsh et al., 2020; Economies, 2021]。然而，由气候变化引发的快速环境变化正在威胁鲑鱼生态系统的弹性 [Waples et al., 2008; Di Lorenzo and Mantua, 2016; Frölicher and Laufkötter, 2018]。在其分布范围内，野生鲑鱼种群显著下降，返回数量变得越来越不可预测 [Kilduff et al., 2015; Dorner et al., 2018]。这些下降对鲑鱼的长期可持续性和依赖它们的社区（如土著居民）构成了重大威胁 [Atlas et al., 2021]。

维持鲑鱼渔业进一步受到混合种群渔业的影响，这种渔业不分青红皂白地捕捞共迁移的种群 [Walters et al., 2008; Moore et al., 2021]，以及在太平洋西北部偏远无路地区的高成本和物流挑战 [Price et al., 2017]。这些挑战催生了对适应性AI模型和系统的需求，以支持季节内管理和针对健康种群的选择性终端渔业 [Atlas et al., 2021]。这样的AI模型和系统可以通过鲑鱼丰度周期来增强生态系统弹性和生产力，即使在气候变化的情况下也能实现 [Schindler and Hilborn, 2015]。

将计算机视觉和人工智能整合到鲑鱼监测中的初步努力集中在基于视频的围栏系统上，旨在加速季节内的鱼类计数 [Atlas et al., 2023]，这一过程传统上需要大量的手动工作。早期方法利用了水下RGB相机；然而，由于视觉清晰度和环境变化的限制，需要替代传感方式。声呐监测作为一种可行解决方案出现，例如Caltech的CFC数据集 [Kay et al., 2022] 引入了声呐视频中的鱼类检测、跟踪和计数。与专注于城市环境的传统多目标跟踪（MOT）数据集不同，CFC突出了低信噪比水下环境中领域泛化的挑战 [Kay et al., 2024]。SALINA [Xu et al., 2024] 进一步扩展了这些努力，通过基于Transformer的模型和节能部署实现了实时声呐分析，支持在土著领土内的偏远生态系统中的可持续渔业管理。

尽管取得了这些进展，新的挑战和机遇仍然存在。超越基本的鱼类对象检测，有必要将渔业管理模型和预测与基于运动的计数、长度测量和AI辅助决策集成起来。结合

图1：(a) Koeye河（海利斯克第一民族的传统领地，不列颠哥伦比亚北部）上的鲑鱼计数围栏，有鲑鱼游过鱼道，(b) 带有鲑鱼出现的样本水下视频帧，© 物体分割及物种识别。

图2：(a) 安装的ARIS声呐相机，(b) 在Haida Nation传统领地的Yakoun河部署声呐，© ARIS声呐样本帧，(d) 声呐帧中的鲑鱼检测和跟踪。
新开发的视觉基础模型 [Achiam et al., 2023; Liu et al., 2024a] 也有助于提高性能并生成及时和准确的见解。

为了有效部署AI系统，确保可靠的数据捕获、足够的能源可用性和长期稳定运行至关重要。然而，太平洋西北部偏远森林缺乏基本基础设施使得部署特别具有挑战性 [Ma et al., 2024]。因此，将土著资源管理从业者的专业知识和渔业生物学家的知识结合起来，对于增强系统的弹性和适用性变得更加关键。此外，专家参与框架和跨多种传感模式的交叉参考有望提高准确性、稳健性和可持续渔业管理的可操作见解 [Wu et al., 2022]。

为满足这一需求，我们创建了一个跨学科协作团队，应用多模态基础AI并共同开发专家参与框架，用于：(1) 从鲑鱼计数围栏生成的视频中自动识别和计数鲑鱼物种，以及 (2) 从河流声呐相机单元中自动跟踪、计数和测量长度。如图1和图2所示，这两个领域是互补的：基于视频的分析可以提供通过固定位置的物种数量的精确估计，而基于声呐的技术可以在不需要建造特殊用途围栏和鱼道的情况下监测整个河流宽度上的鲑鱼。

该项目的一个关键目标是促进大学研究人员、保护实践者和在其领地中负责野生鲑鱼种群管理的土著社区之间的合作。多模态数据分析可以提高我们集体检测、识别和分析鲑鱼视频的能力，并增进对不同鲑鱼物种行为和活动的理解，例如产卵时间、数量和年际变化。这些见解将有助于更广泛的目标，即保护和保存鲑鱼，并理解影响这些重要物种健康的复杂且相互关联的因素。此外，数据驱动的鱼类通道改进和栖息地恢复可以解决生物多样性丧失和生态系统退化的问题。

2 与可持续发展目标和LNOB原则的一致性

2030年可持续发展议程概述了17个目标，以促进全球繁荣、平等和可持续性。一个核心原则“不让任何人掉队”（LNOB）坚持所有社区，特别是弱势群体，都能从发展努力中受益的承诺。野生动物保护在可持续性中起着至关重要的作用，影响着生态系统和人类生计 [Liu et al., 2024b; Gordon et al., 2023; Kshitiz et al., 2023]。这项研究强调野生鲑鱼的监测、管理和保护，与以下可持续发展目标（SDGs）一致。

SDG 14: 海洋生命。用于监测和保护野生鲑鱼的多模态基础AI与SDG 14.2（保护和恢复生态系统）一致，支持栖息地保护和生态系统弹性。同时，它通过实现可持续渔业管理和帮助保护海洋生物多样性，为SDG 14.4（规范捕捞并结束过度捕捞）做出贡献。

SDG 15: 陆地生命。野生鲑鱼维持着水生和陆地生态系统。它们的迁徙将营养物质转移到森林和野生动物中。种群下降会扰乱

提示：识别此视频帧中的鱼并解释得出结论的特征。

视觉语言模型：这是一条处于产卵阶段的红鲑鱼。你可以通过深红色的身体和灰绿色/绿色的头部（而不是明显的垂直条纹或大量斑点），这是红鲑鱼成熟并进入淡水产卵时的特征来判断。

提示：为什么不是帝王鲑？
视觉语言模型：因为帝王鲑鱼（特别是在产卵阶段）通常在背部和尾鳍的两个叶上有黑斑，以及黑色的牙龈线，而这里没有明显的迹象。相反，这条鱼表现出典型的深红色身体和淡色头部，这是产卵阶段红鲑鱼的特征。

图3：现成的视觉语言模型（例如OpenAI o1）可以识别一些情况，但也可能出错，因此需要进一步完善。
这些循环，影响如熊和鹰等物种。本项目中的管理和保护工作，如数据驱动的鱼类通道改进和栖息地恢复，解决了陆地和内陆淡水生态系统的生物多样性丧失和退化问题（与SDGs 15.1和15.4一致）。

SDG 17: 目标合作伙伴关系。可持续的鲑鱼保护需要与政府机构、土著权利持有者和多元利益相关者合作。在本项目中，我们的跨学科团队包括土著社区、大学研究人员、保护组织和行业合作伙伴。将土著知识与现代技术（如AI驱动的监测）相结合，增强了保护策略和基于文化的方法。这些努力与SDG 17.16（通过知识和资源共享加强伙伴关系）和SDG 17.17（鼓励多方利益相关者合作）一致。

与LNOB一致。野生鲑鱼对土著文化、经济和粮食安全至关重要，但种群下降加剧了粮食不安全和经济困难。LNOB通过承认土著社区作为管理当地鲑鱼种群的关键决策者，推动公平的保护努力，加强共同治理和长期渔业准入。AI驱动的监测增强了数据收集和渔业管理，为生态系统保护做出了贡献。当与传统的土著知识结合时，AI支持更符合文化的政策、可持续努力和土著主权保护。

3 策略和方法

3.1 多模态基础AI用于鲑鱼监测

野生鲑鱼监测需要准确的物种识别、计数和长度测量。基于视频和

提示：识别此视频帧中的鱼并解释得出结论的特征。

视觉语言模型：可能是帝王鲑（国王鲑）。其大而强壮的身体、银青铜色的外观以及深色下巴是帝王鲑的特征。早夏的时间也与典型的帝王鲑迁徙吻合。

专家评论：这是一条红鲑鱼，而不是帝王鲑。红鲑鱼的背部和尾巴上没有黑斑，而且牙龈较紧（白色），而帝王鲑通常显示小黑斑（尤其是在尾巴上）并且牙龈呈黑色。

基于声呐的方法各有互补优势，但每种方法都面临独特的挑战。在本项目中，我们探索多模态基础AI以提高模型准确性、减少标注负担并增强AI解释性。

在鲑鱼计数围栏处进行基于视频的监测，使用水下RGB相机捕捉详细的视觉特征，但遮挡、环境变化和数据不平衡会影响准确性 [Khan et al., 2023]。鲑鱼经常在密集聚集时重叠，使单摄像头检测不可靠。为此，我们利用多视图融合技术，其中不同角度同步的摄像头或光学镜子提供互补视角。这种方法揭示了被遮挡的鱼对象及其轨迹。物种识别还受到数据偏差的影响，特别是当稀有物种代表性不足时。我们应用数据增强技术，如合成图像生成和类别平衡采样 [Cui et al., 2019] 来缓解数据集不平衡。

对于视频中低置信度的鲑鱼检测和分类，我们利用预训练的视觉语言模型（例如LLaVA [Liu et al., 2024a], gpt-4o [Zhong et al., 2024], 和 OpenAI o1 [OpenAI, 2024]），生成自然语言描述和物种识别。如图3所示，虽然现成的视觉语言模型可以识别某些情况，但与渔业生物学家的专业反馈相比，也会产生错误。因此，专家验证是进一步细化模型预测所必需的。我们在注释此特定任务时发现的另一个问题是，缺乏经验的注释员进一步引入了标签错误，从而降低了模型可靠性。为提高注释质量和模型可解释性，我们还将视觉语言模型集成到注释阶段，帮助最小化错误。

在河流中进行基于声呐的监测，能够在浑浊环境中实现鲑鱼检测、跟踪和计数，但面临噪声减少、时空建模和

图4：该项目支持加拿大不列颠哥伦比亚省多个土著河流中的SalmonVision和选择性渔业。
跨模态集成 [Xu et al., 2024] 的挑战。声呐数据由于水湍流和反射等环境因素含有大量背景噪声。在本项目中，我们采用基于深度学习的去噪模型 [Garber and Tirer, 2024; Chihaoui and Favaro, 2024] 对声呐数据集进行训练以提高信号清晰度。现有的基于声呐的跟踪系统在假阳性率和时间一致性方面存在问题。为提高帧间鲑鱼跟踪性能，我们使用基于Transformer的架构纳入时空特征，将在实施计划（第4.3节）中进一步介绍。值得注意的是，单独的声呐帧缺乏物种级分辨率，限制了分类准确性。为解决这一问题，我们在两者都可用时同步声呐和视频数据，通过早期融合技术整合特征。通过将空间和时间线索与多模态输入对齐，我们的方法提高了跟踪和计数性能。

3.2 可扩展性和用户中心框架设计

可扩展性和实时性能对于在不同土著河流中部署AI驱动的监测系统以生成季节内渔业管理见解至关重要。视频和声呐数据流会产生大量高维数据，需要高效的处理管道。太平洋西北部偏远森林中有限的电力、计算资源和网络连接进一步加剧了挑战 [Xu et al., 2024]。为此，我们实施了一种混合边缘云架构，轻量级模型在边缘设备上执行初始检测，减少计算需求和传输成本。更复杂的任务，如细粒度物种分类和异常检测，则卸载到云服务器。这种任务卸载保持计算效率而不牺牲准确性。为进一步提高模型适应性，我们纳入了持续学习机制，根据多年数据更新模型参数，同时保留先前学习的模式。

总之，我们的框架设计实现在现场进行AI推理，同时保持远程访问以供不同利益相关者使用。基于边缘的计算允许在监测站点立即进行鱼类检测和跟踪，即使在互联网连接有限的位置也是如此。同时，云集成支持大规模数据存储、远程模型更新和处理数据的协作访问。我们还探索联邦学习 [Liu et al., 2020]，通过无需直接在监测站点之间传输数据来增强隐私和土著数据主权，从而实现模型改进。

AI驱动的监测工具的采用还取决于易用性。我们设计了一个用户友好的应用程序界面，使土著渔业生物学家能够以最少的技术知识访问实时AI生成的见解。标准化的硬件和软件集成支持在土著领土内的不同监测地点无缝部署，如图4所示。为进一步促进可访问性，我们提供开源文档和培训资源，使渔业从业者能够在没有专门AI知识的情况下部署和维护系统。通过将可扩展计算解决方案与直观设计相结合，我们创建了一个适应性强且包容的监测框架，将渔业专家纳入其中。

3.3 合作与开放数据以实现有效的渔业管理

有效的渔业管理需要透明的数据共享、跨部门合作和适应性决策。我们致力于开源数据集和模型，鼓励AI和渔业研究社区的创新。通过与政府机构、土著群体和保护组织合作，我们力求制定既科学严谨又文化知情的监测策略。

将多模态基础AI、实时监测系统和专家参与框架相结合，我们使渔业管理从受限于数据或依赖不可靠的季前预测转变为适应性季内决策。这种转变使渔业专家和管理者能够动态响应不断变化的环境条件，改善保护成果并在适当情况下增加渔业机会。我们的研究成果将通过AI和渔业社区的同行评审会议和期刊发布。此外，我们将发布开放获取的代码库 ${ }^{1}$ 以最大化可访问性和影响。通过技术创新和协作伙伴关系，我们建立了一个适应性强、数据驱动的框架，用于可持续管理野生鲑鱼渔业。

4 实施计划

4.1 鲑鱼监测的专家参与AI

基于我们之前的工作，我们开发了SalmonVision网页应用 ${ }^{2}$ ，该应用允许用户主导对鲑鱼检测和分类结果的数据审查和注释，这些结果是在边缘生成的。该项目在此基础上进一步探索多模态基础AI，将视频和声呐数据转化为鲑鱼监测的可操作见解，同时强调人类专业知识在环中的关键作用。我们目前正开发SalmonVision网页应用，

${ }^{1}$ https://github.com/Salmon-Computer-Vision
${ }^{2}$ https://salmonvision.org/

图5：视觉语言模型验证和细化。
以包括以下功能：1）从土著领土内的不同监测站点收集的数据使用先进的AI模型进行处理，这些模型能够整合多种模态，2）通过专家的多模态输入（包括点注释、边界框和文本提示）进一步细化AI生成的输出（检测、计数和物种分类）。

AI-人类协作工作流程确保专家知识贯穿整个过程。渔业专家通过验证和增强注释以及AI生成的输出，贡献其领域的专业知识，创建丰富的标记帧数据集以细化AI模型。这一迭代过程增强了AI模型在现实世界条件下泛化和可靠运行的能力，使其更好地适应每个土著领土内站点的独特环境特征。一旦细化完成，AI模型将在安装在监测站点的边缘计算系统上更新。这些系统自主运行以实时分析传入数据，但整个过程仍牢牢依靠人类监督。渔业从业者在整个监测季节提供持续的反馈和技术支持，以支持系统的连续运行和数据准确性。

4.2 视频基础的鲑鱼检测、分类和计数

现有系统在我们的鲑鱼计数围栏中使用单模态模型如YOLO [Wang et al., 2024] 和 RT-DETR [Zhao et al., 2024] 进行鲑鱼检测、分类和计数。尽管这些模型达到了合理的性能，但在涉及遮挡、光线不佳或稀有物种的情况下表现不佳，因为它们仅依赖于视觉特征。误分类和低置信度检测引入了错误，需要大量的手动验证。为解决这些问题，我们引入了一个视觉语言模型（VLM），以增强可解释性并整合额外的模态，从而提高检测和分类准确性以及专家审查效率。

如图5所示，我们的实施利用VLM来细化基础检测和分类模型置信度

图6：声呐帧的传统预处理。
分数较低的低置信度案例。VLM不仅依赖像素特征，还生成描述性的文本解释其预测，提供可解释的分类决策见解。这一过程可能涉及提示工程，以指导模型处理特定挑战，例如区分视觉相似的物种。当不确定性仍然较高时，文本解释和相应的视频帧都会被标记以供专家审查。通过结合人类专业知识与模型驱动的推理，我们促进误分类的纠正及其纳入模型的持续学习过程中。

随着专家审查的帧积累，经过改进的VLM逐步提高其性能，随着时间推移减少对人工验证的依赖。系统从半自动化工作流程转向AI驱动的基础模型，最终可以取代单模态方法。这种转变通过减少人为干预提高了鱼类监测的可扩展性和准确性。

4.3 基于声呐的监测

当前土著河流中的声呐监测系统依赖于传统预处理技术来增强图像质量以供专家审查和AI推理，如图6所示。然而，这些预处理方法常常引入帧失真和特征丢失，降低下游任务（如鲑鱼检测、跟踪、计数和长度测量）的性能。为解决这些挑战，我们建议适应SAM2 [Ravi et al., 2024]，这是一种最近发布的基础模型，适用于包含声呐帧和声呐图在内的多模态下游任务。如图7所示，声呐图是一种声呐返回的时间序列可视化，表示声学信号如何与水下物体和河床随时间交互。声呐图作为关键的多模态

图7：声呐帧和声呐图，作为两种不同的模态。

图8：声呐域的多模态基础模型。
输入，向适应的基础模型提供空间和时间信息。通过整合声呐图和声呐帧，我们提高了对噪声的鲁棒性并增强了下游任务的性能。

我们的实施第一阶段集中于整合多模态数据以改进表示学习。声呐帧和声呐图融合以创建更全面的输入表示。为抑制噪声同时保留关键信息，我们采用轻量级基础模型如CLIP [Radford et al., 2021] 将声呐帧和声呐图编码为令牌表示。与传统去噪技术不同，这种方法减少伪影并防止关键细节丢失。

第二阶段重点在于适应模型到声呐特定任务并通过微调提高性能。准备了一个带有鲑鱼出现、位置和长度估计的标注声呐帧和声呐图数据集用于训练。

我们应用迁移学习到适应的SAM2，冻结早期层同时微调后期层以适应声呐数据。如图8所示，声呐帧和声呐图通过独立编码器处理，促进有效的多模态整合。提取的特征通过注意力机制融合，当可用时将专家评论作为附加输入。这种结构化融合方法增强了模型在不同噪声和环境条件下的泛化能力，提高了其对真实声呐数据的适应性。

对于鲑鱼检测，适应的SAM2生成分割掩码或边界框，通过非最大值抑制（NMS）优化以去除冗余预测。跟踪和计数使用DeepSORT [Wojke et al., 2017] 执行，该算法结合运动和外观特征以确保跨帧稳定对象关联。中心线提取使用骨架化算法进行，优化鱼轮廓以改进结构分析。长度测量通过基于注意力的特征重新排列实现，提取的特征通过已知缩放因子映射到真实世界指标。这种方法通过利用声呐帧和声呐图信号，在具有挑战性的水下环境中确保鲑鱼种群的稳健和准确分析。

5 评估标准

5.1 视频基础的鲑鱼物种识别和计数

对于物种识别，我们使用平均精度均值在IoU 0.5（mAP@50）和F1得分 [Goodfellow, 2016] 评估多类分类性能。这些指标评估了精确度和召回率，具有跨不同物种的稳健性。我们将增强VLM的识别结果与单一模态模型如YOLO [Wang et al., 2024] 和RT-DETR [Zhao et al., 2024] 的基线性能进行比较，衡量分类性能的改进。对于鱼类计数，我们使用平均绝对百分比误差（MAPE）和F1得分评估总计数准确性，这代表在密集和遮挡场景中的可靠枚举。我们的方法与基于检测的计数模型进行基准测试，改进通过精确度和计算效率两方面进行评估。我们还将VLM增强的物种计数与专家审查的物种计数进行比较，以提供关于VLM增强鲑鱼计数在实际部署中的洞察。

5.2 基于声呐的鲑鱼监测

对于基于声呐的鲑鱼检测性能，我们也报告mAP@50和mAP@50:75，后者进一步捕捉了不同IoU阈值下的精确度-召回率权衡。这些指标量化了我们多模态方法在处理声呐特定挑战（如大量噪声和低对比度）方面的有效性。我们与传统的轮廓法和最先进的基线进行比较，包括CFC-YOLO [Kay et al., 2022]、RT-DETR [Zhao et al., 2024] 和STSVT [Xu et al., 2024]。

对于跟踪评估，我们采用多目标跟踪准确率（MOTA [Bernardin and Stiefelhagen, 2008]）、高阶跟踪准确率（HOTA [Luiten et al., 2021]）和IDF1 [Ristani et al., 2016] 作为基准。MOTA量化了漏检、假阳性和身份切换之间的权衡，而HOTA则结合了时间一致性和对象关联。IDF1评估了长时间内保持对象身份一致的准确性。对于鱼类计数，我们使用平均绝对误差（MAE）和均方根误差（RMSE）评估数值准确性，并将模型与专家计数进行比较。对于鱼类长度估算，我们应用类似的MAE和RMSE指标来测量模型预测长度与手动测量长度之间的偏差。评估还针对专家审查的声呐数据进行，以验证其
在实际部署中的可靠性。这些评估标准确保对我们适应的多模态基础模型性能进行严格的评估，验证其在实时渔业管理中的有效性，并允许针对特定土著领土内的站点进行优化调整。

6 预期结果和影响

具有多模态输入的多样化基础模型正在以前所未有的速度改变社会；然而，这些AI模型很少与当地或土著社区共同开发。在这个项目中，我们与北太平洋沿岸的土著社区、政府机构和保护实践者共同开发AI模型。我们的工作旨在为渔业管理和保护创造持久的利益，同时支持公平的共同治理，赋予社区作为决策者和本地鲑鱼种群守护者的权力。

在整个太平洋西北部，仍有数千个适应本地的野生鲑鱼种群未被监测，尽管它们在正在进行的海洋和淡水生态系统渔业中积极被瞄准。在一个前所未有的快速气候变化时代，我们的工作通过整合多模态基础AI、实时监测和专家验证，推动渔业管理的发展，实现适应性、数据驱动的决策。提高鱼类种群评估的准确性将加强保护策略，为之前数据有限的种群建立管理基准，同时减轻过度捕捞风险并支持可持续收获机会。

开源我们的数据集和模型将加速研究和创新，促进AI、渔业科学和保护社区之间的合作。我们的跨领域、跨学科团队将确保监测策略既科学严谨又文化相关，使研究转化为可行动的渔业管理成果。通过从季前预测转向适应性季内管理，该项目将在日益动态的环境中为野生鲑鱼渔业的可持续管理提供弹性、响应式工具。

7 假设和风险

将多模态基础AI应用于野生鲑鱼监测和渔业管理是一个新兴领域，带来固有风险。特别是，此类AI模型在不同站点进行自动检测、跟踪、计数和长度测量的性能仍不确定，需要多次训练和测试才能达到渔业管理标准。然而，我们在Yakoun River的初步结果表明，自动模型分析不仅是可行的，而且对于高效审查多模态数据至关重要。为减轻这些风险，我们通过多轮数据注释、模型训练、测试、专家验证和改进来迭代提高性能。

此外，考虑与土著社区合作的数据所有权和AI相关风险对
多模态基础AI的合乎道德的共同开发至关重要。为解决这些问题，我们采用迭代共同开发过程，通过该过程，合作的第一民族定期收到更新，提供对研究成果和工具开发的意见，并解决他们的关注。我们与每个土著社区之间建立了数据共享协议，保护他们对原始数据输出的所有权，同时允许访问标记数据以进行模型训练和开放研究。社区保留退出这些协议并从开源存储库中删除其数据的权利，不过到目前为止这尚未成为一个问题。

项目团队描述

徐驰

博士研究生，西蒙弗雷泽大学，加拿大
徐驰目前正在加拿大西蒙弗雷泽大学攻读计算机科学博士学位。他的研究重点是多模态数据感知、管理和分析，涵盖AIoT和网络系统领域。

金一立

博士研究生，麦吉尔大学，加拿大
金一立是麦吉尔大学计算机科学专业的博士研究生，目前是西蒙弗雷泽大学的访问学者。他的研究兴趣包括多媒体系统和通信，重点关注社会公益应用。

马萨米

博士研究生，西蒙弗雷泽大学，加拿大
马萨米于2019年在加拿大西蒙弗雷泽大学伯纳比分校获得计算科学荣誉理学士学位，目前在那里攻读计算科学博士学位。他的研究兴趣包括低地球轨道卫星网络、互联网架构和协议、深度学习和计算机视觉。

钱荣盛

硕士研究生，西蒙弗雷泽大学，加拿大
钱荣盛于2023年在加拿大西蒙弗雷泽大学伯纳比分校获得计算科学理学士学位。他目前在同一机构攻读计算科学硕士学位。他的研究兴趣包括深度学习和计算机视觉。

方浩

博士研究生，西蒙弗雷泽大学，加拿大
方浩于2022年在加拿大西蒙弗雷泽大学伯纳比分校获得计算科学荣誉理学士学位，目前在那里攻读计算科学博士学位。他的研究兴趣包括卫星通信和网络，特别是多媒体系统。

刘江川教授

教授，西蒙弗雷泽大学，加拿大
刘江川教授目前是加拿大西蒙弗雷泽大学的教授。他是IEEE和加拿大工程院院士。他曾担任《IEEE/ACM Transactions on Networking》、《IEEE Transactions on Multimedia》、《IEEE Communications Surveys and Tutorials》和《IEEE Internet of Things Journal》的编委会成员。他还曾是《IEEE Transactions on Mobile Computing》的指导委员会成员和《IEEE/ACM IWQoS》的指导委员会主席。他是2021年IEEE INFOCOM的TPC联合主席和2024年INFOCOM的大会联合主席。

刘雪教授

教授，麦吉尔大学，加拿大
刘雪教授是麦吉尔大学的全职教授和William Dawson学者，并在数学与统计系担任兼职教授。她还是穆罕默德·本·扎耶德人工智能大学（MBZUAI）的研究副校长。除了学术成就外，刘教授还在业界担任重要角色，开发创新研究和技术，并将其与实际应用相结合。值得一提的是，从2019年到2024年，她是三星AI中心蒙特利尔分部的研发副总裁、首席科学家和联席主任。从2016年到2019年，她担任Tinder Inc.的首席科学家。刘教授是IEEE和加拿大工程院的院士。

蔡伊迪教授

副教授，香港大学，中国
蔡教授目前是香港大学电机电子工程系的副教授。她的研究兴趣包括物联网、边缘智能、智慧城市和智慧健康。她于2009年获得了瑞典政府VINNOVA颁发的VINNMER奖学金。她曾是《IEEE Internet of Things Journal》的区域编辑（2020年至2022年）。她目前是《IEEE Transactions of Mobile Computing》、《IEEE Transactions of Industrial Informatics》、《Ad Hoc Networks》和《Computer Networks》的副主编。她曾在2015年的IEEE ISSNIP、2022年的IEEE GreenCom和2024年的IEEE/ACM IWQoS中担任程序主席。她在2022年获得了Meta亚太区政策研究奖。她被选为2022年的 $N2\mathrm{N}^2$ 计算机网络和通信女性明星之一。

阿特拉斯威廉博士

鲑鱼流域科学家，Wild Salmon Center，美国
阿特拉斯博士是Wild Salmon Center (WSC)的鲑鱼流域科学家。在2020年加入WSC之前，他与中央海岸第一民族(CCFN)合作了十年，作为一名研究生和专业人员共同开发社区为基础的鲑鱼科学，并作为太平洋鲑鱼基金会(PSF)的博士后领导了中央海岸监测框架的开发。此外，他担任PSC北方小组的中央海岸代表，是PSC第一民族协商委员会的活跃成员，定期向社区领导汇报并为CCFN参与双边管理会议提供战略支持。

康纳斯凯特琳博士

鲑鱼流域计划总监，太平洋鲑鱼基金会（PSF），加拿大
康纳斯博士是PSF鲑鱼流域计划的创始总监，这是一个在太平洋鲑鱼保护和管理问题上从事科学与政策接口工作的保护科学倡议。凯特琳拥有超过19年的经验，领导合作研究计划，以改善我们对太平洋鲑鱼种群状况和趋势以及其淡水栖息地累积压力的理解。凯特琳也是加拿大太平洋鲑鱼委员会（PSC）的委员。凯特琳成功监督了几项主要的合作资助项目的顺利实施，包括由沿海恢复基金和BCSRIF提供的资金，以扩大太平洋鲑鱼探索者在不列颠哥伦比亚省所有鲑鱼承载流域的发展。

斯波尔雅里克马克博士

哈伊达渔业计划项目生物学家，加拿大马克·A·斯波尔雅里克是一位拥有十多年经验的渔业生物学家，致力于在哈伊达瓜伊开发和管理鲑鱼研究和保护计划。作为哈伊达渔业计划的项目生物学家，他负责指示种评估、逃逸调查和多个鲑鱼承载流域的项目规划。马克还在偏远沿海地区进行了栖息地评估，清点了返回的鲑鱼和幼鱼，并参与了可持续水产养殖实践的公共宣传。

道德声明

本研究致力于合乎道德、包容和尊重文化的做法。我们积极与原住民群体合作，确保渔业监测策略整合传统生态知识并尊重原住民数据主权。所有数据收集和分析都将遵循既定的道德准则，以知情同意为基础，并在数据使用中保持透明。我们优先考虑公平代表，确保利益相关者——包括原住民社区、政府机构和保护组织——在决策中得到公平参与并从研究结果中受益。
此外，我们遵守负责任的人工智能原则，确保机器学习模型具有可解释性、无偏见并与保护目标一致。通过促进开放合作和道德数据实践，本研究为可持续渔业管理做出贡献，同时维护科学诚信和社会责任。

致谢

本研究得到了NSERC Discovery Grant、不列颠哥伦比亚省鲑鱼恢复和创新基金（BCSRIF_2022_401）和MITACS Accelerate Cluster Grant的支持，并从experiment.com获得了额外的资金支持。我们感谢海伊尔茨克、哈伊达、基塔苏 Xai’xais、塔库河廷吉特和吉特加’阿特第一民族的信任与合作，以及斯凯纳渔业委员会和吉坦尤渔业管理局的持续合作。

参考文献

[Achiam et al., 2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, 等人. Gpt-4 技术报告. arXiv 预印本 arXiv:2303.08774, 2023.
[Atlas et al., 2021] William I Atlas, Natalie C Ban, Jonathan W Moore, Adrian M Tuohy, Spencer Greening, Andrea J Reid, Nicole Morven, Elroy White, William G Housty, Jess A Housty, 等人. 土著管理系统用于文化与生态复原力的太平洋鲑鱼 (oncorhynchus spp.) 渔业. BioScience, 71(2):186-204, 2021.
[Atlas et al., 2023] William I Atlas, Sami Ma, Yi Ching Chou, Katrina Connors, Daniel Scurfield, Brandon Nam, Xiaoqiang Ma, Mark Cleveland, Janvier Doire, Jonathan W Moore, 等人. 使用深度学习增强检测和跟踪技术进行野生鲑鱼数量统计和监测。Frontiers in Marine Science, 10:1200408, 2023.

[Bernardin 和 Stiefelhagen, 2008] Keni Bernardin 和 Rainer Stiefelhagen. 评估多目标跟踪性能：CLEAR MOT 指标。EURASIP 图像和视频处理期刊，2008:1-10, 2008.

[Carothers 等人, 2021] Courtney Carothers, Jessica Black, Stephen J Langdon, Rachel Donkersloot, Danielle Ringer, Jesse Coleman, Erika R Gavenus, Wilson Justin, Mike Williams, Freddie Christiansen, 等人. 原住民与鲑鱼管理：关键关系。2021.

[Chihaoui 和 Favaro, 2024] Hamadi Chihaoui 和 Paolo Favaro. 针对真实世界图像的遮罩和打乱盲点去噪。在 IEEE/CVF 计算机视觉与模式识别会议记录中，第 3025-3034 页，2024.

[Cui 等人, 2019] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, 和 Serge Belongie. 基于有效样本数的类平衡损失。在 IEEE/CVF 计算机视觉与模式识别会议记录中，第 9268-9277 页，2019.

[Di Lorenzo 和 Mantua, 2016] Emanuele Di Lorenzo 和 Nathan Mantua. 2014/15 年北太平洋海洋热浪的多年持续性。自然气候变化，6(11):1042-1047, 2016.

[Dorner 等人, 2018] Brigitte Dorner, Matthew J Catalano, 和 Randall M Peterman. 北太平洋奇努克鲑鱼种群生产力的空间和时间共变模式。加拿大渔业和水生科学杂志，75(7):1082-1095, 2018.

[Economies, 2021] 地球经济。太平洋鲑鱼对部落和第一民族的社会文化意义。太平洋鲑鱼委员会特别报告，2021.

[Frölicher 和 Laufkötter, 2018] Thomas L Frölicher 和 Charlotte Laufkötter. 海洋热浪的新兴风险。自然通讯，9(1):650, 2018.

[Garber 和 Tirer, 2024] Tomer Garber 和 Tom Tirer. 通过去噪扩散模型进行图像恢复并迭代预处理指导。在 IEEE/CVF 计算机视觉与模式识别会议记录中，第 25245-25254 页，2024.

[Goodfellow, 2016] Ian Goodfellow. 深度学习，卷 196。MIT出版社，2016.

[Gordon 等人, 2023] Lucia Gordon, Nikhil Behari, Samuel Collier, Elizabeth Bondi-Kelly, Jackson A. Killian, Catherine Ressijac, Peter Boucher, Andrew Davies, 和 Milind Tambe. 不找犀牛而找到犀牛：南非犀牛栖息地多模态影像的主动学习。在第三十二届国际人工智能联合会议记录中，IJCAI，第 5977-5985 页，2023.

[Kay 等人, 2022] Justin Kay, Peter Kulits, Suzanne Stathatos, Siqi Deng, Erik Young, Sara Beery, Grant Van Horn, 和 Pietro Perona. 加州理工学院鱼类计数数据集：多目标跟踪和计数的基准。在欧洲计算机视觉会议记录中，第 290-311 页。Springer, 2022.

[Kay 等人, 2024] Justin Kay, Timm Haucke, Suzanne Stathatos, Siqi Deng, Erik Young, Pietro Perona, Sara Beery, 和 Grant Van Horn. 对齐和蒸馏：统一和改进领域自适应目标检测。arXiv 预印本 arXiv:2403.12029, 2024.

[Khan 等人, 2023] Faizan Farooq Khan, Xiang Li, Andrew J Temple, 和 Mohamed Elhoseiny. FishNet：一个大规模的鱼类识别、检测和功能特征预测数据集和基准。在 IEEE/CVF 国际计算机视觉会议记录中，第 20496-20506 页，2023.

[Kilduff 等人, 2015] D Patrick Kilduff, Emanuele Di Lorenzo, Louis W Botsford, 和 Steven LH Teo. 中央太平洋厄尔尼诺的变化减少了北美鲑鱼存活率的稳定性。国家科学院院刊，112(35):10962-10966, 2015.

[Kshitiz 等人, 2023] Kshitiz, Sonu Shreshtha, Ramy Mounir, Mayank Vatsa, Richa Singh, Saket Anand, Sudeep Sarkar, 和 Sevaram Mali Parihar. 野生鸟类群体的长期监测。在第三十二届国际人工智能联合会议记录中，IJCAI，第 6344-6352 页，2023.

[Liu 等人, 2020] Yang Liu, Anbu Huang, Yun Luo, He Huang, Youzhi Liu, Yuanyuan Chen, Lican Feng, Tianjian Chen, Han Yu, 和 Qiang Yang. FedVision：由联邦学习驱动的在线视觉对象检测平台。在 AAAI 人工智能会议记录中，卷 34，第 13172-13179 页，2020.

[Liu 等人, 2024a] Haotian Liu, Chunyuan Li, Qingyang Wu, 和 Yong Jae Lee. 视觉指令微调。神经信息处理系统进展，36, 2024.

[Liu 等人, 2024b] Weizhen Liu, Jiayu Tan, Guangyu Lan, Ao Li, Dongye Li, Le Zhao, Xiaohui Yuan, 和 Nanqing Dong. 关键点检测中的鱼类数据集和评估指标基准 - 朝着精确的水产养殖育种鱼类形态评估迈进。在第三十三届国际人工智能联合会议记录中，IJCAI，第 7376-7384 页，2024.

[Luiten 等人, 2021] Jonathon Luiten, Aljosa Osep, Patrick Dendorfer, Philip HS Torr, Laura Leal-Taixé, 和 Bastian Leibe. HOTA：一种用于评估多目标跟踪的高阶指标。国际计算机视觉杂志，129(2):548-578, 2021.

[Ma 等人, 2024] Sami Ma, Yi Ching Chou, Miao Zhang, Hao Fang, Haoyuan Zhao, Jiangchuan Liu, 和 William I Atlas. 野外低轨道卫星网络接入：潜力、经验和挑战。IEEE Network, 2024.

[Moore 等人, 2021] Jonathan W Moore, Brendan M Connors, 和 Emma E Hodgson. 混合种群渔业中的保护风险和组合效应。鱼类与渔业，22(5):1024-1040, 2021.

[OpenAI, 2024] OpenAI. 学习用LLMs推理，2024. [访问日期：2024年9月19日].

[Price 等人, 2017] Michael HH Price, Karl K English, Andrew G Rosenberger, Misty MacDuffee, 和 John D Reynolds. 加拿大野生鲑鱼政策：对不列颠哥伦比亚省保护进展的评估。加拿大渔业和水生科学杂志，74(10):1507-1518, 2017.

[Radford 等人, 2021] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, 等人. 从自然语言监督中学习可转移的视觉模型。在机器学习国际会议记录中，第 8748-8763 页。PMLR, 2021.

[Ravi 等人, 2024] Nikhila Ravi, Valentin Gabeur, YuanTing Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, 等人. SAM 2：分割图像和视频中的任何内容。arXiv 预印本 arXiv:2408.00714, 2024.

[Ristani 等人, 2016] Ergys Ristani, Francesco Solera, Roger Zou, Rita Cucchiara, 和 Carlo Tomasi. 多目标、多摄像头跟踪的性能度量和数据集。在欧洲计算机视觉会议（ECCV）记录中，第 17-35 页。Springer, 2016.

[Schindler 和 Hilborn, 2015] Daniel E Schindler 和 Ray Hilborn. 在全球变化下的预测、预防和政策。科学，347(6225):953-954, 2015.

[Walsh 等人, 2020] Jessica C Walsh, Jane E Pendray, Sean C Godwin, Kyle A Artelle, Holly K Kindsvater, Rachel D Field, Jennifer N Harding, Noel R Swain, 和 John D Reynolds. 太平洋鲑鱼与水生和陆地生态系统之间的关系：基于生态系统的管理的影响。生态学，101(9):e03060, 2020.

[Walters 等人, 2008] Carl J Walters, JA Lichatowich, Randall M Peterman, 和 John D Reynolds. 斯凯纳独立科学审查小组报告。给加拿大的渔业和海洋部及不列颠哥伦比亚省环境部的报告，15, 2008.

[Wang 等人, 2024] Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, 和 Guiguang Ding. Yolov10：实时端到端目标检测。arXiv 预印本 arXiv:2405.14458, 2024.

[Waples 等人, 2008] Robin S Waples, George R Pess, 和 Tim Beechie. 动态环境中太平洋鲑鱼的进化历史。进化应用，1(2):189-206, 2008.

[Wojke 等人, 2017] Nicolai Wojke, Alex Bewley, 和 Dietrich Paulus. 使用深度关联度量的简单在线实时跟踪。在2017年IEEE国际图像处理会议（ICIP）记录中，第 3645-3649 页。IEEE, 2017.

[Wu 等人, 2022] Xingjiao Wu, Luwei Xiao, Yixuan Sun, Junhang Zhang, Tianlong Ma, 和 Liang He. 人类参与机器学习的综述。未来一代计算机系统，135:364-381, 2022.

[Xu 等人, 2024] Chi Xu, Rongsheng Qian, Hao Fang, Xiaoqiang Ma, William I Atlas, Jiangchuan Liu, 和 Mark A Spoljaric. SALINA：迈向野生生态系统中的可持续实时声呐分析。在第22届ACM嵌入式网络传感器系统会议记录中，第 68-81 页，2024.

[Yoshiyama, 1999] Ronald M Yoshiyama. 加利福尼亚中央山谷地区的鲑鱼和人类历史。渔业科学评论，7(3-4):197-239, 1999.

[Zhao 等人, 2024] Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, 和 Jie Chen. DETRs在实时目标检测上超越YOLOs。在IEEE/CVF计算机视觉与模式识别会议记录中，第 16965-16974 页，2024.

[Zhong 等人, 2024] Tianyang Zhong, Zhengliang Liu, Yi Pan, Yutong Zhang, Yifan Zhou, Shizhe Liang, Zihao Wu, Yanjun Lyu, Peng Shu, Xiaowei Yu, 等人. 评估OpenAI o1：AGI的机会与挑战。arXiv 预印本 arXiv:2409.18486, 2024.

参考论文：https://arxiv.org/pdf/2505.06637