首页-江苏省技术性贸易措施平台

美国商务部商业数据治理委员会发布《生成人工智能和开放数据：指南和最佳实践》

发布日期: 2025-02-05 字号: [ 大中小 ]

2024年1月16日，美国商务部商业数据治理委员会发布《生成型AI和开放数据：指南和最佳实践》，为发布供生成式 AI 系统使用的开放数据提供指导，确保商务部数据在生成式 AI 时代能有效利用。

一、背景

商务部与开放数据资产：美国商务部是主要的开放数据生产者，其数据涵盖人口、经济、环境等多领域，有超 15 万个开放数据集，包括文本、表格、地理空间等多种格式。长期以来，商务部致力于提高数据质量和可访问性，如 40 年前将数据电子化，近年依据法案以机器可读格式发布数据。如今，为适应生成式 AI 应用发展，持续改进数据发布实践。

人工智能与生成式人工智能发展：人工智能旨在使计算机算法具备类人智能行为，机器学习和深度学习是其重要分支，生成式 AI 则是深度学习中的模型子集，可生成新内容。生成式 AI 应用有潜力使开放数据更易用，但也存在如编造虚假信息等问题，且其基础模型训练资源消耗大。商务部希望通过本指南使开放数据适配生成式 AI 系统，降低创新成本。

指南制定过程：鉴于生成式 AI 发展，商务部数据治理委员会于 2023 年成立工作组。因现有数据存在格式、元数据、文档和可访问性不一致及许可等问题，工作组发布信息请求（RFI）并举办研讨会，收到 37 份来自各界的提交内容。本指南参考 RFI 回应及专家意见，虽主要针对商务部，但对其他数据发布者也有价值，且定义了相关术语如生成式模型、系统和应用等，并分析了商务部开放数据在生成式 AI 系统中的训练、测试验证、微调及数据检索和实时响应等应用方式。

二、指南与最佳实践

1、文档记录

提供全面数据资产背景：全面记录数据集信息至关重要，包括数据用途、限制、偏差、数据字典、来源及处理步骤等，有助于深入理解数据，提升 AI 模型训练与数据检索的准确性和可靠性。实施持久标识符（PID）可确保数据及相关文档的稳定引用，即便数据更新也能准确追踪。每次数据发布后及时更新文档并进行版本控制，详细记录数据变化情况，同时提供数据处理的开源代码，增强数据处理过程的透明度与可重复性。

最大化文档可用性和可访问性：采用人类和机器可读的双格式提供文档，人类可读格式便于研究人员等理解数据，机器可读格式则利于自动化数据处理。在合适场景下优先选用开源软件格式，如 R 或 Python，避免使用专有软件，以增强数据的可获取性、透明度和互操作性，促进生成式 AI 系统对数据的有效利用。

2、数据和元数据格式

发布全面结构化数据和元数据：在数据集元数据中纳入如发布者、来源、权限、更新日期等与生成式 AI 相关的关键信息，同时添加详细的变量级元数据，涵盖应用逻辑、依赖信息、分布信息等，提升数据的机器可理解性，为 AI 模型训练和数据处理提供有力支持。遵循常用元数据模式和标准（如 DCAT-US、Schema.org 等）发布数据和元数据，确保数据在不同系统间的互操作性。使用标准缺失数据值，避免因缺失值表示不一致导致的误解，并确保文件命名规范、清晰，便于数据管理和检索。

最大化数据和元数据可用性：以机器可读格式生成数据和元数据，满足开放数据法案要求，采用如 CSV、JSON 等常用开放数据格式，确保数据传播不受特定软件限制。对于地理空间数据、图像和视频数据等，分别选用合适的开放格式（如 shapefiles、GeoPackages、标准化图像和视频格式）进行发布，避免使用 PDF 和过度依赖专有软件格式（如 XLSX），以提高数据的可访问性和互操作性。

3、数据存储和传播

以一致格式传播开放数据：考虑到生成式 AI 系统对大量数据的需求，压缩或提供便捷下载方式以减少大型数据集的访问障碍，采用 ZIP、Apache Parquet 等开源且语言无关的文件格式进行压缩，提高数据访问效率。在数据发布中附带详细的书面文档，为生成式 AI 模型训练和微调提供丰富背景信息，增强数据的实用性。

将开放数据存储在易于检索位置：提供多种数据检索方式，如 RESTful API 和直接下载。RESTful API 便于数据科学家和开发者编程检索特定数据子集，提高数据检索的灵活性和效率；直接下载则适用于需要完整数据集进行本地处理的用户。确保数据网站定期更新，优化网站结构（如设置合理的 sitemaps、一致的 URL 命名）、保证安全证书有效、合理配置 robots.txt 文件以及采用 HTML 格式发布文档等，提高网站的可爬取性，方便搜索引擎和自动化工具发现和索引数据。

4、数据许可和使用

以易懂格式发布开放数据权利和许可：明确界定并以机器可读格式发布生成式 AI 相关的数据使用政策，涵盖专利、隐私等限制条件，协调部门间制定统一的知识产权声明和许可模板，确保数据使用的一致性和规范性。在商务部网站根目录设置 robots.txt 文件，规范网络爬虫对数据的访问行为，同时结合其他机制（如 API 密钥、访问控制）有效管理数据检索。在数据集元数据中准确链接数据许可证和权利信息，区分开放数据许可证和版权许可证，避免数据使用的混淆，确保数据使用符合法律规定和用户预期。

协作开发和更新数据许可证和使用政策：商务部内部各实体应与法律部门紧密合作，共同制定和更新数据许可证和使用政策，加强部门间沟通协作，避免政策不一致。在更新政策时及时共享信息，提高政策的透明度和一致性。具体措施包括更新许可模板、制定详细的元数据和机器可读许可证应用指南，以及在商务部现有知识产权资源中设立专门的 “IP 和数据许可” 部分，为数据使用提供全面的模板和最佳实践参考。

5、数据质量和完整性

为高质量数据检索准备开放数据：在数据集元数据中明确指示数据质量评估情况，便于用户筛选和理解数据可靠性。建立自动化数据质量控制流程，检查数据缺失值、类型一致性和格式问题，并确保 AI 相关元数据完整，结合手动审查确保数据质量。优化 API 设计，确保其高效返回相关信息，数据格式符合模型要求，提供丰富的元数据和上下文信息，并具备高并发处理能力和良好的文档及工具支持，为基于检索增强生成（RAG）架构的 AI 模型提供高质量数据。

持续评估开放数据准确性：开发针对 AI/ML 应用领域的基准数据集，用于评估模型性能和数据检索、解释效果，克服现有基准数据集的局限性。提供针对商务部常用数据集的提示库，指导生成式 AI 模型如何与实时数据交互，提高模型响应的准确性和可靠性。与生成式 AI 应用开发者合作，通过优化模型训练和调整，确保在生成响应时优先使用商务部的权威数据，避免因数据来源问题导致的错误信息传播。

三、未来工作

1、探索数字签名

在开放的商务部数据环境中，强烈建议实施数字签名。数字签名作为一种加密机制，能够有效验证数据来源的可信度，确保数据在传输和存储过程中未被篡改。这对于维护数据集的完整性和准确性至关重要，因为被篡改或伪造的数据可能会给机器学习模型带来严重的偏差和漏洞。通过采用数字签名，商务部可以增强其数据集的真实性和可靠性，营造一个更安全的数据生态系统，提升用户对使用开放数据进行 AI/ML 系统开发（包括生成式 AI 应用）的信任度。

2、创建 AI 就绪性评估指标

尽管商务部期望在整个部门内推行现有的指南，但目前缺乏评估数据资产是否符合生成式 AI 就绪性的具体指标或清单。例如，需要建立一个技术标准来明确商务部应努力达到的 AI 就绪性水平，以及制定网站可爬取性的检查清单等。通过确立这些评估指标，商务部将拥有清晰、可操作的目标，以便衡量工作进展并精准识别需要改进的领域，从而切实确保数据资产能够满足生成式 AI 的应用需求。

3、开发开放数据使用教育材料

商务部虽然已经拥有一定数量的教育资源，如各类教育网站和培训项目，但随着其开放数据与 AI 模型开发和使用的交集日益增多，仍需进一步加强对学生、研究人员和公众的教育资源建设。这包括开发新的培训课程、教程、材料，以及举办更多的研讨会和培训活动，以提升用户对商务部开放数据在生成式 AI 应用中的理解和使用能力。

4、与其他机构合作开展开放数据和 AI 就绪性工作

商务部认识到其他联邦机构也在积极探索实现 AI 就绪性，因此期待与这些机构分享自身经验和成果。例如，国家科学基金会的 NAIRR 试点项目就是一个正在进行的合作案例，该项目整合了商务部下属的 NOAA 和 USPTO 的 AI 就绪数据资产。通过与其他机构的合作，商务部能够促进开放数据和 AI 就绪性工作在更广泛范围内的协同发展，实现资源共享和优势互补。

5、与 AI 和开放数据专家协作进行迭代

当前的指南仅仅是一个迭代过程的开端，为了持续改进商务部的开放数据以更好地适应生成式 AI 应用，需要与 AI 和开放数据专家进行定期的、广泛的反馈交流。商务部欢迎来自公众、政府、学术界、工业界和其他利益相关者的反馈意见，涵盖数据和元数据格式、数据存储和传播、数据许可和使用以及数据完整性和质量等各个方面，以便不断优化指南内容，使其始终保持相关性和有效性。

6、创建与数据用户沟通的标准渠道

商务部应建立标准化的方式向数据用户传达数据集的变更信息，例如创建一个可供用户跟踪的标准页面或设立电子邮件列表。同时，提供通用的反馈机制（如在线表单）也至关重要，以便数据用户能够就数据变更提出疑问、报告问题或为即将发布的数据提供建议。此外，还应积极培育开放数据用户社区，鼓励用户参与数据的改进和优化工作，例如通过举办类似 Census Bureau 的 The Opportunity Project 或 NOAA 的 Open Data Dissemination Office Hours 等活动，为数据用户提供交流和反馈的平台。

相关新闻 相关通报 相关标准