消费品安全
more ...
消费品是指用来满足人们物质和文化生活需要的社会产品。其范围包括家电、儿童用品(包括玩具)烟花爆竹等产品。由于消费品遍布于社会生活的各个方面,因此其安全性被各个国家所重视。欧盟、美国、加拿大和澳大利亚等国家先后发布自己的消费品安全法规(法案),如欧盟的《通用产品安全指令》(2001/95/EC)和各种特殊产品安全指令,美国的《消费品安全法案》(CPSC)及《消费品安全改进法案》(CPSIA),加拿大的《加拿大消费品安全法案》(CCPSA),澳大利亚的《澳大利亚消费者法案》(ACL)。这些法规(案规)规定了消费品安全的基本要求,以保护本国消费者的人身和财产安全
食品安全
more ...
随着全球经济一体化和食品贸易国际化,食品安全已成为一个世界性的挑战和全球重要的公共卫生问题,各国纷纷建立相应的食品技术性贸易壁垒体系。为了顺利跨越这些技术壁垒,出口企业必须付出很大精力关注频频发生的问题并及时采取相应措施。研究专题旨在对我国食品出口企业遭遇到国外市场的主要技术壁垒,进行重点分析和研究,帮助我国食品出口企业跨越目标市场国的技术壁垒,从而顺利进入目标国市场。
能源与环境
more ...
能源是人类社会发展不可缺少的物质基础,能源的利用改变着整个世界的经济和社会生活面貌。随着世界经济的飞速发展,对能源的需求呈急剧上升的趋势,世界各国在传统能源如煤、石油、天然气等方面遭遇了瓶颈,由此引发的资源短缺和气候变化等问题也日益突出。为实现经济的可持续发展,各国政府已经开始加大对能源节约的研究,大力发展新能源和各项节能减排技术,并以国家规章制度的形式保证各项措施的成效,如日本的领跑者计划、欧盟的生态设计指令、美国的能源之星等。研究国外能源与环境相关法规和标准,可以帮助相关出口企业积极应对技术壁垒,降低经济损失。
一带一路贸易
more ...
2013年9月7日,国家主席习近平在哈萨克斯坦纳扎尔巴耶夫大学作题为《弘扬人民友谊 共创美好未来》的演讲,提出共同建设 “丝绸之路经济带”。2013年10月3日,习近平主席在印度尼西亚国会发表题为《携手建设中国—东盟命运共同体》的演讲,提出共同建设 “21世纪海上丝绸之路”。“丝绸之路经济带”和 “21世纪海上丝绸之路”简称“一带一路”倡议。
陈慧敏,女,南京理工大学项目管理工程硕士学位,正高级工程师,主要研究方向:技术性贸易措施研究与应对、区域标准化研究。科研项目:先后主持江苏...
程光伟,男,1984年4月出生,东华大学纺织工程专业毕业,研究生学历,硕士,主要研究方向:纺织及轻工行业技术性贸易措施研究。 科研项目:先后参...
刘颖,女,1977年1月出生,南京理工大学材料科学与工程专业博士研究生毕业,原江苏省质量技术监督局博士后工作站出站博士后(化学与工程专业),高...
庞淑婷,女,1985年12月出生,浙江大学农业昆虫与害虫防治专业博士,原国家质检总局WTO/SPS通报评议专家。主要研究方向:技术性贸易措施研究和农业...
冯竹,男,1990年2月出生,河海大学软件工程专业研究生在读,助理工程师,主要研究方向:技术性贸易措施研究(机电能效方向),食品添加剂研究。科...
汪洋,女,1989年7月出生,南京医科大学药物分析硕士研究生毕业,高级工程师。主要从事农产食品、化学品技术性贸易措施研究工作,熟悉气相色谱、液...
市县子平台
南京
无锡
徐州
常州
苏州
南通
连云港
淮安
盐城
扬州
镇江
泰州
宿迁
昆山
泰兴
沭阳
产业子平台
欧盟联合研究中心发布通用人工智能模型分类框架
发布日期: 2025-11-26 来源:tbtguide 字号: [ 大 中 小 ]
收藏
2025年10月10日,欧盟委员会联合研究中心(JRC)发布《通用人工智能(GPAI)模型分类框架》报告。作为《欧盟人工智能法案》(以下简称《AI 法案》)配套的关键外部科学研究成果,该报告首次提出一套基于认知能力量化的GPAI模型评估方法论,为法案中GPAI模型的界定、监管义务落地提供可操作的技术标准。
《AI 法案》于2024年8月1日正式生效,明确将GPAI模型定义为 “通过大规模自监督方式训练、具备显著通用性、能胜任多种任务且可集成至下游系统的 AI 模型”,并要求 2025年8月2 日起,GPAI 模型及存在系统性风险的GPAI模型需履行特定合规义务。然而,法案生效初期,“如何量化通用性”“怎样判定‘胜任多种任务’” 等关键问题缺乏技术标准答案。报告核心目标是将《AI 法案》中GPAI模型的抽象定义,转化为可测量、可复现的评估指标,确保监管既不阻碍 AI 创新,又能保障人类健康、安全与基本权利。
框架突破传统“单一性能指标评估”模式,借鉴认知心理学中的卡特尔-霍恩-卡罗尔(CHC)智力理论,结合 AI 技术特性,筛选出四大核心认知领域作为GPAI模型评估的核心维度,覆盖 AI 通用能力的关键场景:
注意力与搜索(AS):模型在数据流中聚焦关键信息、筛选目标内容的能力,是完成信息检索、任务定位的基础;
理解与组合表达(CE):细分为语言理解(CEc)与语言表达(CEe),评估模型对自然语言或语义表征的理解、观点生成与表达能力,直接关联文本创作、对话交互等任务;
概念化、学习与抽象(CL):模型从实例中归纳规律、通过指令或演示学习、积累不同抽象层级知识的能力,决定其适应新任务的灵活性;
定量与逻辑推理(QL):包含逻辑推理(QLl)与定量推理(QLq),衡量模型处理数值信息、推导逻辑结论、解决概率与反事实问题的能力,是数学计算、决策分析的核心支撑。
为确保评估公平性,框架特别强调“模态适配”原则——针对文本、图像、音频等不同输入输出模态的 AI 模型,需设计对应模态的测试任务。例如,文本模型通过文字推理题评估逻辑能力,音频模型则通过语音指令解析任务验证同类能力,单一模态达标即可认定该领域合格。
为了精准衡量模型在四大领域的能力水平,框架引入“带注释的需求水平(ADeLe)”评估程序,通过三大步骤实现量化评估:
任务需求标注:基于标准化评分准则,用 AI 模型(或人工辅助)标注测试任务对四大领域的需求强度,形成 “需求谱”。例如,一道数学题可能对 “定量推理” 需求为 “高”,对 “注意力与搜索”需求为“中”;
模型能力测绘:让AI模型完成标注后的测试任务,通过“主体特征曲线”分析模型在不同需求强度下的成功率,以“50% 成功率对应的需求水平”作为模型在该领域的能力得分;
通用性综合计算:提供两种得分聚合方式——若采用“平均值法”,可通过算术平均(侧重整体表现)、几何平均(平衡各领域)或调和平均(惩罚短板领域)计算综合得分;若采用“阈值法”,则设定各领域合格线,模型满足一定数量领域达标即可认定具备通用性。
报告指出,ADeLe 方法已通过 1.6 万余个高质量任务实例验证,自动化标注准确率经人类评审校准,预测模型性能的 AUROC(受试者工作特征曲线下面积)普遍达到 0.85 以上,兼顾科学性与评估效率。
为验证框架有效性,研究团队对GPT系列、LLaMA系列、DeepSeek-R1-Dist-Qwen系列等主流 LLM 模型展开测试,得出多项关键结论:
算力与能力呈正相关:模型参数规模、训练算力(FLOP)越大,四大领域能力得分普遍越高,但不同领域提升速率不同——“理解与组合表达”能力随算力增长提升较快,“定量与逻辑推理”能力则需更大算力投入才会显著进步;
阈值设定影响监管范围:若将 ADeLe得分3.0设为合格线,较多中小规模模型(如 LLaMA-3.2-11B-Instruct)会被纳入GPAI范畴;若提高至4.0,仅 GPT-4o、OpenAI o1等顶尖模型符合标准;若设定4.5以上,仅极少数最先进模型达标;
领域达标规则需灵活:要求“所有领域达标”会过度限制模型(部分优秀模型可能因单一领域短板被排除),而“3/4 领域达标”的规则更符合实际,既能保障模型通用性,又能包容合理技术差异。
基于此,报告建议政策制定者根据监管目标动态调整评估参数:若侧重风险防控,可提高得分阈值、严格领域达标规则;若鼓励技术创新,可适当放宽标准,同时定期(如每1-2 年)根据AI技术进展更新测试任务与评分准则。