浪潮信息发布"源"Yuan-EB，刷新大模型RAG检索精度纪录！

发布：来源：浪潮信息发布时间：2024-12-06 16:24
第一对焦：浪潮信息

近日，浪潮信息发布"源"Yuan-EB（Yuan-embedding-1.0，嵌入模型），在C-MTEB榜单中斩获检索任务第一名，以78.41的平均精度刷新大模型RAG检索最高成绩，将基于元脑企智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑，助力用户使用领先的RAG技术加速企业知识资产的价值释放。

Yuan-EB（版本号Yuan-embedding-1.0）是专为增强中文文本检索能力而设计的嵌入模型（也称Embedding模型），在 "源2.0" 大模型的工作基础上，创新性地采用了"源2.0-M32"大模型进行数据重写与合成，并通过索引技术、样本排序等系列方法完成高质量微调数据集构建，能够有效提升RAG系统的检索精度。

C-MTEB是目前业内最权威的嵌入模型测试榜单。其中，检索任务（Retrieval）是检索增强生成（RAG）场景下最为重要、应用最广泛的任务能力，考察的是Embedding模型从大量的数据集中找到并返回与给定查询最相关或最匹配的信息的过程。"源"Yuan-EB基于该任务提供的医疗、新闻、电商、娱乐等8个中文文本数据集，实现了业界领先的海量文本检索精度。

“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一

"源"Yuan-EB助力RAG检索精度新高

嵌入模型在RAG流程中扮演着关键角色，它能够将复杂的高维数据（例如文本、图像或音频）转换为机器可理解的向量形式，直接决定了RAG检索的精准性和效率。

"源"Yuan-EB通过数据准备与模型微调两个方面的技术创新，实现了模型精度的大幅提升：

在数据方面，基于"源2.0"微调阶段的问答数据进行清洗与筛选，构建问题（query）与文本（corpus）数据集；使用"源2.0-M32"对C-MTEB 训练数据进行重写与合成，通过索引技术与排序模型进行高效的难负样本提取，完成大规模难负例样本挖掘，形成高质量微调数据集；
在微调方面，通过两个阶段的领先微调方法实现模型能力提升。第一阶段，使用各个领域（医疗、新闻、长文本、娱乐等方向）的大规模数据进行对比学习训练；第二阶段，采用"源2.0-M32"生成的合成数据进一步微调，并使用MRL方法完成"源"Yuan-EB训练；

"源"Yuan-EB为用户提供了大模型企业知识库应用开发的最优模型选择，能够在RAG流程的多个方面起到显著的精度提升，包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等，最大化提升RAG流程的整体性能和应用效果。

元脑企智EPAI集成"源"Yuan-EB，加速知识库构建与性能提升

目前，"源"Yuan-EB已经在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。用户可以在元脑企智EPAI平台中快速使用"源"Yuan-EB，并结合EPAI自研的多阶段RAG技术，零代码、低成本地基于企业数据构建大模型知识库应用。

企业大模型开发平台"元脑企智"EPAI（Enterprise Platform of AI），是浪潮信息为企业AI大模型落地应用打造的高效、易用、安全的端到端开发平台，提供数据准备、模型训练、知识检索、应用框架等系列工具，支持调度多元算力和多模算法，帮助企业高效开发部署生成式AI应用、打造智能生产力。

元脑企智EPAI已经支持超过13种类型文档的信息识别与提取，结合创新的多级混合检索策略，有效提升元脑企智EPAI在管理、解析、检索知识库与生成内容方面的最终效果，帮助企业用户实现基于私有数据、行业数据下的精准检索、精准问答，确保专业场景下大模型生成内容的准确性和可靠性，加速大模型创新力释放。

自动对焦：AIStation AI大模型

咨询详情：如需咨询文中涉及的相关产品或解决方案详情，请加微信：ZiDongHuaX 。

微信联盟：AIStation微信群、AI大模型微信群，各细分行业微信群：点击这里进入。

鸿达安视：水文水利在线监测仪器、智慧农业在线监测仪器　　　　　　金叶仪器：气体/颗粒物/烟尘在线监测解决方案

西凯昂：SMC气动元件、力士乐液压元件、倍加福光电产品等　　　　　山东诺方：颗粒物传感器、粉尘浓度传感器

深圳金瑞铭：RFID射频识别、智能传感器等物联网解决方案　　　　　　北京英诺艾智：容错服务器、边缘计算解决方案

减碳45%！国内首批“低碳钢筋”揭幕建筑行业的“绿色风暴”日益迫近

罗克韦尔自动化发布年度《智能制造现状报告：生命科学版》

国际可再生能源署在宁德发布其全球首份储能产业研究报告

DEKRA德凯昆山检测中心盛大启用，为中国市场注入新动能

延伸产业链，融合"文旅+"，新场景、新需求、新市场，上海国际游艇展预登记通道现已全面开启

汉高大中华区总裁到访西门子中国总部，共话可持续发展

鞍山钢铁总经理张红军一行来访中控技术

京津冀信创小镇正式启动，北京信创整机品牌软通华方重磅发布

IBM：用生成式AI解数据安全之急|人工智能和自动化技术有助于强化企业防御能力

中国信通院罗松：深度解读《工业互联网标识解析体系“贯通”行动计划（2024—2026年）》

阿里集团吴泳铭最新演讲：生成式AI终将接管整个数字世界

吴奇锋：探索智慧水务共创数智未来

2024WRC 傅盛：机器人的形态不一定要像人

华为运动健康发布玄玑感知系统，重新定义智能穿戴

探索低速无人驾驶的未来趋势

伊顿公司任命Paulo Ruiz为伊顿首席执行官，自2025年6月1日起生效

能抓取25公斤物体！估值最高人形机器人公司发布第二代产品

智能家居：TÜV莱茵扩充Matter授权测试实验室网络

5G RedCap"展翅高飞"，广和通助低空经济抢占先机

Omdia：到2027年，全球人型机器人出货量将超过10,000台，2030年将达到38,000台

浪潮信息发布"源"Yuan-EB，刷新大模型RAG检索精度纪录！

减碳45%！国内首批“低碳钢筋”揭幕 建筑行业的“绿色风暴”日益迫近

罗克韦尔自动化发布年度《智能制造现状报告：生命科学版》

国际可再生能源署在宁德发布其全球首份储能产业研究报告

DEKRA德凯昆山检测中心盛大启用，为中国市场注入新动能

延伸产业链，融合"文旅+"，新场景、新需求、新市场，上海国际游艇展预登记通道现已全面开启

汉高大中华区总裁到访西门子中国总部，共话可持续发展

鞍山钢铁总经理张红军一行来访中控技术

京津冀信创小镇正式启动，北京信创整机品牌软通华方重磅发布

IBM：用生成式AI解数据安全之急|人工智能和自动化技术有助于强化企业防御能力

中国信通院罗松：深度解读《工业互联网标识解析体系“贯通”行动计划（2024—2026年）》

阿里集团吴泳铭最新演讲：生成式AI终将接管整个数字世界

吴奇锋：探索智慧水务 共创数智未来

2024WRC 傅盛：机器人的形态不一定要像人

华为运动健康发布玄玑感知系统，重新定义智能穿戴

探索低速无人驾驶的未来趋势

伊顿公司任命Paulo Ruiz为伊顿首席执行官，自2025年6月1日起生效

能抓取25公斤物体！估值最高人形机器人公司发布第二代产品

智能家居：TÜV莱茵扩充Matter授权测试实验室网络

5G RedCap"展翅高飞"，广和通助低空经济抢占先机

Omdia：到2027年，全球人型机器人出货量将超过10,000台，2030年将达到38,000台

减碳45%！国内首批“低碳钢筋”揭幕建筑行业的“绿色风暴”日益迫近

吴奇锋：探索智慧水务共创数智未来