易慧智能发布汽车行业大模型评测集 并重磅推出模型路由技术方案

10月25日,汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业首个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果,特别关注于汽车营销场景的应用评估。在此基础上,易慧智能重磅推出创新的模型路由技术方案——基于多模型的YiAgent群体智能技术框架。

此技术框架不仅融合了大模型路由技术,还巧妙地将大模型库、汽车行业大模型评测集以及YiAgent群体智能平台这三个子系统整合为一个有机整体。在这个创新的技术框架中,大模型路由依据汽车大模型评测的效果,为YiAgent群体智能平台中的每个Agent所负责的技能挑选出效果最佳的模型,从而实现技能的最优化配置和效用最大化。技术框架为企业客户提供以多个大模型驱动的群体智能协同工作平台,全力支持企业客户实现智能化转型。

应对复杂场景需求多模型成为主流

鉴于当下大模型使用场景的多样性、任务复杂度的提升,以及垂直行业专业需求的特殊性,当前无论是通用大模型还是垂直大模型,均展现出各自的局限性和不足。以内容创作为例,此领域涵盖了写作、翻译、知识问答、代码辅助、逻辑推理等多个维度,对于不同任务,各大模型表现差异较大,没有一家大模型可在所有任务上均达到最优。这一现状也为混合大模型的兴起提供了契机。

混合大模型旨在将市场中的主流大模型进行有机融合,针对特定任务需求,精准调用表现最优的模型,以实现精准解决特定问题的目标。通过“专业分工,协同合作”的理念,混合大模型致力于最大化各项任务的处理效能。近期,360公司推出的AI助手便是一个典型例证,该助手集成了国内15家顶尖大模型,构建了CoE专家网络模型,通过规模化的资源整合,集中各模型之优势,最终实现了更为卓越的性能与效率提升。

在汽车行业的营销领域,其核心能力与任务包含行业知识的深度掌握、内容创作的精准定位、高效对话能力的展现、数据分析的精细处理以及智能体支持的全面覆盖等多个维度。这些综合且复杂的需求,对大模型的能力提出了极高的挑战,也使得当前市场上的单一模型在应对此类复杂场景与任务时显得力不从心。而混合大模型方案的提出,则为解决这一系列难题提供了最为优化和可行的思路。

汽车营销领域首个垂直行业大模型评测集

据悉,易慧智能作为聚焦汽车行业的AI产品和业务解决方案提供商,拥有海量的用户行为数据和车型数据,在汽车行业数字营销、数字化转型方面拥有企业级的深刻理解和丰富的应用场景。易慧智能此次重磅发布汽车行业大模型评测集,并同步推出模型路由技术方案——基于多模型的YiAgent群体智能技术框架,这一举措深刻体现了其在技术创新领域的领导地位,同时也是其坚定践行以客户为中心发展理念的重要里程碑。

作为汽车营销领域首个大模型评测集,易慧智能选择了国内外具有代表性的8个闭源/开源的模型以及自研大模型共9个模型。针对汽车营销领域行业知识、内容创作、对话能力、数据分析、智能体支持等5大核心能力和超过20个子任务能力进行严格评测,并对每个评测类别制定独特的评测标准和方法,原创评测题目超过1000道。

[MD:Title]

在评测过程中,易慧智能重点关注大模型在汽车营销关键领域的表现。首先,就行业知识而言,评估大模型对汽车行业基础知识的掌握深度,以及其在看车、选车、购车、使用等全流程中展现出的专业知识理解和应用能力。

其次,在内容创作方面,考察大模型汽车领域内容生成能力,特别是其在撰写汽车种草图文、汽车短视频文案等方面的表现。特别关注大模型在营销内容创作上的多样性、准确性,以及其对字数、人设、场景等维度要求的指令遵循能力。

此外,在对话能力方面,测试大模型与用户进行自然语言交流的能力,包括但不限于语义理解、情绪识别、实体识别、对话推理等对话场景中的核心能力。

同时,数据分析也是评测的重要环节。易慧智能将考察大模型在处理和分析汽车行业相关数据方面的能力,如销售数据、用户行为数据等,并评估其在营销决策支持中的应用效果。具体的能力维度包括text2sql、指标计算、图表推荐以及报告撰写等。

最后,在智能体支持方面,易慧智能将评估大模型在支持智能体进行任务规划、流程推理、工具检索、参数理解以及工具使用等方面的能力,特别是在营销自动化和个性化推荐中的实际应用效果。

经过此次严格评测,结果显示无一模型能在所有能力上均独占鳌头。其中,在汽车知识与对话能力方面,自主研发的大模型以82.17与80.62的高分脱颖而出。值得注意的是,尽管GPT-4o仍保持其领先地位,但国内大模型正迅速追赶,差距正在逐步缩小。

[MD:Title]

此次评测结果还反映出通用大模型在应对具有行业特性的任务时显现出明显的局限性。无论其源自国内还是国外,相较于专为汽车领域定制的自研大模型,在汽车领域知识掌握及对话交互能力的核心指标上,得分普遍较低。这一发现也揭示出当前通用大模型在处理行业专属任务时遭遇的瓶颈,尤其是在需要深度专业知识与精准上下文解析的场景中更为凸显。相比之下,行业大模型由于拥有针对性的训练与优化,能够更为精准地捕捉并处理特定领域的专业知识与对话内容。因此,针对专业性要求极高的行业应用场景而言,选择垂直大模型无疑是更为合理且高效的决策。

易慧智能CTO叶明登表示,易慧智能此次评测的目标是提供一个全面、客观的评估框架,帮助汽车行业的决策者和技术开发者更好地理解和利用大模型技术,以实现汽车行业的智能化升级。特别是在营销场景下,我们的评测集能够更准确地衡量大模型在实际商业环境中的表现和价值。

[MD:Title]
易慧智能CTO叶明登

在此次评测中表现优异的自研大模型负责人同时也是易车副总裁张磊表示,自研大模型基于易车在汽车行业多年的深耕与积累,结合最新的人工智能技术,5T+的PT数据,百万级SFT(Supervised Fine-Tuning,监督微调)数据,DPO(Direct Preference Optimization,是一种用于对齐大模型与人类偏好的方法)安全对齐,实现了大模型在汽车领域的全场景支持、汽车知识及时更新、效果领跑,全面赋能汽车行业。此次评测结果的发布不仅揭示了大模型在汽车行业的应用现状,还突显了行业大模型相较于通用大模型在指导技术决策、推动技术创新、促进行业定制化、提升应用效能、推动私有化部署等垂直领域的独特优势。

[MD:Title]
易车副总裁张磊

模型路由技术方案切实提升群体智能协同平台工作效能

此次易慧智能重磅推出的模型路由技术方案——基于多模型的YiAgent群体智能技术框架,作为一个有机系统,包含了大模型库、汽车行业大模型评测集、YiAgent群体智能平台三个子系统。

[MD:Title]

子系统一——大模型库优选当前主流大模型,通过定期的换入换出机制,紧跟当前业内最新技术动态进展。大模型库中的所有大模型都会在大模型路由中进行注册,并统一访问接口。为了满足不同企业客户对不同场景的业务需要,该大模型库中覆盖了各个维度的大模型,包括国内模型和国外模型、商业模型和开源模型、Saas模型和可私有化部署模型、通用模型和行业模型,未来将持续增加更多的优秀模型补充进来。

考虑到各个外部模型的持续更新迭代,易慧智能会定期对大模型进行升级迭代,尤其是微调参数量较小的模型,不断提升模型效果,降低成本。

子系统二——汽车行业大模型评测集覆盖行业最全面的基础知识和营销核心场景能力,可根据真实应用场景实时更新评测数据,定期刷新大模型库中所有模型的评测结果,并将评测结果同步至大模型路由。

子系统三——YiAgent群体智能平台可以根据任务动态选择某个单体agent(数字员工)或者群体agent(数字员工团队)。Agent路由作为用户需求的总入口,执行“CEO”的角色。

单体agent(数字员工)完成任务所需不同技能可通过大模型路由动态选择最优大模型。

在YiAgent群体智能平台子系统中,大模型路由模块承担着为各项技能精准匹配最优大模型的重任。鉴于各大模型在专长领域上的差异,系统依据评测结果,为每项技能分配表现最为出色的模型。在模型表现相近的情况下,系统秉持成本效益原则,优先选用参数量较少的模型,以实现资源的最优化配置。此外,大模型路由模块还兼具负载均衡功能,当某一模型负载达到阈值时,能够智能地将部分请求引导至次优模型,确保服务的连续性与稳定性,有效规避服务中断的风险。

据业内资深人士分析指出,模型路由技术方案的发布,为大模型在汽车营销领域的实际部署与效能提升,开辟了一条极具价值的参考途径。此举不仅强化了易慧智能在汽车AI产品与服务解决方案领域的优势地位,更将实质性地推动AI技术在汽车行业内的创新步伐,实现行业整体效率与客户竞争力的显著提升。