“从ChatGPT发布至今短短不到一年的时间,人工智能企业、大模型厂商以及社会各界风起云涌,在不到一年时间内,我们欣喜地看到,大模型正日益深入地跟每个人息息相关。”在10月20日举办的2023科大讯飞全球1024开发者大会上,科大讯飞董事长刘庆峰感叹到。
ChatGPT的出现引爆了一场人工智能的狂欢,各方势力纷纷下场,开启“百模大战”。今年5月6日,讯飞星火认知大模型V1.0发布时,科大讯飞定下了今年的三个发展目标:6月9日,突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升;10月24日,实现通用模型对标ChatGPT,并在教育、医疗等领域做到业界领先。
10月24日,科大讯飞如期交出成绩单。讯飞星火认知大模型V3.0正式发布,在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力方面都有所提升。
此外,讯飞联合行业龙头共同发布12个行业大模型,加速产业落地。其自主创新的大模型算力平台已经启动。讯飞联合昇腾生态共同发布“飞星一号”大模型算力平台,并启动对标GPT-4的更大参数规模的星火大模型训练。
此次开发者大会上,刘庆峰定下了一个新目标:2024年上半年,讯飞星火将实现对标GPT-4。在刘庆峰看来,这不仅仅是一个简单的技术对标问题,“我们要走出自己的技术路线,走出自己的产业方向,形成自己完整的生态。从这个角度来说,大模型时代的序幕才刚刚拉开!”刘庆峰说到。
而对于汽车行业来说,大模型上车的步伐也才刚刚拉开。
讯飞智驾方案新鲜出炉
人们对于大模型赋能汽车的想象空间主要集中在几个方面:一是伴随着大模型在深度理解、逻辑推理、情感捕捉等方面的进步,打造类人的座舱交互体验。二是依托大模型,通过多模态融合等人工智能技术,进一步助力智能驾驶发展。此外,还有大模型会带来更广泛的应用生态,以及促进“软件定义汽车”的发展等。
10月24日,科大讯飞同步召开以“释放想象力·智能新出行”为主题的智能汽车新品发布会,会上,科大讯飞发布了基于讯飞星火V3.0的座舱、音效、智驾三大方向的产品升级。
大模型的理解、推理、表达和多模态知识学习等能力给自动驾驶带来了更多新的技术思路,基于讯飞星火认知大模型,科大讯飞发布了两款行泊一体智驾解决方案——智驾STD和智驾PRO,配备增强型高速NOA(HNOA)、记忆行车和记忆泊车等功能。
对于大模型如何提升自动驾驶能力,行业还在探索初期,在科大讯飞看来,大模型利用海量数据以及驾驶领域知识的强化,可以用于自动驾驶场景数据以及驾驶策略的生成,并支持以交互的方式增强对基础驾驶模型的理解。
基于此,科大讯飞自研了从深度学习训练到模型调优量化、模型推理部署的全栈工具链,并打造了智驾应用开发框架和中间件,支撑跨平台算法快速移植,以及自研4D重建与自动标注系统提升标注的效率和质量。
星火大模型将从技术架构层面赋能BEV+transformer智驾感知大模型的研发,意图解决智能驾驶当前存在的感知不精准、决策不智能、长尾不收敛三大技术难题。
据讯飞介绍,通过统一的BEV+Transformer网络,可以实现多模态、多任务、长时序4D感知等能力。此外,科大讯飞还开发了基于机器学习的超声波感知算法应用,提升感知准确性和泛化性。
重感知正成为当下推动高阶辅助驾驶快速落地的一大趋势,视觉感觉的技术也在加速发展。
机器视觉是科大讯飞2030Top计划的核心,在自动驾驶对视觉依赖越来越强的今天,科大讯飞依托在机器视觉方面的积累和投入打造智驾方案。
科大讯飞智能汽车事业部副总经理李卫兵认为,视觉感知技术能够加速智能驾驶落地,具有轻地图、重感知、低成本、快落地等特点。
科大讯飞的两款智驾方案,其中智驾STD算力为15TOPS,凭借6个摄像头、5个毫米波雷达和12个超声波雷达,能够实现基础ADAS、自动泊车(APA)、高速NOA、记忆泊车等在内的32项功能点。智驾PRO算力为50TOPS,硬件方案为11个摄像头、5个毫米波雷达和12个超声波雷达,支持的功能点达40项。
AI算法研发能力、完整的数据闭环云平台、工程技术能力等,是科大讯飞行泊一体智驾解决方案的支撑,科大讯飞在此基础上打造车云一体的智驾研发体系。
具体来看,科大讯飞通过算法迭代提供基础设施支撑和数据服务,打造功能平台为安全研发优化神经网络推理提供数据,保证其模型的训练的效率和训练的质量。同时科大讯飞将会增建百辆规模的算法研发测试数据回流的开发平台等。
在智驾领域,科大讯飞除提供行泊一体智驾解决方案外,另有四大服务:采集服务、数据服务、标注服务、训练服务。
以数据标注为例,自动驾驶所需标注的数据类型呈现多样化,数据数量也在呈现指数级的提升。然而,目前普遍存在的问题是标注数据的准确性较低及综合成本较高。
用人工标注的数据去训练云端大平台,再用训练过后的云端大平台去协助进行自动标注,结合少量的质检和人工调整,能生成更多的标注数据,形成正向循环,逐步用来提升感知大模型的自动标注的程度和效果,并进一步的降低成本。科大讯飞自研4D重建与自动标注系统,以提升标注效率和质量。
“未来我们结合大模型的精准的识别能力,数据挖掘能力和强大的生成能力,进一步丰富我们的仿真场景,构建更接近现实的仿真环境,以大幅提升我们算法的迭代效率,支撑整个智驾系统的快速高效的进化。”李卫兵说到。
李卫兵指出,智能汽车这个新物质的本质需求在不断的进化。要能够做到全生命周期的持续迭代OTA,需要Tier 1方案提供商有强大的技术实力,坚定的长期战略。在李卫兵看来这也不是一般的小公司能够做得到。
以数据驱动为开发模式的自动驾驶发展阶段,大模型赋能自动驾驶在车端、云端实现端到端的平台管理,在数据采集标注、仿真、算法优化等各个层面赋能自动驾驶发展,科大讯飞这类的大模型AI厂商,或将迎来时代机遇。
大模型与智能座舱,碰撞出更多火花
大模型在智能座舱领域的应用已有一些产品出现,科大讯飞将讯飞星火V3.0与智能座舱进一部结合,面向多样化的汽车使用场景,推出星火座舱OS、星火汽车APP和星火座舱域控三大产品,支持实时检索,可以实现插件化调度,并集成了多模态生成的能力,目的是为合作伙伴提供自主可控、组件化、更开放的座舱解决方案。
大模型上车的一个典型应用是助力实现对话式交互,为车辆的驾驶出行、导航、娱乐等环节提供强大的支持,使驾驶员和车辆之间的交流更为自然流畅。这种新型的交互方式正在改变着人们对于汽车智能座舱的认知。
科大讯飞介绍到,在过去,人们常常将车机屏幕视为车内的一个平板电脑,然而,随着对话式交互的出现,人们开始意识到汽车智能座舱可以提供更多的可能性。
据悉,星火座舱OS包括星火汽车助理和星火场景应用两大部分,语音合成MOS>4.6,大模型业务贯穿支持十轮以上的上下文语义继承,新增实时检索能力。借力大模型赋能,星火座舱OS打造了多个沉浸式的使用场景,并支持自定义,一句话生成复杂场景,触达200+车控动作。
至于星火汽车APP则是围绕用车场景打造的多样化大模型车端应用,涵盖用车顾问、儿童故事、口语陪练、心灵SPA、旅行伙伴等等。
座舱体验的很大组成部分在于其内容、应用生态,科大讯飞除了基于其自研的儿童教育、K12教育、音娱资源、听见会议以及讯飞翻译五大自建生态资源外,讯飞星火大模型赋能的智能座舱已经与支付宝、咪咕文娱、腾讯音乐、喜马拉雅、高德、火山引擎、雷石、能链、喜泊客等九家企业开展了深度生态合作,以满足车主多元化需求。此外,科大讯飞智能座舱还与百余家企业生态积极合作,期望以丰富全面的软件生态赋能智能座舱。
星火座舱域控是科大讯飞打造的智能化AI底座,面向行业输出兼容核心AI算法的“核心板”,基于全栈的座舱AI算法和结合芯片的异构算法优势实现芯算融合,SOC算力消耗降低10%。
科大讯飞智能汽车事业部副总裁和卫民表示,是否具备AI算力或NPU加速能力是座舱域控开发的核心竞争力。“我们的目标是基于星火座舱域控方案,可以提供给Tier 1或车企一个平台,让其可以开发自己的差异化应用,让大家以最小的资源,最快的时间,更好的做产品的差异化。”和卫民说到。
车载音效,还有更多玩法
作为驾驶场景下最安全和高效的交互方式,听觉感官在车内备受关注,用户对汽车场景下的听感品质要求逐渐提高,对高级别车载音响系统的需求也在持续增长,
特别是随着自动驾驶技术的发展,人们在车里面的精力被释放出来,有更多的机会可以去学习、工作、娱乐和休息。现在智能座舱的发展,有很多应用场景与音效息息相关,诸如K歌、会议、看视频等,要想打造沉浸式的体验,车载音效的设计也必须与时俱进,从单一维度向多维度发展,从单一场景向多场景延伸。
这为汽车音效品牌实现智能化提供了新的机遇。当下无论是新老品牌都在积极推动着智能化产业升级。
科大讯飞在智能音效领域算是老玩家了,其认为车载音频系统的发展可分为三个阶段:第一个阶段,1930-1984年,是基础音效阶段,包含收音机、磁带机等产品;第二个阶段,1994-2016年,环绕音效体验阶段,涵盖模拟功放、数字功放等产品;第三个阶段,2021年往后,车载音频系统开始进入多维表达与全场景覆盖的阶段,标志性产品便是智能音效管理系统。
科大讯飞给汽车智能音效也做了一个分级,与自动驾驶类似,从L1到L5,对应着从基础音效、基础功能到身临其境的极致体验。
两年前,科大讯飞在广州发布了提供16个以上通道、20个以上扬声器的智能车载音频系统,开始进入L3阶段。此次,科大讯飞有发布了支持24个通道、30个以上扬声器,具有更强大的AI技术加持的新一代音频管理系统。
为了适配不同级别的车型,科大讯飞推出了灵活的软硬一体平台,分别是iFlySound STD平台、iFlySound PRO平台、iFlySound PLUS平台。其iFlySound Plus 24ch功放硬件平台,将基于应用场景的交互、听感、内容、显示与车控深度融合。
据介绍,在硬件层面,iFlySound Plus24ch功放硬件平台使用高性能浮点DPS,拥有最高2GHZ*2的高速音频处理加速器和128通道数字音频处理能力,可以获得24bit 96kHz的HD Audio支持,并且兼容未来E-E架构。同时,科大讯飞在保证性能的前提下,降低了硬件的尺寸和重量,实现“小型化轻量化”。
在软件算法层面,基于科大讯飞自研技术,当前已具备3D环绕、声场分区、车内交流偿、车载K歌和大模型音效等多个音效算法。以此为基础,科大讯飞推出了基于持续丰富的声音库、声浪库、音效库、功能库的订阅模式。
论大模型如何提升音效体验,科大讯飞做出一些尝试。在调音层面,科大讯飞基于大模型声学理论体系实现人机耦合,端云协同AI调音,基于iFlyDSP GUI工具,无需代码更改,可以快速完成定制需求,价值全自研MCU基础软件架构,可使跨平台代码复用度超70%,基于此适配不同定位和级别的车型。
“未来,我们可以通过车内设备来采集整车的环境,上传到云端,在云端的话我们会有深度学习的大模型,能够对车载环境进行深入分析,并且结合车型本身的音效综合定位来进行自动化调音,可以完成调音师70%以上的技术性工作,确保在降低成本、提高效率情况下,满足调音流程的标准化。”科大讯飞苏研院常务副院长、科大讯飞汽车事业部副总经理支洪平说到。
据悉,当前,科大讯飞车载音效产品已获得国内13家主流车企平台化项目定点,合作车型超过30款。
结语
在智能汽车领域,“大模型上车”已经成为一种趋势,它将为智能座舱、自动驾驶带来更多的智能化、个性化、高效化的特点,提升用户的使用体验。
随着技术的不断进步和应用场景的不断扩展,“大模型上车”将会为智能汽车产业的发展和创新带来更加广阔的空间和机遇。
更深层次的是,大模型将不仅聚焦具体的车端应用体验,而是赋能整个汽车产业链条的发展,无论是生产、研发、营销、售后等环节,都有所助力,现在才只是刚刚开始。