为进一步深化人工智能等数字技术在生态环境领域的应用,江苏省环保集团监测监控公司联合清华大学大数据研究中心开展产学研用一体化创新攻关,研发生态环境大语言模型智能AI助手模型系统,并在省生态环境厅、南京市生态环境局开展前期试用,推进产学研用一体化创新研发。
问题导向
需求指引破解文本利用“老难题”
长期以来,生态环境领域文本大数据由于其结构多变、逻辑性强等特点导致传统机器学习手段难以对其进行有效的数据整合及信息提取。一是分析挖掘“难”,各类分析报告、溯源报告文本数据的关键信息提取与结构化,往往需要投入大量的人力分析,耗时耗力;二是快速检索“难”,实际工作中难以快速从大量的政策文件、规范制度、法律条文中查找具体条目;三是综合利用“难”,文本材料的深度挖掘以及信息匹配往往需要耗费大量人力。
针对以上问题,监测监控公司基于新兴的大语言模型技术,开展了生态环境领域智能问答助手技术研发,应用文本向量嵌入、非结构化数据存储以及检索增强生成等技术,将2000余份生态环境专业文本资料分类建立了9个专题知识库,以此增强大语言模型在生态环境领域的知识储备,使用户可以通过直观的对话方式对资料库中的文本数据进行查询、分析和再加工,完成信息检索、报告生成、综合分析等实际业务功能。
开放创新
校企联动提升核心技术“硬实力”
大语言模型是近年涌现出来的人工智能领域前沿技术,监测监控公司结合行业垂直领域应用实际需求,联合清华大学大数据研究中心开展校企合作协同创新。项目开展期间,研发团队围绕基础模型选型、模型问答准确性优化以及用户服务系统开发等方面进行技术攻关,显著提升了项目的技术水平及产品的成熟度。通过校企联合开放式创新,加快了核心技术研发进度。经评审,项目获评2023年清华大学大数据能力提升项目优秀团队。
数据安全
自主架构筑牢敏感信息“防火墙”
生态环境领域数据具有一定的敏感性和保密性要求,用户对数据安全的要求较高。研发团队在技术选型过程中,充分考虑系统的稳定性和安全性。采用GLM架构大语言模型作为推理基座,并结合非结构化存储及文本向量嵌入技术进行二次开发,系统实现全部用户数据资料的可控访问及安全管理,可在非联网、局域网和专网环境下运行使用,杜绝用户信息泄露,确保用户数据安全。
目前,生态环境大语言模型智能AI助手模型系统仍在持续优化和完善过程中,并同步在省生态环境厅、南京市生态环境局开展产品试用。后续,监测监控公司研发团队将积极对接用户需求,通过产品试用等方式持续收集用户意见,改进产品性能,有效提升生态环境文本大数据分析利用能力,服务生态环境数字化和智能化治理。
版式:庄 远
审校: 吴亚兵
原标题:产学研用融合共进丨省生态环境监测监控有限公司推动大语言模型在生态环境领域创新研发应用