作为知识的摇篮和创新的源泉,高校在数字化时代积累了海量的数据资源。这些数据涵盖了教学、科研、管理等各个方面,但未经分类分级的数据就像一座无序的宝库,难以管理和保护。而大模型技术的出现则为高校数据管理带来了新的机遇和挑战。一方面,大模型具有强大的数据处理和分析能力,能帮助高校更好地理解和利用数据。另一方面,大模型的应用也对数据的质量和安全性提出了更高的要求。如果没有对数据进行有效的分类分级,大模型的应用可能会导致数据泄露和滥用等安全问题。因此,基于大模型的高校数据分类分级研究具有重要的现实意义。若利用得当,其不仅能提高高校数据的安全性和管理效率,还可为高校的教学、科研和管理提供更精准的支持。
随着大模型在高校中的广泛应用,数据量呈爆炸式增长,数据类型也日益多样化。传统的数据分类分级方法已难以满足需求,迫切需要结合大模型的特点,构建新的分类分级体系。首先,通过对高校数据进行科学合理的分类,可以更好地管理和利用数据。例如,按照部门维度、人员维度、资产维度、业务维度、应用维度等进行分类,能够清晰地了解数据的归属和用途,为数据的安全管理奠定基础。其次,准确的分级可以确定数据的重要程度和安全风险等级,便于采取相应的保护措施。具体而言,应深入研究大模型对高校数据的影响,分析数据的特征和安全需求,并结合国家相关法律法规和教育行业标准制定适合高校的数据分类分级策略。同时,要通过实际案例分析,不断优化和完善策略,确保其有效性和可行性。
现有分类分级方法
第一种分类方法是线分类法。该方法旨在将分类对象按选定的属性或特征分为若干层级,每个层级又分为若干类别。同一分支的同层级类别之间是并列关系,不同层级类别之间则构成隶属关系,同层级类别互不重复、互不交叉。这种方法适用于对一个类别只选取单一分类维度进行分类的场景。如在高校数据分类中,可以按照部门维度进行线分类,从学校整体到各个学院、系部,再到具体的科室,最终形成层次分明的分类体系。
第二种分类方法是面分类法,即依据所选定的分类对象本身固有的各种属性或特征将其分成彼此独立的面,每个面中都包含了一组类别。而将某个面中的一种类别和另外的一个或多个面的一种类别组合在一起,则可以组成一个组合类别。面分类法是并行化分类方法,同一层级可有多个分类维度,适用于对一个类别同时选取多个维度进行分类的场景。比如,在高校数据分类中,可以同时从部门维度、人员维度、业务维度等多个面进行分类,将不同维度的类别组合起来,更全面地描述数据的属性。
现有方法存在的问题
现有方法存在的第一个问题是标准缺失与不统一。目前,高校数据分类分级的行业标准尚不完善,存在诸多问题。首先,标准的缺失使高校在进行数据分类分级时缺乏明确的指导依据。2022年,《教育系统核心数据和重要数据识别认定工作指南(试行)》明确了核心数据、重要数据及触发条件,指出教育数据按照内容属性可分为机构数据、人员数据、业务数据等三类,按照重要性、精度、规模、安全风险可分为核心、重要、一般三级。然而,教育行业数据分类分级指南标准仍在完善中,高校在实际操作中具体如何对数据进行分类分级仍然缺少有效的指导。其次,标准的不统一也给高校数据分类分级工作带来了困难。不同高校可能根据自身业务特点和发展需要采用不同的分类分级方法,导致数据在不同高校之间的可比性和流通性较低。例如,有的高校更侧重于按照部门维度进行分类,其他高校则倾向于按照人员维度进行分类。这种标准的不统一不仅增加了高校间数据共享和交流的成本,也给数据安全管理带来了挑战。
当前高校数据分类分级实践中,工具效率低和准确度差也是一个突出问题。一方面,数据分类分级仍以人工操作为主,工作周期长、效率低且主观性强。同时,分类中应用的工具和产品准确度亦较低,这就导致部分高校在自动识别和分类数据时,可能出现误判或漏判的情况。原因之一是高校数据包含了大量的学术科研数据、学生个人信息等,而这些数据的类型和结构复杂多样,现有的工具难以准确识别和分类。另一方面,一些工具在自动识别和分类上表现良好,但在处理大规模数据时效率仍较低。随着高校信息化建设的不断推进,数据量呈爆炸式增长,现有的工具往往难以在短时间内完成对大量数据的分类分级。这不仅影响了高校数据管理的及时性和有效性,也给高校的教学、科研和管理工作带来了不便。
基于大模型的分类分级策略
分类分级原则
高校在对数据进行分类分级时,首先应遵循动态调整原则。随着大模型的应用,数据的类别和级别可能会频繁变化。第一,大模型的训练可能会改变数据的特征和重要性,如原本被认为是一般数据的某些数据在经过大模型的挖掘和分析后,可能因被发现具有更高的价值而进行级别调整。第二,政策变化、安全事件发生以及不同业务场景的敏感性变化等因素也会影响数据的类别和级别。为应对此种变化,高校应建立定期审核和调整分类分级数据的机制。可以每季度或半年对数据进行一次全面的审查,根据数据的实际情况进行调整。同时,应利用大模型的数据分析能力,实时监测数据的变化趋势,提前预判可能的类别和级别变化,及时采取相应措施。如通过对学生行为数据的分析,发现某些特定行为模式的数据可能与安全风险相关,进而及时调整相应的数据级别并加强保护措施。
要遵循的第二个原则是就高从严原则。大模型的应用使数据的关联性和融合性增强,一个数据集中可能包含多个级别的数据项。按照就高从严原则进行定级,可以确保数据得到充分保护。例如,一个包含学生个人信息和科研成果的数据集中,学生个人信息可能被定为重要数据级别,而科研成果可能被定为核心数据级别。按照就高从严原则,该数据集应被定为核心数据级别,并采取最高级别的保护措施。此外,大模型的开放性和通用性也增加了数据泄露的风险。就高从严原则可以在一定程度上弥补这种风险,确保即使在最不利的情况下,数据也能得到最大限度的保护。例如,在使用开源大模型时,由于其安全性无法得到充分保障,可能存在数据泄露的风险。按照就高从严原则对数据进行定级,能有效降低此类风险。
分类分级方法
第一种方法是利用大模型进行自动分类。大模型具有强大的语言理解和模式识别能力,可通过对大量高校数据样本的学习识别出不同数据的属性,并据此将数据自动分类。以学生数据为例,大模型能分析学生的学籍信息、选课记录、考试成绩等数据的特征,将其自动分类到学生数据类别中。同时,大模型还可以根据数据的内容主题和来源等多个维度进行分类,进一步提高分类的准确性和全面性。据统计,在某高校的实验中,大模型自动分类的准确率达到了80%以上,有效提高了数据分类的效率和准确性。
第二种方法是智能定级策略,即运用大模型综合考虑多个因素进行智能定级。首先,大模型可以分析数据的重要性,评估数据在教育发展中的作用以及对国家安全、公共利益、个人组织合法权益的影响程度,进而确定数据的级别。其次,大模型可以参照数据的规模和精度,给予数据规模较大且描述对象精确的数据集更高的定级。此外,大模型还可以结合数据的安全风险,分析数据遭泄露、篡改、破坏或非法获取、非法利用、非法共享后可能产生的影响,确定数据的安全风险级别。例如,在对高校科研数据进行定级时,大模型可以综合分析科研项目的重要性、科研成果的规模、精度以及数据安全风险,最终确定科研数据的级别。若科研项目涉及国家重大战略需求、成果规模大、精度高且数据安全风险较高,大模型会将该科研数据定为核心数据级别,采取最高级别的保护措施。
分类分级实践
在实际应用中,高校可以通过以下方式利用大模型进行数据分类分级工作。
首先,高校可以建立专门的数据分类分级团队,成员包括数据管理专家、信息技术人员以及熟悉业务流程的教师和工作人员。这一团队负责制定数据分类分级的策略和标准,并利用大模型技术进行具体的实施。例如,团队可以根据学校的实际情况,确定数据分类的维度和级别,然后利用大模型对学校的各类数据进行自动分类和分级。
其次,高校可以利用大模型对现有数据进行全面的梳理和分析。通过对数据的特征、来源、用途等方面的分析,大模型可以帮助高校更好地了解数据的属性和价值,为数据分类分级提供依据。例如,对于学生数据,大模型可以分析学生的学籍信息、选课记录、考试成绩等数据的关联性,将具有相似特征的数据归为一类,并根据数据的重要性和敏感性进行定级。
此外,高校还可利用大模型对数据进行实时监测和动态调整。随着学校业务的不断发展和数据的不断变化,数据的类别和级别也可能发生变化。大模型可以实时监测数据的变化情况,并根据变化及时调整数据的分类分级。例如,当学校开展新的科研项目或教学活动时,大模型可以分析新产生的数据的特征和价值,及时将其纳入到数据分类分级体系中,并根据需要调整相关数据的级别。
最后,高校可以结合大模型的结果进行数据安全管理。根据数据的分类分级结果,高校可以制定不同级别的数据保护措施,包括访问控制、加密、备份等。例如,对于核心数据,高校应采取严格的访问控制措施,只有经过授权的人员才能访问;对于重要数据,高校应进行加密处理,确保数据在传输和存储过程中的安全性;对于一般数据,高校可以采取定期备份的方式,防止数据丢失。
总之,利用大模型进行高校数据分类分级工作,能提高工作效率和准确性,为高校的数据安全管理提供有力支持。
结语
大模型在为高校带来数据处理效率提升、数据分析深度拓展等机遇的同时,也带来了数据泄露风险增加、安全管理难度加大等挑战。未来应进一步探索大模型在不同场景下对高校数据安全的影响,以及如何制定更加精准和有效的分类分级策略。例如,可以研究大模型应用在高校在线教育、科研合作等领域可能带来的数据安全问题,以及如何结合区块链等新兴技术提高数据的安全性和可信度。另一方面,高校数据分类分级的标准和规范也需要不断完善和统一。要结合国家相关法律法规和教育行业标准,制定更加科学、合理和可行的高校数据安全分类分级标准和规范。同时,还应该加强高校之间的合作与交流,共同推动高校数据分类分级工作的发展。
来源:《中国教育网络》2025年8月刊
作者:赵鑫(东北财经大学智慧校园建设中心)
责编:陈茜