NLP技术对主观评教数据进行情感分析的应用探索

东北财经大学网络信息管理中心范宇辰陈伟

　　对于高校而言，教学质量的好坏直接标示其办学水平的高低，同时教学评价也是政府和教育主管部门加强高校管理、保障教学质量、提升人才培养质量的重要手段。对于教师教学效果的准确评价，一方面可以作为评判教师教学质量优劣的指标；另一方面，对教师教学质量进行科学、客观、公平和全面的评价，是更合理选聘教师及评定教师晋职、晋升资格的需要，以此达到调动教师教学的积极性，提高教师的整体素质，提高教育教学质量的目的。

　　然而，目前在评教过程中仍存在诸多问题，这些问题直接影响着教学质量的提升乃至学校的整体发展。因此，如何克服目前高校教学评价体系的诸多弊端，科学公正地实现教师评价，引导教育教学改革就成为提高教学质量过程中一个非常关键的环节。

问题分析

　　传统教评主要依赖于学生的评教数据，方法是通过采集学生大量的客观打分数据与主管评价语句来对不同教师的教学成果进行评测。然而，由于技术水平的局限和技术手段的缺失，目前大部分高校教评仅利用了学生、管理者、专家等客观打分数据，方法单一，模式简单，并不能作为全面衡量教师教学成果的依据。而海量主观评教数据的沉淀，不仅浪费了很多学生认真用心的教学评价，更无法帮助高校通过科学的方式筛选出具有良好教学口碑的优秀教师，为他们提供更好的发展平台。

设计实现

　　随着技术的进步，如何利用好鲜活的主观评教数据，为教师教学效果提供评价的支撑，是我们需要解决的问题。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，利用NLP自然语言处理技术可以充分分析、挖掘主观评教数据，为教学管理服务。自然语言工具箱（NLTK，Natural Language Toolkit）是一个基于Python语言的类库，它也是当前最为流行的自然语言编程与开发工具。在进行自然语言处理研究和应用时，恰当利用NLTK中的函数可以大幅度地提高效率，达到工作目标。

　　自然语言情感分析目前可采用词典分析或者机器学习来进行。词典匹配是直接计算文本中的情感词，得出它们的情感倾向分值。而机器学习方法的思路是先选出一部分表达积极情感的文本和一部分表达消极情感的文本，用机器学习方法进行训练，获得一个情感分类器。再通过这个情感分类器对所有文本进行积极和消极的二分分类，最终的分类可以为文本给出0或1这样的类别，也可以给出一个概率值。机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会，可使用的场景更多样，无论是主客观分类还是正负面情感分类，机器学习都可以完成任务，而无需像词典匹配那样要深入到词语、句子、语法这些层面。词典方法适用的语料范围更广，无论是手机、电脑这些商品，还是书评、影评这些语料，都可以适用。但机器学习则极度依赖语料，把手机语料训练出来的的分类器拿去给书评分类，那是注定要失败的。

　　经过分析，学生主观评教数据均为短句，90%以上少于20个汉字，语义表达清晰，基本不存在复杂言论。所使用语料较为狭窄，85%以上均在200字语料范围内。因此，采用词典匹配法，结合情感词库进行分析统计得出情感分值是成本较低且准确度较高的做法。

　　评教数据库与数据中心进行数据交换、清洗

　　为了满足智慧校园建设的需要，学校统一数据中心大数据平台采用H3CDataEngine构建，很好的解决了大数据的存储、管理、分析、挖掘等问题，构建起了海量数据处理系统。

　　新华三的H3CDataEngine大数据平台，是集数据采集、存储、查询分析、挖掘、可视化展示、应用开发为一体的综合性数据处理产品，其可帮助用户构建海量数据处理系统，发现数据的内在价值。系统向下能采集用户多源异构的数据集，向上可构建快捷的分析应用。产品问世以来，已通过权威评测机构数据中心联盟的基础能力及性能专项测评。其中功能测评通过全部28大项测试。性能专项，在6个厂家的12项测试中获得6项第一，4项第二，产品整体能力获得业界一致认可。

　　在高校教育信息化领域，通过对重点应用场景的分析，涉及数据类型包括业务结构化数据、实时流数据、图像数据、文本数据这四种，H3CDataEngine大数据平台针对以上数据类型的特点，优化了底层数据库处理平台，内置了常见大数据分析算法，涵盖深度学习、流数据挖掘、文本处理，以及大规模机器学习，并提供可视化数据挖掘组件服务。

　　本应用通过学校统一数据中心实现评教数据库与校主数据仓库的数据交换、管理，在数据交换任务中，进行数据处理，包括去除空数据、补齐空余字段等，查询出每条学生评教数据的主观评价内容。

　　利用Python进行主观评教数据的情感分析

　　具体实现流程为：

　　一是词库准备。结合实际场景，以数据检索、去重的方式建立评价词库。

　　二是语料处理、拆分词汇等。加载停词表，利用结巴分词（jieba）将需要分析的语句拆分成词汇。

　　三是情感分析。将拆分好的词汇与自定义的语句分析表对应，利用自然语言处理模块（NLTK）分析积极与消极词汇。

　　四是结果写入数据库。遍历每一条主观评教数据，将处理结果写入评教库中，如图1所示。

图1 将主观评教数据写入数据库中

　　第一列为拆分后的评价内容，用来展示页面上的学生评价语义分析和学生详细评价。标记一的内容为积极评价数，标记二的内容为消极评价数。

　　可视化设计

　　教学评价系统可视化设计采用了echarts开发组件，可以流畅的运行在PC和移动设备上，兼容当前绝大部分浏览器，底层依赖轻量级的Canvas类库ZRender，提供直观，生动，可交互，可高度个性化定制的数据可视化图表。

　　本案例采用了多种丰富的可视化设计效果，采用了包括雷达图、饼图、词云分析等多种图例，直观展示自然语言情感分析结果，用户普遍反映良好。

效果展现

　　客观评价

　　客观评价分别来源于专家、教师、学生三类人群打分分值，并且通过建立数据模型，从学生、教师、班级三个角度来对原始数据进行处理与和优化，以解决恶意评教、数据区分度不够等问题。最终结果以百分制采用流量图形式进行展示。

　　主观评价

　　学生评价的具体语句以自动滚动的方式进行展现；学生评价语义分析以环状图的方式展示筛选出的排名前十名的评价关键词；情感分析结果以正面和负面评价人数及其占比的方式展现该名教师正负面情感分析结果。

　　目前，经过小范围使用测试，学院的教学管理人员和教师均对此表示认可，该系统能有效利用海量的主观评教数据，大大加深了他们对于学生评教反馈的理解和认识。

改进提升

　　虽然，利用NLP进行教评情感分析已大大提高了学生主观评价数据的利用度，也能基本准确反映教学评价的主观分析结果，但在处理过程中，仍存在着一定缺陷。

　　第一，由于中文语义表达的丰富性而出现误差。如某同学评价语句为：“课程太难，不好理解”，拆分词汇后“太难”、“不好理解”会被定义为负面评价词汇，但实际上该同学仅是对课程做出评价，并不是对老师的教学进行评价，因而出现误判。

　　第二，词库的词汇量有限，对判断结果的分析具有局限性。词典匹配法先天特点决定，词库质量直接影响结果的准确性。实验中，我们采用的积极词汇和消极词汇的词库词汇量有限，当超出词库所包含的词语范围后，便无法对某些词语进行分析匹配。当学生使用一些新奇词汇（如网络用语和新出现的流行语等）进行评价时，此分析方法将会具有一定的局限性，需定期对词库进行补充升级。

　　第三，利用机器学习的方法进行情感分析。机器学习的文本分析方法有很多，如朴素贝叶斯和支持向量机等模型构建方法，或者采用深度学习卷积神经网络分析复杂文本，目前进步非常快，由于是从大量训练样本数据中学习分类模型，这种方法具有人工干预少、通用性和灵活性较强且对领域和语言知识要求较少等优点。对于长文本，复杂语义的内容，使用机器学习的方法进行分析，准确度将大大提高，同时不再受词汇库等的局限。未来，计划采用机器学习、深度学习方法进一步改进分析模型，使其使用范围更广，应用效果更好。

来源：中国教育网络作者：范宇辰陈伟