2024年4月 家考开始

疫情持续席卷世界,各个国家先后出台“封城令”。本应春意盎然的四月却呈现出一派萧条景象:全行业停摆,街道空无一人。但就在全面衰退的大背景下,一个神奇的行业却在不起眼处悄然萌芽。 很快,参与考试的人就发现,ETS的安检措施漏洞百出,监考更是形同虚设。尤其是,ETS并不对考生电脑中的程序做任何检查。换句话说,如果一个远程或屏幕分享软件可以静默运行(不显示任何窗口或图标),ETS就秒变白内障。 由于疫情来的毫无预兆,考试软件并未经过任何复杂设计就匆匆上线,导致其监控力度严重不足:它只能看到考生屏幕上显示的内容,仅此而已!只要在考试期间,没有软件突然跳出来显示在屏幕上,分数就稳稳出,无论托福还是GRE。 于是,保分机构开始崛起。利用各式各样的远程控制软件,考手可以轻而易举的骗过ETS的审查,甚至可以代替考生答题。 在这个时期如果你说要用手机拍题,换来的只有一声嗤笑:“为什么要这么做?是太闲了吗?”。所以刷这个时期的小红书,是看不到任何有关“纯物理”的笔记的——大家都在用远程软件。 这段日子保分机构和ETS的蜜月,而长期相处中相爱相杀才是常态。

2020年10月 by Adding as Much Content as You Want

分数取消?小概率事件。一百次中出现1、2次,不足为惧,再战便是。

但是整个10月的保分成绩几乎全部被取消?怎么可能!绝对不可能!

不等机构们从震惊中缓过神,雪片般的bad news迎面砸来:

我无法进入考试,考试软件自检不合格!

考试软件突然跳出一个报错弹窗,接着考试软件退出,考试强行结束了!

我考到一半,考官把我叫停,给我发了一段话,然后就不让我考了!

为什么刚考完就收到复查邮件,成绩被delay了还有什么别的办法吗?

原来,ETS对考试软件做出重大升级。在本次升级中,ETS增加了专门针对远程控制/屏幕共享软件的检测: 软件“黑名单”:将已知的远程软件的进程名称放入黑名单,并不断更新。若名单内进程出现,考生立刻被踢出考试 网络流量分析:排查常见的远程协议,发现协议特征即刻关停考试 经过试错摸索后,机构们再一次找到了自以为正确的方式。既然常用的、知名的远程软件无法过检,那就用小众的、还没被加入黑名单的远程软件。既然流量使用过多会被终止考试,那就降低图像的质量、降低帧数,使得流量耗费大幅缩减。为了更进一步缩减流量用量,部分机构不再提供远程控制考生键盘鼠标代替作答的方式,转而采用让考生利用手机接受答案,然后自己填写的方式。 手机,虽然暂时还没用来拍照,但这是它首次登上保分的舞台。 整体来说,这个时期有点像保分机构和ETS玩打地鼠游戏。保分机构找到一款远程软件,用一段时间;ETS发现,封一款;保分机构再接着找下一款,如此反复。 随着ETS监考收紧,一些现在被人熟知的词汇也开始出现:delay,复查,大规模取消成绩,禁考,等等。 这只是ETS第一次亮出利爪,且绝不会是最后一次。

有远程功能的软件太多太多,多数人认为保分机构与ETS之间的“打地鼠游戏”还将继续,直到2021年7月23日。

那是一个很平常的早上,保分机构的考手们按时坐在了电脑前,用不知名的远程软件看着考官对考生进行安检。只等考官一声令下,考手们即可大展拳脚,考生也可以收获不错的成绩。

熟悉的考试软件被打开,可展现在考手面前的不是题目,而是一片黑屏——黑屏里映出的是考手错愕的表情。无论如何指挥考生拖延时间,无论如何重启考生的电脑,只要进入考试页面,黑屏就鬼魅一般神奇出现。更神奇的是,考生居然可以正常看见考试内容,只有考手看不见!

原来,在Secure Browser的0.9版本中,加入了更全面的针对远程软件的封杀。

  • DRM(电子版权内容保护)黑屏:任何试图获取屏幕图像的行为都会被拦截,并返回黑屏;除了ETS和考生自己以外,没人可以看见屏幕上有什么

  • 底层系统钩子:从操作系统底层读取鼠标键盘的电位信息,即按键是否被按压;任何通过远程控制的输入是不可能在键盘上产生真实的按压的,所以据此ETS可以屏蔽远程控制

  • 流量规律:通过port扫描监控网络流量,重点检查有明显发包规律的进程

  • 设备锁:一旦开始考试,设备即被锁定,无法切出

  • 窗口句柄检查:周期性扫描有无活跃窗口覆盖在考试软件之上

  • 进程dump:对可疑进程创建dump,并依据dump出的内存信息分析进程行为

至此,ETS从底层原理上绝杀远程软件。没有任何一款幸存。

机构们无法解决黑屏和设备锁,又不想放弃生意,只能让学生回归最原始的方式:拍题。并起了一个好听的名字:纯物理。由于这种没有技术实力的机构实在是压倒性的绝大多数,所以甚至不需要彼此商量,它们为了利益不约而同的统一口径:纯物理才是救世主!是唯一真神!

至此,机构们万般无奈的放弃了它们曾经爱不释手的远程软件,并为了推销“纯物理”而拼命诋毁曾为它们赚取无数利益的“远程”。

可惜一个好听的名字,并不能掩盖技术上的无能,也不能换来稳定的成绩。

试问,如果让你想出一种办法“搞定”一个线上考试,你的第一直觉是什么?

对咯,用手机拍。ETS也是这样想的。

而下次,ETS的屠刀会挥向自以为安全稳妥,但实则漏洞百出的纯物理考生。

正值申请季,托福保分进行得如火如荼,参与在线考试的人数比21年环比增长了20%左右。但被ETS取消成绩的人数,却比21年增长了接近500%,达到了约4万人次。引用来源:ETS公众号(ETS官方)—《对话ETS首任首席安全官:ETS如何维护考试安全

与小红书里的机构们虚构出的歌舞升平、欣欣向荣、一片大好出分图景不同,这才是冷冰冰的现实。

这次,ETS究竟又做了什么?

ETS开始利用AI检测考生视线。这是一种基于计算机视觉(Computer Vision)的深度学习(Deep Learning)检测模型。通过海量的考生摄像头画面训练卷积神经网络(Convolutional Neural Network)模型,即可对确定考生的视线落点的参数进行最大似然估计(Maximum likelihood estimation)。结合参数,即可大致判断考生所看之处。

ELPIS结合ETS专利信息已经对考试软件的逆向工程,参考了多篇CVPR有关Gaze Tracking/Pupil Tracking的论文,还原了ETS的视线检测模型,并用于考前培训。详情请见:。。。

如果AI识别出异常行为,考生就会被flag;考生被flag的次数越多,系统判断该场考试的风险系数就越大。另外,真人考官亦可手动flag考生行为。由于AI识别并不完全准确,存在一定的假阳(False Positive)率,所以AI给出的flag虽然次数较多,但权重较小;而真人考官手动给出的flag虽然次数少,但权重极大。系统会根据flag次数和权重,实时计算出该场考试的风险系数,不同风险系数阈值对应着不同的检测强度。自然,更高的风险系数意味着更低的出分率。

 

除了先进的AI技术,增设“飞行监考/反介入专家”(Intervention Specialist)是另一个杀手锏。“飞行监考/反介入专家”由一批受过专业训练,专门针对线上监考,来自ETS OTI部门的英语母语者担任。他们不会全程监控某一位考生考试,而是像巡考一样巡回查看高风险系数的考试,而口语部分又是被巡查的重中之重。

纯物理考生从此开始身处非常矛盾的两难之境。

如果不看手机,那就不知道答案;

如果看手机,视线会被标记异常,招致关停考试;

有些机构开始利用一些“奇思妙想”试图解决问题,并美其名曰:考前培训。这些机构所谓的“考前培训”,无非发给考生几个视频,里面的主旨只有一句话:要看手机,但别看得那么明显。用余光!

如果余光真的那么厉害,小昆虫们又何必进化出复眼呢?退一步讲,即便考生可以完美的利用余光瞟到选择题答案,口语和作文又该怎么办呢?这无非是头痛医头,脚痛医脚的鸵鸟式解决方案。不能说没有一点用处,但是用处也少的可怜,解决不了本质上的痛点。

纯物理本质的痛点在哪里?

在于只要想看答案,视线必须向固定的某处转移;

一旦考生被二次安检,来不及“收摊”,被抓现行必禁考;

应该如何解决这些问题呢?

ELPIS也没办法。纯物理相当于“又让马儿跑,又让马儿不吃草”。这是哲学上的二律背反(antinomy),属于无解。因为“纯物理”错在了方法论,而方法论上的宏观错误是不可能用操作上的微观改进去弥补的。打个比方,中世纪的炼金术师为了将铜块炼成黄金,不可谓不努力、不勤奋。

他们有着神农尝百草般的执着,随时准备在爆炸和有毒气体之中献身。

甚至,他们发明了很多改进制造工艺的手段,比如多臂蒸馏器和分馏皿。但结果呢?现代科学告诉我们:炼金术是不可行的,因为金是原子序79的金属元素,而非化合物,所以无法被合成。 时代在变化,科技在进步,人工智能都要在某些特定领域代替博士了。

通过深度学习实现了高精度的大规模蛋白质结构预测,彻底改变了结构生物学研究范式,加速了药物发现并深化了对生物分子功能的理解)

>要是还在纠结“我怎么拍照怎么看手机才能100%让摄像头抓不到,而且不被二次安检”,ELPIS觉得不如思考以下问题:

  • 如何利用爆竹将载人飞船送往火星

  • 如何用手雕刻出2纳米制程的CPU

  • 如何用100元实现可控核聚变

所以,错误的方法是无论花费多少努力都无法补救的。So why bother?

监考机制更趋向于成熟,除了以上提到的变化外,监考仿佛对“抓现行“这件事开始变得重视起来。据ELPIS猜测,部分原因可能是极少部分的确是自己考,但是又 被取消成绩的考生给ETS送去了大量投诉。尽管这种被冤枉的情况实属少见,但参加ETS旗下各种考试的家考版本的考生基数十分庞大,每年有数十万之多。即便 0.5%的考生被冤枉,也足有上干人,况且有些人还不止只考一次。
所以,ETS开始加大二次安检的力度,旨在尽量避免误判。但出于以上提到的种种,纯物理的考生又不得不时常面对二次安检,形成无解闭环。但宣扬纯物理的机 构们只字不提二次安检的事情,仿佛不会发生一样,照旧让考生们在桌面上摆摊,让考生们在考试时给监考推销手机。
不少令人啼笑皆非的事情就是发生于这个时期,比如《美国小哥被国内机构哄骗使用“纯物理”》、《GRE纯物理遭遇二次安检被当场取消成绩》。

Wheebox的监考几乎都是开朗活泼的印度考官,毕竟Wheebox是一个HQ在印度的ETS子公司。同时,Wheebox对于考场环境的检查比ProctorU严格很多,甚至有些考场的布置要求ETS都没有规定,Wheebox则会按照比ETS更高的标准检查考场环境:比如可以供人通过的窗子都算作门。

毫无疑问的,监考变得更加严格。

技术上,来自微软的Cognitive AI Service代替了从前ProctorU自研的视线检测系统,对视线落点的捕捉精度提升了一个量级;改进的环境音检测系统,结合面部识别综合判断考生是否在与他人交流;引入Typing DNA技术检测考生打字,答题规律和习惯。

非技术方面,Wheebox监考官倾向于写更多的incident reports,尽量事无巨细的向ETS汇报情况,flag宁可给错也不少给,主打一个积极主动不背锅。ELPIS认为这可能是由于印度的文化和工作环境造成的,毕竟印度高考都会发生这样的情况。

印度监考官对于网考的过度敏感,和技术上比base在北美的ProctorU更加严格,也倒是情有可原了。

除了正面拍摄考生考试过程的电脑摄像头,还要另一个放在侧面的手机作为第二监考机位。第二机位的手机要求可以录制到考生的:电脑屏幕、键盘、鼠标(触控 板)、双手、头肩部。毫无疑问,这极大的增加了作弊的难度,也让所谓的物理方案不攻自破。但是,即便是在托福已经双机位的今天,我们依旧可以在小红书上 看见“纯物理稳过双机位”之类的暴论。 对于准备留学的考生而言,大家应该都听过一个名词——Critical Thinking,批判性思考。Critical Thinking不仅仅是一个仅存在于SAT阅读、GRE作文中的名词,而 是应该真正变成一种惯性思维。排除一厢情愿,ELPIS有一句美国谚语送给各位:If it looks like a duck, swims like a duck, and quacks like a duck, then it probably is a duck.

文章最后,让我们再次回到“炼金术”的例子。现代分析心理学的创始人Carl Gustav Jung认为,古代的炼金术实际上是一种人以自己的心灵发展为参照,对自然界 现象的投射行为。简言之,人们愿意以自己相信可行的方式去达成心中所想的目的,但是在这个过程中,往往会忽略了科学、客观的规律。
ELPIS把这种现象称为“虚假的安全感”,这种“虚假的安全感“在人类历史的方方面面一遍又一遍的上演:毕竟,太阳底下没什么新鲜事。
晚清的义和团相信只要脱光衣服站在城墙上,城门就不会被大炮轰开;大刀会成员相信,吞符念咒就可以神灵护卫、刀枪不入。这正是迷信和洗脑带来的“虚假安 全感”!
多年苦练金钟罩铁布衫抵不过一颗直径不到一厘米的弹头。最后义和团的大师兄们绝望的发现:七步之外,枪快。七步之内,枪又快又准。 大人,时代变了。请别再对着ETS的信息化堡垒发动“义和团“式的冲锋了。