伊芙·卡莉现年25岁,是美國麻省理工学院计算机专业的一名博士。
事实上,一般的计算机专业学生很少有读到博士的,基本上多数人读完硕士就各奔前程了。
但伊芙·卡莉在学术的道路上有着属于她自己的追求。
尽管这份追求几乎注定一路独行。
但她始终乐在其中,前行一路上最大的动力是兴趣。
除了兴趣之外最大的原因,则是因为工作带来的自豪感。
作为麻省理工学院自然语言处理研究项目文本摘要小组中的一名成员,她也有理由自豪。
毕竟世界上效率最高的抽取式文本摘要算法就是他们小组搞定的。
伊芙·卡莉一向以此为荣。
然而这份荣光在半小时前却荡然无存。
比他们团队开发的抽取式文本摘要算法还要强的新的文本摘要算法问世了。
而且还是以成熟应用的形式直接出现在了蘋果的应用商店中。
伊芙·卡莉也是接收到尼克的求助邮件才获悉了这件事。
事实上刚收到来自尼克那措辞夸张的求助邮件她还有点怀疑。
她甚至一度以为是尼克那个自大而又愚蠢的幸运白/痴记错了愚人节的日期。
尼克用的那个软件里的算法表面上是伊瑟劣的团队负责的
但实际上麻省理工学院的自然语言处理项目文本摘要小组才是该算法真正的出处,
尼克软件里所采用算法可以说是伊芙·卡莉他们课题组每个人心血的结晶。
对于其亲自参与搞定的算法伊芙·卡莉还是很自信的。
怎么可能有软件的算法对新闻摘要处理效率比他们开发的算法处理效率更高呢?
并不是她本人夜郎自大盲目自信。
之前很多出现在应用商店里很多打着新闻摘要旗号的软件的核心算法实际效率都十分低下。
甚至很多号称算法独步的新闻摘要程序最终也只是被证明是徒有虚名而已。
对于这次所谓的南风app宣称的什么地表效率最强准确度全球最高
开始时伊芙·卡莉也只是把这些lgan当作噱头而已,并没有放在眼里。
然而事实却很打脸,这个南风app非但不是纸老虎,反而堪称绝世凶兽。
至少在处理新闻摘要这方面南风app所采用的算法在效率方面是强到离谱。
经过量化测试,伊芙·卡莉更是发现南风app100轮测试里英文新闻摘要的平均速度要比尼克开发的那个软件软件快241。
这还不算什么,将南风app在计算力更高的虚拟机上运行时。
100轮测试里英文新闻摘要的平均速度更是比同条件下他们的那种算法的摘要平均速度要快350。
可以说是全方位吊打了。
伊芙·卡莉很不理解,怎么可能有一种算法在抽取式文本摘要算法在效率上比他们开发的算法效率强出三倍之多。
根据他们的研究,现在的抽取式文本摘要算法潜能几乎已经发掘殆尽了。
莫非是南风app的算法团队找到了压榨抽取式文本摘要算法潜能的新方式了?
不可能,绝对不可能。
再怎么着他们的研究小组也是汇聚了全球首屈一指技术大牛的自然语言处理算法团队啊。
没道理他们这些精英会被人在同一方向后来居上。
如果南风app算法团队不是后来居上的话,那应该就是弯道超车了?
也就是说南风app的算法采用的绝对不是传统的抽取式文本摘要算法,而应该是采用了一种全新的摘要算法。
外行看热闹,内行看门道。
伊芙卡莉从之前南风app进行的几组新闻摘要测试的输入输出结果中很快验证了她的猜测。
南风app果然采用了全新的文本摘要算法。
至于判断的依据么,很简单。
抽取式的文本摘要直接从原文中摘取单词或完整的短语作为文章的摘要。
这个过程并不会产生新闻原文中没有的单词和短语。
而南风app这款软件在新闻摘要中却会产生很多新闻原文中没有的单词和短语。
也就是说南风app中所采用的算法绝对不是抽取式算法,至少不单单是抽取式算法。
而这种新的算法在进行新闻摘要的一大特征是会产生新闻原文中没有的单词和短语。
比起传统的抽取式文本摘要,伊芙·卡莉觉得南风app里这种全新的摘要方式更像是生成式的摘要方式。
然而新的疑问旋即出现在伊芙·卡莉的脑海之中。
这个南风app的开发者究竟是怎么搞定这种姑且被叫做“生成式摘要算法”的全新算法呢?
所谓的生成式摘要算法这样类似的依托于神经网络的摘要算法他们的开发团队之前也曾经涉猎过。
当时他们将这种算法称为“概括式摘要算法”,可是这种算法经过他们小组多轮测试实际表现并不理想。
虽然这种概括式或者叫生成式文本摘要的摘要算法能够产生原文中没有出现过的表达,相比于抽取式摘要算法更加灵活。
但也正因此生成式摘要更容易产生事实性错误,这些错误既包括与原文信息相违背的内容,又包括与人们的常识相违背的内容。
除此之外,这种生成式文本摘要算法在应付长新闻时很容易表现出明显的疲软乏力。
虽然将这种生成式摘要算法和抽取式摘要算法放到一起的话会改善生成式摘要算法处理新闻长度的能力。
但经过测试,没有生成式摘要算法拖油瓶,抽取式摘要算法反而能够表现的更加理想。
为了稳妥起见,伊芙·卡莉所在的团队最终还是选择通过进一步强化抽取式文本摘要的速度和准确度这一传统文本摘要方向。
一个曾经被他们遗弃的方向,却被别人重新拾起?
听起来有点不可思议,但是事实就是南风app的开发者不但重新拾起他们曾经遗弃的研究方向,反而做的比他们更优秀,可以说是狠狠打脸了。
伊芙·卡莉有点困惑,她怎么也想不通南风app的开发者究竟是怎么在他们认为行不通的方向趟出一条道的。
但有一点可以肯定,南风app的开发者虽然用的也是跟概括/生成式算法相类似的算法,但具体到生成式算法本身至少要比他们当初做的那个生成式算法先进一代。
尽管心中困惑加上狠狠被打脸,但伊芙·卡莉并没有表现出很情绪化,至少没有如同尼克在信中表现的那样情绪化。
多年的研究生涯早就养成了伊芙·卡莉宠辱不惊的理性性格。
再者科技方面的进步原本就是此起彼伏。
如果因为一时的得失就患得患失,那还不如尽早换行。
多余的情感波动非但没有必要,反而会影响理智的判断。
深入体验南风app,伊芙·卡莉不得不承认,虽然这款app很像是临时拿翻译软件过来凑数的,但核心算法确实很强。
甚至一如这款软件宣传标语所说的那样——“地表最强”。
除此之外这款软件宣称的摘要速度与摘要准确度碾压同类软件也所言非虚。
等等,想起南风app这款软件宣传标语中着重强调的“准确度”,伊芙·卡莉突然想到了什么。
现在的新闻摘要软件算法在宣传方面都是强调速度的,很少又在准确度方面大谈特谈的。
倒不是因为准确度在新闻摘要方面不重要,恰恰相反,准确度在新闻摘要这方面极其重要,可以说准确度是衡量一个摘要算法堪不堪用最根本的因素,但各种摘要算法很少有对精确度进行极其精确的量化宣传的。
原因无它,因为现在业内对准确度的衡量缺乏一个统一的标准。
听起来很不可思议,但是事实如此,评估一篇摘要的准确度看似很容易,但其实这是一件比较困难的任务。
对于一篇摘要的衡量而言,很难说有标准答案,不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。
在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等衡量摘要准确度的标准都缺乏一个统一的标尺。
在现今评估自动文本摘要质量的两种方法:人工评价方法和自动评价方法。
人工评估就是邀请若干专家人为制定标准进行人工评定,这种方法比较接近人的感受。
但是耗时耗力,不但无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景也并不符合。
最关键的是以拥有主观思想的人进行摘要的评价的话,很容易出现偏差,毕竟一千个人眼里有一千个哈姆雷特,每个人对新闻摘要的衡量都有自己的准绳,或许一个衡量团队可以制定一个统一的衡量标准,但换一个衡量团队很可能衡量标准便不一样。
这就很容易导致在评判准确度的时候因为评判团队的不同,同一次的摘要结果会得到截然不同的评价。
评判团队千差万别,很容易导致一些明明有实力做好算法的团队却因为评判团队拉跨出师未捷身先死。
伊芙·卡莉他们团队的文本摘要算法之前一度能够在全球领先。
跟他们和牛津、哈佛、耶鲁三所大学的语言学方面深度合作有着很大的关系。
但这终究不是长久之计,人工的评估方法因其固有的局限性注定了走不远。
因此,文本摘要算法研究团队积极地研究自动评价方法。
自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。
比较著名的会议或组织包括ac、dc、tac(tetanalyference)等。
尽管相关的团队在积极研究自动评价方法,在现今评估自动文本摘要质量的两种方法(人工评价方法和自动评价方法)还是以人工评价方法这个评估方法最为常用。
很多自动评价方法的原理主要是将摘要算法生成的新闻摘要和参考摘要进行比较通过最大拟合程度来进行评价。
这个评价的过程虽然是自动的,但参考摘要却是人工撰写的。
也就是说即便是所谓的自动评价方法,也摆脱不了主观因素的介入。
那样的话何苦多费一遍功夫用什么自动评价方法?
也正因为如此很多团队在评估摘要质量时选择的方式依旧是人工评估。
而人工评估这种主观东西就很难对结果进行客观的量化。
正因为这种情况,尽管之前不少团队摘要算法准确度都还算不错。
但涉及到新闻摘要准确度方面的宣传,大家都选择性的遗忘了。
就这种情况下,为什么南风app的开发者在软件介绍中却言之凿凿地称这款软件准确度比同类软件高出270。
这个所谓的270究竟是基于什么标准去衡量的呢?一时之间伊芙·卡莉陷入了沉思。
无论这个270是怎么得出来的,想来应该不是无中生有。
在别的国家的软件宣传是什么规矩伊芙不清楚,但是在米国如果没有一个逻辑自洽的衡量模型作为理论支撑就贸然进行这种无中生有的量化宣传的话,很容易被罚的底裤都不剩。
即南风app这个所谓的“270”大概率是建立在足够强大并且能够逻辑自洽的准确度衡量模型的基础之上的。
不过也不好说,每年为了博眼球而不顾宣传规矩的开发者比比皆是。
出于严谨的科研态度,伊芙·卡莉以【文本摘要准确度衡量模型】为关键词进行了检索。
在检索结果中伊芙·卡莉一眼就看到了混杂在一众模型之中的有一个新出现的准确度衡量模型。
没办法,很难注意不到,以往的十多个对文本摘要准确度进行衡量的模型,伊芙·卡莉说是如数家珍也不为过。
现在这个名为“l文本摘要准确度衡量模型”伊芙·卡莉之前就从来没见过。
大致看了一下这个模型采用的准确度衡量方法。
伊芙意外的发现通过这种全新的准确度衡量模型,评估人员不需要引入任何主观因素介入到摘要准确度的评估的过程中。
正因为没有主观因素的介入,这个准确度评估方法完全可以对现有的全部文本摘要算法的摘要准确度进行量化分析。
这个衡量模型还演示了几个使用范例。
在尼克雅虎新闻摘要那个软件里的算法经该模型衡量之后,准确度分数居然只有1分。
而南风app则获得了37分的分数。
看到这个结果,伊芙明白了南风app所谓的摘要准确度领先270是怎么来的了。
看来这个l文本摘要准确度衡量模型一定也是南风app的开发者搞定的了。
即便不是南风app开发者搞定的,两者之间应该也有某种联系。
不然这个模型的衡量结果怎么会同南风app的软件宣传的数据出现高度的同质化。
不得不说,这个名为l的全新的衡量准确度的方式让伊芙·卡莉有种豁然开朗的感觉。
通过利用该衡量模型,他们今后的研究也会更顺畅一些。
不过让伊芙·卡莉比较意外的是“l文本摘要准确度衡量模型”并不是以论文的形式单独出现的,
而是出现在一个名为“生成式文本摘要算法”的专利中。
在专利中出现的衡量模型?无疑意味着即便这个模型很高效,但在实际使用时理论上还是要得到专利所有者的授权。
这也太狗了吧?哪有把这种模型往专利里放的道理。
而且只是一个算法有必要申请专利吗?
尽管伊芙·卡莉他们之前的算法很强大,但是他们也并没有申请专利。
不过对此伊芙也没什么好说的。
他们之所以不申请算法专利不是因为他们大公无私。
而是因为他们之前的算法只是在前人的基础上改进,并不具备完全的独创性。
另外申请专利多多少少都会涉及到一定程度的技术公开。
虽然专利申请者可以不公布全部的细节,但即便是不公布细节,也需要把技术路线说明。
在知道技术路线的情况下,世界上顶尖的研发团队也不是吃素的。
虽然不能按照专利里阐述的技术路线开发出一个一模一样的算法明着侵权。
但是通过专利里公开的技术路线受到的思维启发却很容易让别的相似技术弯道超车。
事实上也正因为担心技术路线泄露的问题,这些年在米国很少出现专门的算法专利。
额,还是说这个专利所有者就是那么自信,根本不怕别人追赶?
伊芙看到“生成式文本摘要算法”这项专利的拥有者是l
从拼读上看似乎是个中文名字,对于这个名字伊芙茫然无知。
不过通过谷歌搜索l,伊芙倒是很容易搜到了一堆相关信息。
然而这些信息对伊芙来说都算不上什么好消息。
伊芙看到l虽然是在专利中提出的“l文本摘要准确度衡量模型”。
但他似乎没有将该模型私有的打算。
反而主动将这个模型呈报给美國国国家标准委员会以及国际标准化组织进行审核。
即l非但不介意将这套评估方式公开,反而致力于将这套衡量体系作为新闻摘要行业里衡量摘要准确度的标准。
也可以理解,哪个人不渴望自己随便做的一个框框成为全世界通用的标准呢?
现在新闻摘要行业除了l模型之外,几乎没有一种完全不需要引入主观因素的衡量准确度的模型。
在这种情况下,这个“l文本摘要准确度衡量模型”大概率将成为文本摘要准确度衡量的唯一客观标准。
这是什么概念?正所谓一流团队做标准,二流团队做技术。
在伊芙他们团队还在浮于技术层面进行算法研究时。
真正有雄心的开发者l不但着手搞定了更有效率文本摘要算法。
同时还谋求对行业标准进行统一。
所以说他们一开始就落败了么?
尽管一向波澜不惊,此时伊芙·卡莉也不免有些黯然。
她默默地将l这个极其自信并且有远见的中國人的名字记在了心中。