第90章 ding尖算法团队的赞叹

+A -A

比较著名的会议或组织包括SUMMAC、DUC、TAalysis

最关键的是以拥有主观思想的人进行摘要的评价的话，很容易出现偏差，毕竟一千个人眼里有一千个哈姆雷特，每个人对新闻摘要的衡量都有自己的准绳，或许一个衡量团队可以制定一个统一的衡量标准，但换一个衡量团队很可能衡量标准便不一样。

但有一点可以肯定，南风APP的开发者虽然用的也是跟概括/生成式算法相类似的算法，但具体到生成式算法本身至少要比他们当初做的那个生成式算法先进一代。

一个曾经被他们遗弃的方向，却被别人重新拾起？

等等，想起南风APP这款软件宣传标语中着重强调的“准确度”，伊芙·卡莉突然想到了什么。

跟他们和牛津、哈佛、耶鲁三所大学的语言学方面深度合作有着很大的关系。

为了稳妥起见，伊芙·卡莉所在的团队最终还是选择通过进一步强化抽取式文本摘要的速度和准确度这一传统文本摘要方向。

尽管心中困惑加上狠狠被打脸，但伊芙·卡莉并没有表现出很情绪化，至少没有如同尼克在信中表现的那样情绪化。

但这终究不是长久之计，人工的评估方法因其固有的局限性注定了走不远。

人工评估就是邀请若干专家人为制定标准进行人工评定，这种方法比较接近人的阅读感受。

多年的研究生涯早就养成了伊芙·卡莉宠辱不惊的理性性格。

但经过测试，没有生成式摘要算法拖油瓶，抽取式摘要算法反而能够表现的更加理想。

听起来很不可思议，但是事实如此，评估一篇摘要的准确度看似很容易，但其实这是一件比较困难的任务。

倒不是因为准确度在新闻摘要方面不重要，恰恰相反，准确度在新闻摘要这方面极其重要，可以说准确度是衡量一个摘要算法堪不堪用最根本的因素，但各种摘要算法很少有对精确度进行极其精确的量化宣传的。

深入体验南风APP，伊芙·卡莉不得不承认，虽然这款APP很像是临时拿翻译软件过来凑数的，但核心算法确实很强。

再者科技方面的进步原本就是此起彼伏。

虽然将这种生成式摘要算法和抽取式摘要算法放到一起的话会改善生成式摘要算法处理新闻长度的能力。

虽然这种概括式或者叫生成式文本摘要的摘要算法能够产生原文中没有出现过的表达，相比于抽取式摘要算法更加灵活。

自上世纪九十年代末开始，一些会议或组织开始致力于制定摘要评价的标准，他们也会参与评价一些自动文本摘要。

原因无它，因为现在业内对准确度的衡量缺乏一个统一的标准。

如果因为一时的得失就患得患失，那还不如尽早换行。

但是耗时耗力，不但无法用于对大规模自动文本摘要数据的评价，和自动文本摘要的应用场景也并不符合。

评判团队千差万别，很容易导致一些明明有实力做好算法的团队却因为评判团队拉跨出师未捷身先死。

伊芙·卡莉他们团队的文本摘要算法之前一度能够在全球领先。

多余的情感波动非但没有必要，反而会影响理智的判断。

甚至一如这款软件宣传标语所说的那样——“地表最强”。

因此，文本摘要算法研究团队积极地研究自动评价方法。

除此之外，这种生成式文本摘要算法在应付长新闻时很容易表现出明显的疲软乏力。

当时他们将这种算法称为“概括式摘要算法”，可是这种算法经过他们小组多轮测试实际表现并不理想。

在现今评估自动文本摘要质量的两种方法：人工评价方法和自动评价方法。

在摘要任务中，有关于语法正确性、语言流畅性、关键信息完整度等衡量摘要准确度的标准都缺乏一个统一的标尺。

这就很容易导致在评判准确度的时候因为评判团队的不同，同一次的摘要结果会得到截然不同的评价。

对于一篇摘要的衡量而言，很难说有标准答案，不同于很多拥有客观评判标准的任务，摘要的评判一定程度上依赖主观判断。

但也正因此生成式摘要更容易产生事实性错误，这些错误既包括与原文信息相违背的内容，又包括与人们的常识相违背的内容。

伊芙·卡莉有点困惑，她怎么也想不通南风APP的开发者究竟是怎么在他们认为行不通的方向趟出一条道的。

听起来有点不可思议，但是事实就是南风APP的开发者不但重新拾起他们曾经遗弃的研究方向，反而做的比他们更优秀，可以说是狠狠打脸了。

的摘要算法他们的开发团队之前也曾经涉猎过。

现在的新闻摘要软件算法在宣传方面都是强调速度的，很少又在准确度方面大谈特谈的。

除此之外这款软件宣称的摘要速度与摘要准确度碾压同类软件也所言非虚。

如果您喜欢【我的书包】,请分享给身边的朋友