大数据 > Allen Research Institute提出的AI模型:它可以检查文件中的意见

Allen Research Institute提出的AI模型:它可以检查文件中的意见

2020-05-05 20:09阅读(61)

对于研究人员检查文件中的意见事实并检查文件非常重要 反复。 但是,过去检查和复制纸张并不是一件容易的事。 华盛顿大学和艾伦人工智能研究所的 研究人员表示,

1

对于研究人员检查文件中的意见事实并检查文件非常重要 反复。 但是,过去检查和复制纸张并不是一件容易的事。 华盛顿大学和艾伦人工智能研究所的

研究人员表示,他们已经开发了一种称为verisci的AI系统,该系统会自动根据科学思想检查事实。 论文,面孔或小说:验证科学主张,于5月1日发布在预印本网站arXiv上。根据该论文,该AI系统不仅可以识别支持或反对研究思想的摘要,还可以从摘要中提取证据。 为自己的预测提供证据。

是事实检查论文中观点的另一个重要角色,即可以帮助解决科学文献重复的问题。 在文献中,很难找到研究的可重复性。 2016年,对1500位科学家进行的民意测验显示,其中70%的人试图复制文献,但未能实现。 特别是

,研究人员首先建立了一个语料库。 该语料库包含:科学主张; 支持或反对科学主张的摘要; 合理的标注依据。 然后,使用引文技术,该方法可以在科学文献中标记科学主张,然后研究人员根据BERT模型(Google引入的双向编码器表示模型,即自然语言处理领域的模型)对系统进行训练。 ,以便识别句子并标记每个声明。 根据介绍

,该科学数据集从5183个摘要语料库中检查了1409个科学视图。 这些摘要是从包含数百万篇科学论文(s2orc)的公共数据库中收集的。 为了确保只收录高质量的论文,研究小组取消了少于10篇引文和部分论文,并从一系列涵盖基础科学,临床医学和其他领域的广受好评的期刊中随机抽取了样本。 同时,为了标注sciface,研究人员招募了一组注释器。 注释者的工作是从原始文章的上下文中找到被引用的句子,然后根据引用来重写三个观点。 有必要确保观点与原始含义一致。 另一方面,自然语言处理专家负责创建关键字反过滤以获得摘要反驳关键字的示例。 这样做还避免了引入明显有偏见的科学观点。 注释者使用支持,拒绝或缺乏信息来标记论文摘要,并适当标记支持或拒绝的原因。 研究人员还介绍了干扰因素,以避免在同一文章的不同段落中出现相同的引文句子。

该语料库包含:科学主张; 支持或反驳科学主张的摘要

scifact的数据集建立后,训练verisci模型包括三个部分:摘要检索,即与给定观点的相似度最高的摘要的检索; 基本原则选择,可以确定每个候选人摘要的基本原则; 标签预测,这是最终的标签预测。 在实验中,研究人员说,该系统可以正确识别支持或反驳标签的可能性的一半(46.5%),并提供合理的证据。 为了证明该系统的通用性,研究团队围绕新型冠状病毒的科学论文进行了实验演示。 根据该报告,医学生评论员认为,与新冠状病毒有关的Verisci的大多数观点(36种观点中的23种)被认为是合理的,表明该模型可以成功检索和分类。

但verisci并不完美,因为它经常被上下文所混淆,无法综合论证,或无法整合来自不同来源的信息来进行判断。

“科学事实检查提出了一系列独特的挑战,这些挑战扩大了神经模型在复杂的语言理解和推理中的局限性。尽管它的规模很小,但与用维基百科文章和政治新闻构建的事实检查数据集相比,verisci的训练更加熟练,而且具有记号 研究人员在论文

中说:““这项研究提供了希望,但是我们的发现表明,需要进一步的工作来改善端到端事实检查系统的性能。” 下载“ sursuring news”应用以获取更多原始信息)

相关问答推荐