AI研究员收集NLP数据的四种创意方法

 行业新闻     |      2022-07-13 05:43

宝博体育 - 官网登录

本文摘要:数据是推展AI发展的催化剂,但如果要搜集有效地的数据,这就必须AI专家富裕创造性了。自然语言处置(NLP)是AI的一个子域,侧重于教教计算机如何解析人类语言。在MIT的年度自然语言处置现代科学方法会议(EMNLP2018)中,来自微软公司、脸谱网和谷歌等科技公司或的组织的AI专家们讲解了众多系列搜集信息的精致方法,本文主要总结了其中令人印象深刻印象的四种方法。

宝博体育官网登录

数据是推展AI发展的催化剂,但如果要搜集有效地的数据,这就必须AI专家富裕创造性了。自然语言处置(NLP)是AI的一个子域,侧重于教教计算机如何解析人类语言。在MIT的年度自然语言处置现代科学方法会议(EMNLP2018)中,来自微软公司、脸谱网和谷歌等科技公司或的组织的AI专家们讲解了众多系列搜集信息的精致方法,本文主要总结了其中令人印象深刻印象的四种方法。

1.混合语言(Spanish+English=Spanglish)微软公司在多语种NLP的论文明确提出了一种专心于处置“混合语言”的方法,即在夹杂着有所不同语言的文本或语音中权利转换,考虑到世界上多达一半的人口用于多语言,这个对此前并未牵涉到领域的研究十分最重要。研究人员从西班牙语和英语著手,不过他们缺乏足量的西班牙语文本来训练机器。

正如混合代码,很少能寻找包括多语言会话的文本,研究人员撰写了一个程序解决这个挑战:把风行英语文本载入到微软公司的合于翻译器,然后将以词组为单位翻译成的西班牙语译文转至源文本,保证互相交换的单词和短语不具备某种程度的意思。通过这种方式,他们需要创立出有充足多的西班牙式英语。通过这种方式产生的NLP模型显著高于之前要用西班牙语或要用英语训练的模型。

研究人员期望他们的工作最后能协助研发多语言聊天机器人。2.食谱食谱以图文并茂和循序渐进的方式教教人如何做菜,类似于这种的方法也可以被用来训练机器:用结构数据教会机器同时解读文本和图像。土耳其哈斯特帕大学的研究人员编撰了一套涵括两万多本插画烹调食谱的大型数据集,他们期望将此作为用作训练机器文本-图像解读性能的基准测试的新资源。这个所谓的“食谱QA”的数据集是创建在先前的研究基础之上,此前的研究分别注重机器读者解读和视觉理解能力,对于前者,机器必需解读问题和涉及段落才能寻找答案,而对于后者,机器不能在涉及图像中搜寻答案。

文本和图像的两边减少了任务的复杂性,因为这不会呈现有序或多余的信息。3.短句谷歌期望用AI润色散文,研究人员为此建构了有史以来仅次于的数据集:将长句缩减成短句,但两者不具备完全相同意义。在哪里才能寻找大量的编辑数据呢?当然是维基百科了。

宝博app官网

研究团队从维基百科非常丰富的编辑历史中萃取了合并长句的实例,结果显示,比起以前的基准数据集,这次任务中找到了60倍有所不同的句子合并例子和90倍的词汇单词,而且数据集横跨多种语言。当研究人员用新的数据训练机器学习模型时,其准确度(这里的准确度是指句子被改写后其意义和语法维持准确的比例)高达91%,相比之下,用先前数据展开训练的模型仅有超过32%的准确度,最后,研究人员融合了两个数据集后用此对第三个模型展开了训练,准确度超过了95%。因此,研究人员得出结论,可以通过找寻更好的数据来源构建更佳的效果。

宝博体育官网登录

4.社交媒体的偏差涉及研究已指出,人类建构的语言是人类种族、性别和年龄很好的一个预测指标,即使这些信息未曾被具体地陈述过。因此,以色列巴伊兰大学和艾伦AI研究所的研究人员企图利用AI通过去除这些嵌入指标来避免文本中的偏差。

为了提供充足数据代表基于有所不同人口统计的语言模式,他们改向了Twitter平台,搜集了几组有所不同用户的推文,其中的对比组用户还包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34岁和35岁以上。研究人员使用一种对付方式将两个神经网络互相矛盾,查阅其否能自动除去引文中内在的人口统计指标。

其中一个神经网络企图预测人口统计学,而另一个企图将文本调整到几乎中立的状态,其目的是将第一个模型的预测准确度(或可能性)减少到50%。通过这种方式能明显降低种族,性别和年龄的指标,但无法几乎避免。


本文关键词:宝博体育官网登录,研究员,收集,NLP,数据,的,四种,创意,方法,数据

本文来源:宝博app官网-www.tonghaocapital.com