执行“张量代数”的新系统提供更快的大数据分析 2017-05-13 13:24:09

$888.88
所属分类 :基金

一个新的麻省理工学院计算机系统加速计算涉及“稀疏张量”多维数据阵列,主要由零组成在计算机协会的系统,编程,语言和应用会议:人类软件(SPLASH),麻省理工学院的研究人员,法国替代能源和原子能委员会和Adobe Research最近推出了一个新系统,可自动生成针对稀疏数据优化的代码我们生活在大数据时代,但大多数数据都是“稀疏”的想象,例如,一个庞大的表格,映射所有亚马逊客户的所有产品,给定客户购买的每种产品为“1”,否则为“0”表格大部分为零

对于稀疏数据,分析算法最终会进行大量的加法和乘法零,这是浪费的计算程序员通过编写自定义代码来避免零条目,但这个代码是复杂的,它是gen仅适用于一系列狭窄的问题新代码比现有的非优化软件包提供了100倍的速度提升其性能可与针对特定稀疏数据操作的精细手动优化代码相媲美,同时要求更少在程序员的工作部分该系统称为Taco,用于张量代数编译器在计算机科学的说法中,像亚马逊表这样的数据结构称为“矩阵”,张量只是矩阵的高维模拟

亚马逊表还根据客户在亚马逊网站上的产品评级以及产品评论中使用的字词对客户和产品进行了映射,结果将是一个四维张量“稀疏表示已存在超过60年,”Saman说Amarasinghe,麻省理工学院电气工程与计算机科学教授(EECS)和新论文的高级作者“但没有人知道如何为他们自动生成代码人们无花果省略了一些非常具体的操作 - 稀疏矩阵 - 向量乘法,稀疏矩阵 - 向量乘法加向量,稀疏矩阵 - 矩阵乘法,稀疏矩阵 - 矩阵 - 矩阵乘法我们做出的最大贡献是为任何张量生成代码的能力 - 当矩阵稀疏时的代数表达“在纸上加入Amarasinghe是第一作者,EECS麻省理工学院研究生Fredrik Kjolstad; Stephen Chou,也是EECS的研究生;法国替代能源和原子能委员会的David Lugato; Adobe研究中的Shoaib Kamil定制内核近年来,张量的数学处理 - 张量代数 - 不仅对大数据分析而且对机器学习也至关重要

自从爱因斯坦时代以来,它一直是科学研究的主要内容

处理张量代数,数学软件已将张量运算分解为它们的组成部分因此,例如,如果计算需要将两个张量相乘,然后加到第三个,则软件将在前两个张量上运行其标准张量乘法程序,存储结果,然后运行其标准张量添加例程然而,在大数据时代,这种方法过于耗时为了在海量数据集上进行高效操作,Kjolstad解释说,每个张量运算序列都需要自己的“内核, “或计算模板”如果你在一个内核中执行它,你可以一次完成所有操作,你可以让它更快,而不是必须在内存中输出输出,然后将其读回来,以便将其添加到其他内容中,“Kjolstad说”你可以在同一个循环中完成它“计算机科学研究人员为一些最常见的张量操作开发了内核机器学习和大数据分析,例如Amarasinghe列举的那些

但是可能的内核数量是无限的:例如,用于将三个张量加在一起的内核与用于将四个加起来的内核不同,并且内核用于添加三个三维张量与内核不同,用于添加三个四维张量许多张量操作涉及将一个张量的输入与另一个张量相乘如果任一条目为零,它们的产品也是零,并且用于操纵大型稀疏矩阵的程序可以浪费了大量的时间来增加和乘以零 用于稀疏张量的手动优化代码识别零条目并简化涉及它们的操作 - 要么添加非零条目,要么完全省略乘法这使得张量操作更快,但它需要程序员做更多的工作乘法的代码两个矩阵 - 一个简单类型的张量,只有两个维度,如一个表格 - 例如,如果矩阵已满,可能需要12行(意味着没有条目可以省略)但是如果矩阵是稀疏的,那么相同的操作可能需要100行或更多代码,以跟踪遗漏和缺陷输入Taco Taco自动添加所有额外代码程序员只需指定张量的大小,无论是完整还是稀疏,以及文件的位置应该导入它的值对于两个张量上的任何给定操作,Taco构建一个分层图,首先表明来自两个张量的哪些配对条目是非零的,然后,来自每个张量的哪些条目与零配对它简单丢弃的所有零对Taco还使用有效的索引方案来仅存储稀疏张量的非零值,包括零条目,来自亚马逊的公开发布的张量,其映射客户ID号码从评论中剔除购买和描述性术语,占用107艾字节的数据,或大约是所有谷歌服务器估计存储容量的10倍但是使用Taco压缩方案,它只需要13千兆字节 - 小到足以适应智能手机“过去二十年来,许多研究小组都试图解决稀疏矩阵计算的编译器优化和代码生成问题,但进展甚微,“俄亥俄州立大学计算机科学与工程教授Saday Sadayappan说

没有参与研究“Fred和Saman最近的发展代表了这个长期存在的开创性的根本性突破n问题“”他们的编译器现在使应用程序开发人员能够以非常简单方便的高级表示法指定非常复杂的稀疏矩阵或张量计算,编译器从中自动生成非常高效的代码,“他继续说道

”对于几个稀疏计算,已经证明,编译器生成的代码与精心开发的手动实现相当或更好

这有可能成为真正的游戏改变者

它是近期在编译器优化领域最激动人心的进步之一“PDF Copy of论文:Tensor代数编译器资料来源:麻省理工学院新闻Larry Hardesty