List of Accepted Papers

Pagoda: Fine-Grained GPU Resource Virtualization for Narrow Tasks Tsung Tai Yeh;Amit Sabne;Putt Sakdhnagool;Rudolf Eigenmann;Timothy G. Rogers
Tapir: Embedding Fork-Join Parallelism into LLVM’s Intermediate Representation (Best Paper Award) Tao B. Schardl;William S. Moses;Charles E. Leiserson
Groute: An Asynchronous Multi-GPU Programming Model for Irregular Computations Tal Ben-Nun;Michael Sutton; Sreepathi Pai; Keshav Pingali
Self-Checkpoint: An In-Memory Checkpoint Method Using Less Space and Its Practice on Fault-Tolerant HPL Xiongchao Tang;Jidong Zhai;Bowen Yu;Wenguang Chen;Weimin Zheng
SC-Haskell: Sequential Consistency in Languages that Minimize Mutable Shared Heap Michael Vollmer;Ryan G. Scott;Madan Musuvathi;Ryan R. Newton
Synchronized-by-Default Concurrency for Shared Memory Systems Martin Bättig;Thomas R. Gross
Checking Concurrent Data Structures Under the C/C++11 Memory Model Peizhao Ou;Brian Demsky
An Efficient Abortable-locking Protocol for Multi-level NUMA Systems Milind Chabbi;Halim Amer;Shasha Wen;Xu Liu
Silent Data Corruption Resilient Two-sided Matrix Factorizations Panruo Wu;Nathan DeBardeleben;Qiang Guan;Sean Blanchard;Jieyang Chen;Dingwen Tao;Xin Liang;Kaiming Ouyang;Sihuan Li;Zizhong Chen
Function Call Re-Vectorization Rubens Emilio;Sylvain Collange;Fernando Magno Quintao Pereira
Eunomia: Scaling Concurrent Search Trees under Contention Using HTM Xin Wang;Weihua Zhang;Zhaoguo Wang;Ziyun Wei;Haibo Chen;Wenyun Zhao
Layout Lock: A Scalable Locking Paradigm for Concurrent Data Layout Modifications Nachshon Cohen;Arie Tal;Erez Petrank
Understanding the GPU Microarchitecture to Achieve Bare-Metal Performance Tuning Xiuxia Zhang;Guangming Tan;Shuangbai Xue;Jiajia Li;KerenZhou;Mingyu Chen
EffiSha: A Software Framework for Enabling Efficient Preemptive Scheduling of GPU Guoyang Chen;Yue Zhao;Xipeng Shen;Huiyang Zhou
Simple, Accurate, Analytical Time Modeling and Optimal Tile Size Selection for GPGPU Stencils Nirmal Prajapati;Waruna Ranasinghe;Sanjay Rajopadhye;Rumen Andonov;Hristo Djidjev;Tobias Grosser
Using Butterfly-Patterned Partial Sums to Draw from Discrete Distributions Guy L. Steele Jr.;Jean-Baptiste Tristan
Exploiting Vector and Multicore Parallelism for Recursive Data- and Task-Parallel Programs Bin Ren;Sriram Krishnamoorthy;Kunal Agrawal;Milind Kulkarni
Thread Data Sharing in Cache: Theory and Measurement Hao Luo;Chen Ding
Combining SIMD and Many/Multi-core Parallelism for Finite State Machines with Enumerative Speculation Peng Jiang;Gagan Agrawal
KiWi: A Key-Value Map for Scalable Real-Time Analytics Dmitry Basin;Edward Bortnikov;Anastasia Braginsky;Guy Golan Gueta;Eshcar Hillel;Idit Keidar;Moshe Sulamy
Noise Injection Techniques to Expose Subtle and Unintended Message Races Kento Sato;Dong H. Ahn;Ignacio Laguna;Gregory L. Lee;Martin Schulz;Christopher M. Chambreau
Contention in Structured Concurrency: Provably Efficient Dynamic Non-Zero Indicators for Nested Parallelism Umut A. Acar;Naama Ben-David;Mike Rainey
Processor-Oblivious Record and Replay Robert Utterback;Kunal Agrawal;I-Ting Angelina Lee;Milind Kulkarni
Model-based Iterative CT Image Reconstruction on GPUs Amit Sabne;Xiao Wang;Sherman Kisner;Charles Bouman;Anand Raghunathan;Samuel Midkiff
A Multicore Path to Connectomics-on-Demand Alexander Matveev;Yaron Meirovitch;Hayk Saribekyan;Wiktor Jakubiuk;Tim Kaler;Gergely Odor;David Budden;Aleksandar Zlateski;Nir Shavit
Optimizing the Four-Index Integral Transform Using Data Movement Lower Bounds Analysis Samyam Rajbhandari;Fabrice Rastello;Sriram Krishnamoorthy;Karol Kowalski;P. Sadayappan
S-Caffe: Co-designing MPI Runtimes and Caffe for Scalable Deep Learning on Modern GPU Clusters Ammar Ahmad Awan;Khaled Hamidouche;Jahanzeb Maqbool Hashmi;Dhabaleswar K. Panda
Isoefficiency in Practice: Configuring and Understanding the Performance of Task-based Applications Sergei Shudler;Alexandru Calotoiu;Torsten Hoefler;Felix Wolf
Grammar-aware Parallelization for Scalable XPath Querying Lin Jiang;Zhijia Zhao

List of Accepted Papers

Tracks

Workshops