~swilson/gem5-docs/wavefront_8cc_source.html

 /*

  * Copyright (c) 2011-2015 Advanced Micro Devices, Inc.

  * All rights reserved.

  *

  * For use for simulation and test purposes only

  *

  * Redistribution and use in source and binary forms, with or without

  * modification, are permitted provided that the following conditions are met:

  *

  * 1. Redistributions of source code must retain the above copyright notice,

  * this list of conditions and the following disclaimer.

  *

  * 2. Redistributions in binary form must reproduce the above copyright notice,

  * this list of conditions and the following disclaimer in the documentation

  * and/or other materials provided with the distribution.

  *

  * 3. Neither the name of the copyright holder nor the names of its contributors

  * may be used to endorse or promote products derived from this software

  * without specific prior written permission.

  *

  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

  * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

  * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

  * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

  * POSSIBILITY OF SUCH DAMAGE.

  *

  * Author: Lisa Hsu

  */


 #include "gpu-compute/wavefront.hh"


 #include "debug/GPUExec.hh"

 #include "debug/WavefrontStack.hh"

 #include "gpu-compute/compute_unit.hh"

 #include "gpu-compute/gpu_dyn_inst.hh"

 #include "gpu-compute/shader.hh"

 #include "gpu-compute/vector_register_file.hh"


 Wavefront*

 WavefrontParams::create()

 {

     return new Wavefront(this);

 }


 Wavefront::Wavefront(const Params *p)

   : SimObject(p), callArgMem(nullptr), _gpuISA()

 {

     lastTrace = 0;

     simdId = p->simdId;

     wfSlotId = p->wf_slot_id;

     status = S_STOPPED;

     reservedVectorRegs = 0;

     startVgprIndex = 0;

     outstandingReqs = 0;

     memReqsInPipe = 0;

     outstandingReqsWrGm = 0;

     outstandingReqsWrLm = 0;

     outstandingReqsRdGm = 0;

     outstandingReqsRdLm = 0;

     rdLmReqsInPipe = 0;

     rdGmReqsInPipe = 0;

     wrLmReqsInPipe = 0;

     wrGmReqsInPipe = 0;


     barrierCnt = 0;

     oldBarrierCnt = 0;

     stalledAtBarrier = false;


     memTraceBusy = 0;

     oldVgprTcnt = 0xffffffffffffffffll;

     oldDgprTcnt = 0xffffffffffffffffll;

     oldVgpr.resize(p->wfSize);


     pendingFetch = false;

     dropFetch = false;

     condRegState = new ConditionRegisterState();

     maxSpVgprs = 0;

     maxDpVgprs = 0;

     lastAddr.resize(p->wfSize);

     workItemFlatId.resize(p->wfSize);

     oldDgpr.resize(p->wfSize);

     barCnt.resize(p->wfSize);

     for (int i = 0; i < 3; ++i) {

         workItemId[i].resize(p->wfSize);

     }

 }


 void

 Wavefront::regStats()

 {

     SimObject::regStats();


     srcRegOpDist

         .init(0, 4, 2)

         .name(name() + ".src_reg_operand_dist")

         .desc("number of executed instructions with N source register operands")

         ;


     dstRegOpDist

         .init(0, 3, 2)

         .name(name() + ".dst_reg_operand_dist")

         .desc("number of executed instructions with N destination register "

               "operands")

         ;


     // FIXME: the name of the WF needs to be unique

     numTimesBlockedDueWAXDependencies

         .name(name() + ".timesBlockedDueWAXDependencies")

         .desc("number of times the wf's instructions are blocked due to WAW "

               "or WAR dependencies")

         ;


     // FIXME: the name of the WF needs to be unique

     numTimesBlockedDueRAWDependencies

         .name(name() + ".timesBlockedDueRAWDependencies")

         .desc("number of times the wf's instructions are blocked due to RAW "

               "dependencies")

         ;


     // FIXME: the name of the WF needs to be unique

     numTimesBlockedDueVrfPortAvail

         .name(name() + ".timesBlockedDueVrfPortAvail")

         .desc("number of times instructions are blocked due to VRF port "

               "availability")

         ;

 }


 void

 Wavefront::init()

 {

     reservedVectorRegs = 0;

     startVgprIndex = 0;

 }


 void

 Wavefront::resizeRegFiles(int num_cregs, int num_sregs, int num_dregs)

 {

     condRegState->init(num_cregs);

     maxSpVgprs = num_sregs;

     maxDpVgprs = num_dregs;

 }


 Wavefront::~Wavefront()

 {

     if (callArgMem)

         delete callArgMem;

     delete condRegState;

 }


 void

 Wavefront::start(uint64_t _wf_dyn_id,uint64_t _base_ptr)

 {

     wfDynId = _wf_dyn_id;

     basePtr = _base_ptr;

     status = S_RUNNING;

 }


 bool

 Wavefront::isGmInstruction(GPUDynInstPtr ii)

 {

     if (ii->isGlobalMem() || ii->isFlat())

         return true;


     return false;

 }


 bool

 Wavefront::isLmInstruction(GPUDynInstPtr ii)

 {

     if (ii->isLocalMem()) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstALU()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && (ii->isNop() ||

         ii->isReturn() || ii->isBranch() ||

         ii->isALU() || (ii->isKernArgSeg() && ii->isLoad()))) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstBarrier()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && ii->isBarrier()) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstGMem()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && ii->isGlobalMem()) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstLMem()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && ii->isLocalMem()) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstPrivMem()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && ii->isPrivateSeg()) {

         return true;

     }


     return false;

 }


 bool

 Wavefront::isOldestInstFlatMem()

 {

     assert(!instructionBuffer.empty());

     GPUDynInstPtr ii = instructionBuffer.front();


     if (status != S_STOPPED && ii->isFlat()) {

         return true;

     }


     return false;

 }


 // Return true if the Wavefront's instruction

 // buffer has branch instruction.

 bool

 Wavefront::instructionBufferHasBranch()

 {

     for (auto it : instructionBuffer) {

         GPUDynInstPtr ii = it;


         if (ii->isReturn() || ii->isBranch()) {

             return true;

         }

     }


     return false;

 }


 // Remap HSAIL register to physical VGPR.

 // HSAIL register = virtual register assigned to an operand by HLC compiler

 uint32_t

 Wavefront::remap(uint32_t vgprIndex, uint32_t size, uint8_t mode)

 {

     assert((vgprIndex < reservedVectorRegs) && (reservedVectorRegs > 0));

     // add the offset from where the VGPRs of the wavefront have been assigned

     uint32_t physicalVgprIndex = startVgprIndex + vgprIndex;

     // HSAIL double precision (DP) register: calculate the physical VGPR index

     // assuming that DP registers are placed after SP ones in the VRF. The DP

     // and SP VGPR name spaces in HSAIL mode are separate so we need to adjust

     // the DP VGPR index before mapping it to the physical VRF address space

     if (mode == 1 && size > 4) {

         physicalVgprIndex = startVgprIndex + maxSpVgprs + (2 * vgprIndex);

     }


     assert((startVgprIndex <= physicalVgprIndex) &&

            (startVgprIndex + reservedVectorRegs - 1) >= physicalVgprIndex);


     // calculate absolute physical VGPR index

     return physicalVgprIndex % computeUnit->vrf[simdId]->numRegs();

 }


 // Return true if this wavefront is ready

 // to execute an instruction of the specified type.

 int

 Wavefront::ready(itype_e type)

 {

     // Check to make sure wave is running

     if (status == S_STOPPED || status == S_RETURNING ||

         instructionBuffer.empty()) {

         return 0;

     }


     // Is the wave waiting at a barrier

     if (stalledAtBarrier) {

         if (!computeUnit->AllAtBarrier(barrierId,barrierCnt,

                         computeUnit->getRefCounter(dispatchId, wgId))) {

             // Are all threads at barrier?

             return 0;

         }

         oldBarrierCnt = barrierCnt;

         stalledAtBarrier = false;

     }


     // Read instruction

     GPUDynInstPtr ii = instructionBuffer.front();


     bool ready_inst M5_VAR_USED = false;

     bool glbMemBusRdy = false;

     bool glbMemIssueRdy = false;

     if (type == I_GLOBAL || type == I_FLAT || type == I_PRIVATE) {

         for (int j=0; j < computeUnit->numGlbMemUnits; ++j) {

             if (computeUnit->vrfToGlobalMemPipeBus[j].prerdy())

                 glbMemBusRdy = true;

             if (computeUnit->wfWait[j].prerdy())

                 glbMemIssueRdy = true;

         }

     }

     bool locMemBusRdy = false;

     bool locMemIssueRdy = false;

     if (type == I_SHARED || type == I_FLAT) {

         for (int j=0; j < computeUnit->numLocMemUnits; ++j) {

             if (computeUnit->vrfToLocalMemPipeBus[j].prerdy())

                 locMemBusRdy = true;

             if (computeUnit->wfWait[j].prerdy())

                 locMemIssueRdy = true;

         }

     }


     // The following code is very error prone and the entire process for

     // checking readiness will be fixed eventually.  In the meantime, let's

     // make sure that we do not silently let an instruction type slip

     // through this logic and always return not ready.

     if (!(ii->isBarrier() || ii->isNop() || ii->isReturn() || ii->isBranch() ||

         ii->isALU() || ii->isLoad() || ii->isStore() || ii->isAtomic() ||

         ii->isMemFence() || ii->isFlat())) {

         panic("next instruction: %s is of unknown type\n", ii->disassemble());

     }


     DPRINTF(GPUExec, "CU%d: WF[%d][%d]: Checking Read for Inst : %s\n",

             computeUnit->cu_id, simdId, wfSlotId, ii->disassemble());


     if (type == I_ALU && ii->isBarrier()) {

         // Here for ALU instruction (barrier)

         if (!computeUnit->wfWait[simdId].prerdy()) {

             // Is wave slot free?

             return 0;

         }


         // Are there in pipe or outstanding memory requests?

         if ((outstandingReqs + memReqsInPipe) > 0) {

             return 0;

         }


         ready_inst = true;

     } else if (type == I_ALU && ii->isNop()) {

         // Here for ALU instruction (nop)

         if (!computeUnit->wfWait[simdId].prerdy()) {

             // Is wave slot free?

             return 0;

         }


         ready_inst = true;

     } else if (type == I_ALU && ii->isReturn()) {

         // Here for ALU instruction (return)

         if (!computeUnit->wfWait[simdId].prerdy()) {

             // Is wave slot free?

             return 0;

         }


         // Are there in pipe or outstanding memory requests?

         if ((outstandingReqs + memReqsInPipe) > 0) {

             return 0;

         }


         ready_inst = true;

     } else if (type == I_ALU && (ii->isBranch() ||

                ii->isALU() ||

                (ii->isKernArgSeg() && ii->isLoad()) ||

                ii->isArgSeg())) {

         // Here for ALU instruction (all others)

         if (!computeUnit->wfWait[simdId].prerdy()) {

             // Is alu slot free?

             return 0;

         }

         if (!computeUnit->vrf[simdId]->vrfOperandAccessReady(this, ii,

                     VrfAccessType::RD_WR)) {

             return 0;

         }


         if (!computeUnit->vrf[simdId]->operandsReady(this, ii)) {

             return 0;

         }

         ready_inst = true;

     } else if (type == I_GLOBAL && ii->isGlobalMem()) {

         // Here Global memory instruction

         if (ii->isLoad() || ii->isAtomic() || ii->isMemFence()) {

             // Are there in pipe or outstanding global memory write requests?

             if ((outstandingReqsWrGm + wrGmReqsInPipe) > 0) {

                 return 0;

             }

         }


         if (ii->isStore() || ii->isAtomic() || ii->isMemFence()) {

             // Are there in pipe or outstanding global memory read requests?

             if ((outstandingReqsRdGm + rdGmReqsInPipe) > 0)

                 return 0;

         }


         if (!glbMemIssueRdy) {

             // Is WV issue slot free?

             return 0;

         }


         if (!glbMemBusRdy) {

             // Is there an available VRF->Global memory read bus?

             return 0;

         }


         if (!computeUnit->globalMemoryPipe.

             isGMReqFIFOWrRdy(rdGmReqsInPipe + wrGmReqsInPipe)) {

             // Can we insert a new request to the Global Mem Request FIFO?

             return 0;

         }

         // can we schedule source & destination operands on the VRF?

         if (!computeUnit->vrf[simdId]->vrfOperandAccessReady(this, ii,

                     VrfAccessType::RD_WR)) {

             return 0;

         }

         if (!computeUnit->vrf[simdId]->operandsReady(this, ii)) {

             return 0;

         }

         ready_inst = true;

     } else if (type == I_SHARED && ii->isLocalMem()) {

         // Here for Shared memory instruction

         if (ii->isLoad() || ii->isAtomic() || ii->isMemFence()) {

             if ((outstandingReqsWrLm + wrLmReqsInPipe) > 0) {

                 return 0;

             }

         }


         if (ii->isStore() || ii->isAtomic() || ii->isMemFence()) {

             if ((outstandingReqsRdLm + rdLmReqsInPipe) > 0) {

                 return 0;

             }

         }


         if (!locMemBusRdy) {

             // Is there an available VRF->LDS read bus?

             return 0;

         }

         if (!locMemIssueRdy) {

             // Is wave slot free?

             return 0;

         }


         if (!computeUnit->localMemoryPipe.

             isLMReqFIFOWrRdy(rdLmReqsInPipe + wrLmReqsInPipe)) {

             // Can we insert a new request to the LDS Request FIFO?

             return 0;

         }

         // can we schedule source & destination operands on the VRF?

         if (!computeUnit->vrf[simdId]->vrfOperandAccessReady(this, ii,

                     VrfAccessType::RD_WR)) {

             return 0;

         }

         if (!computeUnit->vrf[simdId]->operandsReady(this, ii)) {

             return 0;

         }

         ready_inst = true;

     } else if (type == I_FLAT && ii->isFlat()) {

         if (!glbMemBusRdy) {

             // Is there an available VRF->Global memory read bus?

             return 0;

         }


         if (!locMemBusRdy) {

             // Is there an available VRF->LDS read bus?

             return 0;

         }


         if (!glbMemIssueRdy) {

             // Is wave slot free?

             return 0;

         }


         if (!locMemIssueRdy) {

             return 0;

         }

         if (!computeUnit->globalMemoryPipe.

             isGMReqFIFOWrRdy(rdGmReqsInPipe + wrGmReqsInPipe)) {

             // Can we insert a new request to the Global Mem Request FIFO?

             return 0;

         }


         if (!computeUnit->localMemoryPipe.

             isLMReqFIFOWrRdy(rdLmReqsInPipe + wrLmReqsInPipe)) {

             // Can we insert a new request to the LDS Request FIFO?

             return 0;

         }

         // can we schedule source & destination operands on the VRF?

         if (!computeUnit->vrf[simdId]->vrfOperandAccessReady(this, ii,

                     VrfAccessType::RD_WR)) {

             return 0;

         }

         // are all the operands ready? (RAW, WAW and WAR depedencies met?)

         if (!computeUnit->vrf[simdId]->operandsReady(this, ii)) {

             return 0;

         }

         ready_inst = true;

     } else {

         return 0;

     }


     assert(ready_inst);


     DPRINTF(GPUExec, "CU%d: WF[%d][%d]: Ready Inst : %s\n", computeUnit->cu_id,

             simdId, wfSlotId, ii->disassemble());

     return 1;

 }


 void

 Wavefront::updateResources()

 {

     // Get current instruction

     GPUDynInstPtr ii = instructionBuffer.front();

     assert(ii);

     computeUnit->vrf[simdId]->updateResources(this, ii);

     // Single precision ALU or Branch or Return or Special instruction

     if (ii->isALU() || ii->isSpecialOp() ||

         ii->isBranch() ||

         // FIXME: Kernel argument loads are currently treated as ALU operations

         // since we don't send memory packets at execution. If we fix that then

         // we should map them to one of the memory pipelines

         (ii->isKernArgSeg() && ii->isLoad()) || ii->isArgSeg() ||

         ii->isReturn()) {

         computeUnit->aluPipe[simdId].preset(computeUnit->shader->

                                             ticks(computeUnit->spBypassLength()));

         // this is to enforce a fixed number of cycles per issue slot per SIMD

         computeUnit->wfWait[simdId].preset(computeUnit->shader->

                                            ticks(computeUnit->issuePeriod));

     } else if (ii->isBarrier()) {

         computeUnit->wfWait[simdId].preset(computeUnit->shader->

                                            ticks(computeUnit->issuePeriod));

     } else if (ii->isLoad() && ii->isFlat()) {

         assert(Enums::SC_NONE != ii->executedAs());

         memReqsInPipe++;

         rdGmReqsInPipe++;

         if ( Enums::SC_SHARED == ii->executedAs() ) {

             computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

                 preset(computeUnit->shader->ticks(4));

             computeUnit->wfWait[computeUnit->ShrMemUnitId()].

                 preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

         } else {

             computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

                 preset(computeUnit->shader->ticks(4));

             computeUnit->wfWait[computeUnit->GlbMemUnitId()].

                 preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

         }

     } else if (ii->isStore() && ii->isFlat()) {

         assert(Enums::SC_NONE != ii->executedAs());

         memReqsInPipe++;

         wrGmReqsInPipe++;

         if (Enums::SC_SHARED == ii->executedAs()) {

             computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

                 preset(computeUnit->shader->ticks(8));

             computeUnit->wfWait[computeUnit->ShrMemUnitId()].

                 preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

         } else {

             computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

                 preset(computeUnit->shader->ticks(8));

             computeUnit->wfWait[computeUnit->GlbMemUnitId()].

                 preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

         }

     } else if (ii->isLoad() && ii->isGlobalMem()) {

         memReqsInPipe++;

         rdGmReqsInPipe++;

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             preset(computeUnit->shader->ticks(4));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isStore() && ii->isGlobalMem()) {

         memReqsInPipe++;

         wrGmReqsInPipe++;

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             preset(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if ((ii->isAtomic() || ii->isMemFence()) && ii->isGlobalMem()) {

         memReqsInPipe++;

         wrGmReqsInPipe++;

         rdGmReqsInPipe++;

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             preset(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isLoad() && ii->isLocalMem()) {

         memReqsInPipe++;

         rdLmReqsInPipe++;

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             preset(computeUnit->shader->ticks(4));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isStore() && ii->isLocalMem()) {

         memReqsInPipe++;

         wrLmReqsInPipe++;

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             preset(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if ((ii->isAtomic() || ii->isMemFence()) && ii->isLocalMem()) {

         memReqsInPipe++;

         wrLmReqsInPipe++;

         rdLmReqsInPipe++;

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             preset(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             preset(computeUnit->shader->ticks(computeUnit->issuePeriod));

     }

 }


 void

 Wavefront::exec()

 {

     // ---- Exit if wavefront is inactive ----------------------------- //


     if (status == S_STOPPED || status == S_RETURNING ||

         instructionBuffer.empty()) {

         return;

     }


     // Get current instruction


     GPUDynInstPtr ii = instructionBuffer.front();


     const uint32_t old_pc = pc();

     DPRINTF(GPUExec, "CU%d: WF[%d][%d]: wave[%d] Executing inst: %s "

             "(pc: %i)\n", computeUnit->cu_id, simdId, wfSlotId, wfDynId,

             ii->disassemble(), old_pc);


     // update the instruction stats in the CU


     ii->execute(ii);

     computeUnit->updateInstStats(ii);

     // access the VRF

     computeUnit->vrf[simdId]->exec(ii, this);

     srcRegOpDist.sample(ii->numSrcRegOperands());

     dstRegOpDist.sample(ii->numDstRegOperands());

     computeUnit->numInstrExecuted++;

     computeUnit->execRateDist.sample(computeUnit->totalCycles.value() -

                                      computeUnit->lastExecCycle[simdId]);

     computeUnit->lastExecCycle[simdId] = computeUnit->totalCycles.value();

     if (pc() == old_pc) {

         uint32_t new_pc = _gpuISA.advancePC(old_pc, ii);

         // PC not modified by instruction, proceed to next or pop frame

         pc(new_pc);

         if (new_pc == rpc()) {

             popFromReconvergenceStack();

             discardFetch();

         } else {

             instructionBuffer.pop_front();

         }

     } else {

         discardFetch();

     }


     if (computeUnit->shader->hsail_mode==Shader::SIMT) {

         const int num_active_lanes = execMask().count();

         computeUnit->controlFlowDivergenceDist.sample(num_active_lanes);

         computeUnit->numVecOpsExecuted += num_active_lanes;

         if (isGmInstruction(ii)) {

             computeUnit->activeLanesPerGMemInstrDist.sample(num_active_lanes);

         } else if (isLmInstruction(ii)) {

             computeUnit->activeLanesPerLMemInstrDist.sample(num_active_lanes);

         }

     }


     // ---- Update Vector ALU pipeline and other resources ------------------ //

     // Single precision ALU or Branch or Return or Special instruction

     if (ii->isALU() || ii->isSpecialOp() ||

         ii->isBranch() ||

         // FIXME: Kernel argument loads are currently treated as ALU operations

         // since we don't send memory packets at execution. If we fix that then

         // we should map them to one of the memory pipelines

         (ii->isKernArgSeg() && ii->isLoad()) ||

         ii->isArgSeg() ||

         ii->isReturn()) {

         computeUnit->aluPipe[simdId].set(computeUnit->shader->

                                          ticks(computeUnit->spBypassLength()));


         // this is to enforce a fixed number of cycles per issue slot per SIMD

         computeUnit->wfWait[simdId].set(computeUnit->shader->

                                         ticks(computeUnit->issuePeriod));

     } else if (ii->isBarrier()) {

         computeUnit->wfWait[simdId].set(computeUnit->shader->

                                         ticks(computeUnit->issuePeriod));

     } else if (ii->isLoad() && ii->isFlat()) {

         assert(Enums::SC_NONE != ii->executedAs());


         if (Enums::SC_SHARED == ii->executedAs()) {

             computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

                 set(computeUnit->shader->ticks(4));

             computeUnit->wfWait[computeUnit->ShrMemUnitId()].

                 set(computeUnit->shader->ticks(computeUnit->issuePeriod));

         } else {

             computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

                 set(computeUnit->shader->ticks(4));

             computeUnit->wfWait[computeUnit->GlbMemUnitId()].

                 set(computeUnit->shader->ticks(computeUnit->issuePeriod));

         }

     } else if (ii->isStore() && ii->isFlat()) {

         assert(Enums::SC_NONE != ii->executedAs());

         if (Enums::SC_SHARED == ii->executedAs()) {

             computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

                 set(computeUnit->shader->ticks(8));

             computeUnit->wfWait[computeUnit->ShrMemUnitId()].

                 set(computeUnit->shader->ticks(computeUnit->issuePeriod));

         } else {

             computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

                 set(computeUnit->shader->ticks(8));

             computeUnit->wfWait[computeUnit->GlbMemUnitId()].

                 set(computeUnit->shader->ticks(computeUnit->issuePeriod));

         }

     } else if (ii->isLoad() && ii->isGlobalMem()) {

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             set(computeUnit->shader->ticks(4));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isStore() && ii->isGlobalMem()) {

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             set(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if ((ii->isAtomic() || ii->isMemFence()) && ii->isGlobalMem()) {

         computeUnit->vrfToGlobalMemPipeBus[computeUnit->nextGlbRdBus()].

             set(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->GlbMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isLoad() && ii->isLocalMem()) {

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             set(computeUnit->shader->ticks(4));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if (ii->isStore() && ii->isLocalMem()) {

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             set(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     } else if ((ii->isAtomic() || ii->isMemFence()) && ii->isLocalMem()) {

         computeUnit->vrfToLocalMemPipeBus[computeUnit->nextLocRdBus()].

             set(computeUnit->shader->ticks(8));

         computeUnit->wfWait[computeUnit->ShrMemUnitId()].

             set(computeUnit->shader->ticks(computeUnit->issuePeriod));

     }

 }


 bool

 Wavefront::waitingAtBarrier(int lane)

 {

     return barCnt[lane] < maxBarCnt;

 }


 void

 Wavefront::pushToReconvergenceStack(uint32_t pc, uint32_t rpc,

                                     const VectorMask& mask)

 {

     assert(mask.count());

     reconvergenceStack.emplace_back(new ReconvergenceStackEntry{pc, rpc, mask});

 }


 void

 Wavefront::popFromReconvergenceStack()

 {

     assert(!reconvergenceStack.empty());


     DPRINTF(WavefrontStack, "[%2d, %2d, %2d, %2d] %s %3i => ",

             computeUnit->cu_id, simdId, wfSlotId, wfDynId,

             execMask().to_string<char, std::string::traits_type,

             std::string::allocator_type>().c_str(), pc());


     reconvergenceStack.pop_back();


     DPRINTF(WavefrontStack, "%3i %s\n", pc(),

             execMask().to_string<char, std::string::traits_type,

             std::string::allocator_type>().c_str());


 }


 void

 Wavefront::discardFetch()

 {

     instructionBuffer.clear();

     dropFetch |=pendingFetch;

 }


 uint32_t

 Wavefront::pc() const

 {

     return reconvergenceStack.back()->pc;

 }


 uint32_t

 Wavefront::rpc() const

 {

     return reconvergenceStack.back()->rpc;

 }


 VectorMask

 Wavefront::execMask() const

 {

     return reconvergenceStack.back()->execMask;

 }


 bool

 Wavefront::execMask(int lane) const

 {

     return reconvergenceStack.back()->execMask[lane];

 }


 void

 Wavefront::pc(uint32_t new_pc)

 {

     reconvergenceStack.back()->pc = new_pc;

 }


 uint32_t

 Wavefront::getStaticContextSize() const

 {

     return barCnt.size() * sizeof(int) + sizeof(wfId) + sizeof(maxBarCnt) +

            sizeof(oldBarrierCnt) + sizeof(barrierCnt) + sizeof(wgId) +

            sizeof(computeUnit->cu_id) + sizeof(barrierId) + sizeof(initMask) +

            sizeof(privBase) + sizeof(spillBase) + sizeof(ldsChunk) +

            computeUnit->wfSize() * sizeof(ReconvergenceStackEntry);

 }


 void

 Wavefront::getContext(const void *out)

 {

     uint8_t *iter = (uint8_t *)out;

     for (int i = 0; i < barCnt.size(); i++) {

         *(int *)iter = barCnt[i]; iter += sizeof(barCnt[i]);

     }

     *(int *)iter = wfId; iter += sizeof(wfId);

     *(int *)iter = maxBarCnt; iter += sizeof(maxBarCnt);

     *(int *)iter = oldBarrierCnt; iter += sizeof(oldBarrierCnt);

     *(int *)iter = barrierCnt; iter += sizeof(barrierCnt);

     *(int *)iter = computeUnit->cu_id; iter += sizeof(computeUnit->cu_id);

     *(uint32_t *)iter = wgId; iter += sizeof(wgId);

     *(uint32_t *)iter = barrierId; iter += sizeof(barrierId);

     *(uint64_t *)iter = initMask.to_ullong(); iter += sizeof(initMask.to_ullong());

     *(Addr *)iter = privBase; iter += sizeof(privBase);

     *(Addr *)iter = spillBase; iter += sizeof(spillBase);


     int stackSize = reconvergenceStack.size();

     ReconvergenceStackEntry empty = {std::numeric_limits<uint32_t>::max(),

                                     std::numeric_limits<uint32_t>::max(),

                                     std::numeric_limits<uint64_t>::max()};

     for (int i = 0; i < workItemId[0].size(); i++) {

         if (i < stackSize) {

             *(ReconvergenceStackEntry *)iter = *reconvergenceStack.back();

             iter += sizeof(ReconvergenceStackEntry);

             reconvergenceStack.pop_back();

         } else {

             *(ReconvergenceStackEntry *)iter = empty;

             iter += sizeof(ReconvergenceStackEntry);

         }

     }


     int wf_size = computeUnit->wfSize();

     for (int i = 0; i < maxSpVgprs; i++) {

         uint32_t vgprIdx = remap(i, sizeof(uint32_t), 1);

         for (int lane = 0; lane < wf_size; lane++) {

             uint32_t regVal = computeUnit->vrf[simdId]->

                             read<uint32_t>(vgprIdx,lane);

             *(uint32_t *)iter = regVal; iter += sizeof(regVal);

         }

     }


     for (int i = 0; i < maxDpVgprs; i++) {

         uint32_t vgprIdx = remap(i, sizeof(uint64_t), 1);

         for (int lane = 0; lane < wf_size; lane++) {

             uint64_t regVal = computeUnit->vrf[simdId]->

                             read<uint64_t>(vgprIdx,lane);

             *(uint64_t *)iter = regVal; iter += sizeof(regVal);

         }

     }


     for (int i = 0; i < condRegState->numRegs(); i++) {

         for (int lane = 0; lane < wf_size; lane++) {

             uint64_t regVal = condRegState->read<uint64_t>(i, lane);

             *(uint64_t *)iter = regVal; iter += sizeof(regVal);

         }

     }


     /* saving LDS content */

     if (ldsChunk)

         for (int i = 0; i < ldsChunk->size(); i++) {

             char val = ldsChunk->read<char>(i);

             *(char *) iter = val; iter += sizeof(val);

         }

 }


 void

 Wavefront::setContext(const void *in)

 {

     uint8_t *iter = (uint8_t *)in;

     for (int i = 0; i < barCnt.size(); i++) {

         barCnt[i] = *(int *)iter; iter += sizeof(barCnt[i]);

     }

     wfId = *(int *)iter; iter += sizeof(wfId);

     maxBarCnt = *(int *)iter; iter += sizeof(maxBarCnt);

     oldBarrierCnt = *(int *)iter; iter += sizeof(oldBarrierCnt);

     barrierCnt = *(int *)iter; iter += sizeof(barrierCnt);

     computeUnit->cu_id = *(int *)iter; iter += sizeof(computeUnit->cu_id);

     wgId = *(uint32_t *)iter; iter += sizeof(wgId);

     barrierId = *(uint32_t *)iter; iter += sizeof(barrierId);

     initMask = VectorMask(*(uint64_t *)iter); iter += sizeof(initMask);

     privBase = *(Addr *)iter; iter += sizeof(privBase);

     spillBase = *(Addr *)iter; iter += sizeof(spillBase);


     for (int i = 0; i < workItemId[0].size(); i++) {

         ReconvergenceStackEntry newEntry = *(ReconvergenceStackEntry *)iter;

         iter += sizeof(ReconvergenceStackEntry);

         if (newEntry.pc != std::numeric_limits<uint32_t>::max()) {

             pushToReconvergenceStack(newEntry.pc, newEntry.rpc,

                                      newEntry.execMask);

         }

     }

     int wf_size = computeUnit->wfSize();


     for (int i = 0; i < maxSpVgprs; i++) {

         uint32_t vgprIdx = remap(i, sizeof(uint32_t), 1);

         for (int lane = 0; lane < wf_size; lane++) {

             uint32_t regVal = *(uint32_t *)iter; iter += sizeof(regVal);

             computeUnit->vrf[simdId]->write<uint32_t>(vgprIdx, regVal, lane);

         }

     }


     for (int i = 0; i < maxDpVgprs; i++) {

         uint32_t vgprIdx = remap(i, sizeof(uint64_t), 1);

         for (int lane = 0; lane < wf_size; lane++) {

             uint64_t regVal = *(uint64_t *)iter; iter += sizeof(regVal);

             computeUnit->vrf[simdId]->write<uint64_t>(vgprIdx, regVal, lane);

         }

     }


     for (int i = 0; i < condRegState->numRegs(); i++) {

         for (int lane = 0; lane < wf_size; lane++) {

             uint64_t regVal = *(uint64_t *)iter; iter += sizeof(regVal);

             condRegState->write<uint64_t>(i, lane, regVal);

         }

     }

     if (ldsChunk)

         for (int i = 0; i < ldsChunk->size(); i++) {

             char val = *(char *) iter; iter += sizeof(val);

             ldsChunk->write<char>(i, val);

         }

 }


 void

 Wavefront::computeActualWgSz(NDRange *ndr)

 {

     actualWgSzTotal = 1;

     for (int d = 0; d < 3; ++d) {

         actualWgSz[d] = std::min(workGroupSz[d],

                                  gridSz[d] - ndr->wgId[d] * workGroupSz[d]);

         actualWgSzTotal *= actualWgSz[d];

     }

 }

Wavefront
Definition: wavefront.hh:147

Stats::ScalarBase::value
Counter value() const
Return the current value of this stat as its base type.
Definition: statistics.hh:677

Wavefront::oldVgpr
std::vector< uint32_t > oldVgpr
Definition: wavefront.hh:236

DPRINTF
#define DPRINTF(x,...)
Definition: trace.hh:212

Shader::ticks
Tick ticks(int numCycles) const
Definition: shader.hh:91

Wavefront::workGroupSz
uint32_t workGroupSz[3]
Definition: wavefront.hh:197

Wavefront::discardFetch
void discardFetch()
Definition: wavefront.cc:809

Wavefront::spillBase
Addr spillBase
Definition: wavefront.hh:263

Wavefront::isOldestInstGMem
bool isOldestInstGMem()
Definition: wavefront.cc:212

Wavefront::I_PRIVATE
Definition: wavefront.hh:150

ComputeUnit::cu_id
int cu_id
Definition: compute_unit.hh:136

Wavefront::I_GLOBAL
Definition: wavefront.hh:150

Wavefront::numTimesBlockedDueRAWDependencies
Stats::Scalar numTimesBlockedDueRAWDependencies
Definition: wavefront.hh:292

ArmISA::i
Bitfield< 7 > i
Definition: miscregs.hh:1378

panic
#define panic(...)
Definition: misc.hh:153

Wavefront::setContext
void setContext(const void *in)
Sets the hardware context fromt a stream of bytes This method is designed for HSAIL execution...
Definition: wavefront.cc:924

ConditionRegisterState::write
void write(int regIdx, int threadId, T value)
Definition: condition_register_state.hh:71

Wavefront::barrierCnt
uint32_t barrierCnt
Definition: wavefront.hh:157

Wavefront::numTimesBlockedDueVrfPortAvail
Stats::Scalar numTimesBlockedDueVrfPortAvail
Definition: wavefront.hh:286

Wavefront::reconvergenceStack
std::deque< std::unique_ptr< ReconvergenceStackEntry > > reconvergenceStack
Stack containing Control Flow Graph nodes (i.e., kernel instructions) to be visited by the wavefront...
Definition: wavefront.hh:392

ComputeUnit::controlFlowDivergenceDist
Stats::Distribution controlFlowDivergenceDist
Definition: compute_unit.hh:359

Wavefront::maxBarCnt
int maxBarCnt
Definition: wavefront.hh:254

Wavefront::gridSz
uint32_t gridSz[3]
Definition: wavefront.hh:198

Wavefront::S_STOPPED
Definition: wavefront.hh:151

VectorMask
std::bitset< std::numeric_limits< unsigned long long >::digits > VectorMask
Definition: misc.hh:45

ConditionRegisterState
Definition: condition_register_state.hh:50

Wavefront::initMask
VectorMask initMask
Definition: wavefront.hh:250

Wavefront::~Wavefront
~Wavefront()
Definition: wavefront.cc:149

ComputeUnit::wfSize
int wfSize() const
Definition: compute_unit.hh:251

Wavefront::simdId
int simdId
Definition: wavefront.hh:165

Wavefront::dropFetch
bool dropFetch
Definition: wavefront.hh:172

Wavefront::pushToReconvergenceStack
void pushToReconvergenceStack(uint32_t pc, uint32_t rpc, const VectorMask &exec_mask)
Definition: wavefront.cc:783

Wavefront::I_ALU
Definition: wavefront.hh:150

ConditionRegisterState::init
void init(uint32_t _size)
Definition: condition_register_state.cc:58

Wavefront::dispatchId
uint32_t dispatchId
Definition: wavefront.hh:208

ConditionRegisterState::read
T read(int regIdx, int threadId)
Definition: condition_register_state.hh:61

Wavefront::condRegState
class ConditionRegisterState * condRegState
Definition: wavefront.hh:175

Wavefront::isOldestInstFlatMem
bool isOldestInstFlatMem()
Definition: wavefront.cc:251

ArmISA::mode
Bitfield< 4, 0 > mode
Definition: miscregs.hh:1385

Wavefront::isOldestInstPrivMem
bool isOldestInstPrivMem()
Definition: wavefront.cc:238

SimObject::regStats
virtual void regStats()
Register statistics for this object.
Definition: sim_object.cc:105

Wavefront::I_SHARED
Definition: wavefront.hh:150

NDRange
Definition: ndrange.hh:42

Wavefront::S_RETURNING
Definition: wavefront.hh:151

Wavefront::wfSlotId
int wfSlotId
Definition: wavefront.hh:162

Wavefront::stalledAtBarrier
bool stalledAtBarrier
Definition: wavefront.hh:256

compute_unit.hh

Wavefront::maxSpVgprs
uint32_t maxSpVgprs
Definition: wavefront.hh:177

Wavefront::ldsChunk
LdsChunk * ldsChunk
Definition: wavefront.hh:260

Wavefront::numTimesBlockedDueWAXDependencies
Stats::Scalar numTimesBlockedDueWAXDependencies
Definition: wavefront.hh:289

ComputeUnit::spBypassLength
int spBypassLength()
Definition: compute_unit.hh:247

ComputeUnit::numInstrExecuted
Stats::Scalar numInstrExecuted
Definition: compute_unit.hh:349

Wavefront::I_FLAT
Definition: wavefront.hh:150

Wavefront::lastTrace
uint64_t lastTrace
Definition: wavefront.hh:228

X86ISA::val
Bitfield< 63 > val
Definition: misc.hh:770

ComputeUnit::getRefCounter
int32_t getRefCounter(const uint32_t dispatchId, const uint32_t wgId) const
Definition: compute_unit.cc:1760

ComputeUnit::vrfToLocalMemPipeBus
std::vector< WaitClass > vrfToLocalMemPipeBus
Definition: compute_unit.hh:195

Wavefront::instructionBufferHasBranch
bool instructionBufferHasBranch()
Definition: wavefront.cc:266

ComputeUnit::aluPipe
std::vector< WaitClass > aluPipe
Definition: compute_unit.hh:188

Wavefront::wfDynId
uint64_t wfDynId
Definition: wavefront.hh:282

Wavefront::callArgMem
CallArgMem * callArgMem
Definition: wavefront.hh:300

ComputeUnit::globalMemoryPipe
GlobalMemPipeline globalMemoryPipe
Definition: compute_unit.hh:100

vector_register_file.hh

GPUDynInstPtr
std::shared_ptr< GPUDynInst > GPUDynInstPtr
Definition: misc.hh:48

ComputeUnit::activeLanesPerLMemInstrDist
Stats::Distribution activeLanesPerLMemInstrDist
Definition: compute_unit.hh:361

Wavefront::srcRegOpDist
Stats::Distribution srcRegOpDist
Definition: wavefront.hh:295

Wavefront::workItemId
std::vector< uint32_t > workItemId[3]
Definition: wavefront.hh:193

ReconvergenceStackEntry::pc
uint32_t pc
PC of current instruction.
Definition: wavefront.hh:66

Wavefront::instructionBuffer
std::deque< GPUDynInstPtr > instructionBuffer
Definition: wavefront.hh:169

ComputeUnit::execRateDist
Stats::Distribution execRateDist
Definition: compute_unit.hh:352

ComputeUnit::ShrMemUnitId
int ShrMemUnitId()
Definition: compute_unit.hh:269

gpu_dyn_inst.hh

Wavefront::actualWgSz
uint32_t actualWgSz[3]
Definition: wavefront.hh:202

Wavefront::wfId
uint32_t wfId
Definition: wavefront.hh:206

Wavefront::rdLmReqsInPipe
uint32_t rdLmReqsInPipe
Definition: wavefront.hh:222

Wavefront::regStats
void regStats()
Register statistics for this object.
Definition: wavefront.cc:95

Wavefront::privBase
Addr privBase
Definition: wavefront.hh:270

Wavefront::workItemFlatId
std::vector< uint32_t > workItemFlatId
Definition: wavefront.hh:194

Wavefront::Wavefront
Wavefront(const Params *p)
Definition: wavefront.cc:51

Wavefront::updateResources
void updateResources()
Definition: wavefront.cc:542

Shader::SIMT
Definition: shader.hh:85

Wavefront::getStaticContextSize
uint32_t getStaticContextSize() const
Returns the size of the static hardware context of a particular wavefront This should be updated ever...
Definition: wavefront.cc:847

ComputeUnit::vrfToGlobalMemPipeBus
std::vector< WaitClass > vrfToGlobalMemPipeBus
Definition: compute_unit.hh:193

ComputeUnit::updateInstStats
void updateInstStats(GPUDynInstPtr gpuDynInst)
Definition: compute_unit.cc:1669

Wavefront::barCnt
std::vector< int > barCnt
Definition: wavefront.hh:253

ArmISA::d
Bitfield< 9 > d
Definition: miscregs.hh:1375

Wavefront::computeUnit
ComputeUnit * computeUnit
Definition: wavefront.hh:167

Wavefront::wgId
uint32_t wgId
Definition: wavefront.hh:199

Wavefront::dstRegOpDist
Stats::Distribution dstRegOpDist
Definition: wavefront.hh:296

Wavefront::rdGmReqsInPipe
uint32_t rdGmReqsInPipe
Definition: wavefront.hh:223

Wavefront::isLmInstruction
bool isLmInstruction(GPUDynInstPtr ii)
Definition: wavefront.cc:174

Wavefront::init
virtual void init()
init() is called after all C++ SimObjects have been created and all ports are connected.
Definition: wavefront.cc:135

Wavefront::outstandingReqsWrLm
uint32_t outstandingReqsWrLm
Definition: wavefront.hh:217

Wavefront::actualWgSzTotal
uint32_t actualWgSzTotal
Definition: wavefront.hh:203

Wavefront::getContext
void getContext(const void *out)
Returns the hardware context as a stream of bytes This method is designed for HSAIL execution...
Definition: wavefront.cc:857

Wavefront::outstandingReqsRdGm
uint32_t outstandingReqsRdGm
Definition: wavefront.hh:219

Wavefront::ready
int ready(itype_e type)
Definition: wavefront.cc:305

Wavefront::memTraceBusy
int memTraceBusy
Definition: wavefront.hh:227

ComputeUnit::AllAtBarrier
int AllAtBarrier(uint32_t _barrier_id, uint32_t bcnt, uint32_t bslots)
Definition: compute_unit.cc:446

Wavefront::computeActualWgSz
void computeActualWgSz(NDRange *ndr)
Definition: wavefront.cc:982

Stats::Distribution::init
Distribution & init(Counter min, Counter max, Counter bkt)
Set the parameters of this distribution.
Definition: statistics.hh:2534

ConditionRegisterState::numRegs
int numRegs()
Definition: condition_register_state.hh:89

LdsChunk::read
T read(const uint32_t index)
a read operation
Definition: lds_state.hh:73

Wavefront::Params
WavefrontParams Params
Definition: wavefront.hh:321

Wavefront::exec
void exec()
Definition: wavefront.cc:642

Addr
uint64_t Addr
Address type This will probably be moved somewhere else in the near future.
Definition: types.hh:142

Wavefront::isOldestInstALU
bool isOldestInstALU()
Definition: wavefront.cc:184

Wavefront::outstandingReqsRdLm
uint32_t outstandingReqsRdLm
Definition: wavefront.hh:221

Wavefront::basePtr
uint64_t basePtr
Definition: wavefront.hh:154

Wavefront::outstandingReqs
uint32_t outstandingReqs
Definition: wavefront.hh:210

ArmISA::j
Bitfield< 24 > j
Definition: miscregs.hh:1369

M5_VAR_USED
static const int NumArgumentRegs M5_VAR_USED
Definition: process.cc:83

Wavefront::pc
uint32_t pc() const
Definition: wavefront.cc:816

Wavefront::isOldestInstBarrier
bool isOldestInstBarrier()
Definition: wavefront.cc:199

Wavefront::outstandingReqsWrGm
uint32_t outstandingReqsWrGm
Definition: wavefront.hh:215

Wavefront::isGmInstruction
bool isGmInstruction(GPUDynInstPtr ii)
Definition: wavefront.cc:165

Stats::DataWrap::name
Derived & name(const std::string &name)
Set the name and marks this stat to print at the end of simulation.
Definition: statistics.hh:254

VrfAccessType::RD_WR

Wavefront::lastAddr
std::vector< Addr > lastAddr
Definition: wavefront.hh:192

ComputeUnit::shader
Shader * shader
Definition: compute_unit.hh:185

Wavefront::_gpuISA
TheGpuISA::GPUISA _gpuISA
Definition: wavefront.hh:384

X86ISA::type
type
Definition: misc.hh:728

X86ISA::size
int size()
Definition: pagetable.hh:146

ComputeUnit::activeLanesPerGMemInstrDist
Stats::Distribution activeLanesPerGMemInstrDist
Definition: compute_unit.hh:360

SimObject::name
virtual const std::string name() const
Definition: sim_object.hh:117

Wavefront::oldBarrierCnt
uint32_t oldBarrierCnt
Definition: wavefront.hh:156

Wavefront::oldDgprTcnt
uint64_t oldDgprTcnt
Definition: wavefront.hh:247

Wavefront::pendingFetch
bool pendingFetch
Definition: wavefront.hh:171

Wavefront::oldVgprTcnt
uint64_t oldVgprTcnt
Definition: wavefront.hh:240

Wavefront::memReqsInPipe
uint32_t memReqsInPipe
Definition: wavefront.hh:213

Wavefront::isOldestInstLMem
bool isOldestInstLMem()
Definition: wavefront.cc:225

Wavefront::reservedVectorRegs
int reservedVectorRegs
Definition: wavefront.hh:230

ComputeUnit::issuePeriod
int issuePeriod
Definition: compute_unit.hh:149

Wavefront::startVgprIndex
uint32_t startVgprIndex
Definition: wavefront.hh:233

Wavefront::execMask
VectorMask execMask() const
Definition: wavefront.cc:828

ReconvergenceStackEntry
A reconvergence stack entry conveys the necessary state to implement control flow divergence...
Definition: wavefront.hh:62

ComputeUnit::numVecOpsExecuted
Stats::Scalar numVecOpsExecuted
Definition: compute_unit.hh:354

Wavefront::wrGmReqsInPipe
uint32_t wrGmReqsInPipe
Definition: wavefront.hh:225

ComputeUnit::vrf
std::vector< VectorRegisterFile * > vrf
Definition: compute_unit.hh:139

Wavefront::start
void start(uint64_t _wfDynId, uint64_t _base_ptr)
Definition: wavefront.cc:157

wavefront.hh

Wavefront::oldDgpr
std::vector< uint64_t > oldDgpr
Definition: wavefront.hh:243

Wavefront::popFromReconvergenceStack
void popFromReconvergenceStack()
Definition: wavefront.cc:791

ComputeUnit::nextLocRdBus
int nextLocRdBus()
Definition: compute_unit.hh:271

ComputeUnit::numGlbMemUnits
int numGlbMemUnits
Definition: compute_unit.hh:152

Wavefront::resizeRegFiles
void resizeRegFiles(int num_cregs, int num_sregs, int num_dregs)
Definition: wavefront.cc:142

pc
IntReg pc
Definition: remote_gdb.hh:91

Shader::hsail_mode
hsail_mode_e hsail_mode
Definition: shader.hh:117

LdsChunk::write
void write(const uint32_t index, const T value)
a write operation
Definition: lds_state.hh:86

Wavefront::wrLmReqsInPipe
uint32_t wrLmReqsInPipe
Definition: wavefront.hh:224

ArmISA::mask
Bitfield< 3, 0 > mask
Definition: types.hh:64

Stats::DataWrap::desc
Derived & desc(const std::string &_desc)
Set the description and marks this stat to print at the end of simulation.
Definition: statistics.hh:287

ComputeUnit::lastExecCycle
std::vector< uint64_t > lastExecCycle
Definition: compute_unit.hh:155

Wavefront::maxDpVgprs
uint32_t maxDpVgprs
Definition: wavefront.hh:179

ComputeUnit::wfWait
std::vector< WaitClass > wfWait
Definition: compute_unit.hh:190

ComputeUnit::localMemoryPipe
LocalMemPipeline localMemoryPipe
Definition: compute_unit.hh:101

Wavefront::S_RUNNING
Definition: wavefront.hh:151

ComputeUnit::GlbMemUnitId
int GlbMemUnitId()
Definition: compute_unit.hh:268

Wavefront::remap
uint32_t remap(uint32_t vgprIndex, uint32_t size, uint8_t mode=0)
Definition: wavefront.cc:282

LdsChunk::size
std::vector< uint8_t >::size_type size() const
get the size of this chunk
Definition: lds_state.hh:98

Wavefront::barrierId
uint32_t barrierId
Definition: wavefront.hh:158

ComputeUnit::totalCycles
Stats::Scalar totalCycles
Definition: compute_unit.hh:356

Wavefront::itype_e
itype_e
Definition: wavefront.hh:150

MipsISA::p
Bitfield< 0 > p
Definition: pra_constants.hh:325

NDRange::wgId
int wgId[3]
Definition: ndrange.hh:48

ComputeUnit::nextGlbRdBus
int nextGlbRdBus()
Definition: compute_unit.hh:270

shader.hh

SimObject
Abstract superclass for simulation objects.
Definition: sim_object.hh:94

Wavefront::status
status_e status
Definition: wavefront.hh:160

Wavefront::rpc
uint32_t rpc() const
Definition: wavefront.cc:822

Stats::DistBase::sample
void sample(const U &v, int n=1)
Add a value to the distribtion n times.
Definition: statistics.hh:1869

ReconvergenceStackEntry::rpc
uint32_t rpc
PC of the immediate post-dominator instruction, i.e., the value of pc for the first instruction that ...
Definition: wavefront.hh:72

Wavefront::waitingAtBarrier
bool waitingAtBarrier(int lane)
Definition: wavefront.cc:777

ReconvergenceStackEntry::execMask
VectorMask execMask
Execution mask.
Definition: wavefront.hh:76

ComputeUnit::numLocMemUnits
int numLocMemUnits
Definition: compute_unit.hh:153