是否可以优化此嵌套循环？ - 码农俱乐部 - Golang中国

我正在一个项目中，我想将给定的视频输入流转换为块部分（以便可以由硬件编解码器使用）。该项目在运行200Mhz时钟的STM32微控制器上运行。

收到的输入是YCbCr 4：2：2渐进流，这基本上意味着每行的输入流如下所示：

Size:      32 bit word    32 bit word    32 bit word    ...
Component: Cr Y1 Cb Y0    Cr Y1 Cb Y0    Cr Y1 Cb Y0    ...
Bits:      8  8  8  8     8  8  8  8     8  8  8  8     ...

该流需要转换为硬件编解码器使用的块格式。编解码器按特定顺序接受字节数组。目前，我正在使用查找表对图像帧的每1/8使用嵌套循环，并写入一个空数组：

/* Initialize variables for array conversion */
uint32_t currentMCU = 0;
uint32_t lutOffset = 0;
uint32_t inputOffset = 0;
uint32_t verticalOffset = 0;

/* Convert X rows into MCU blocks for JPEG encoding */
for(uint8_t k = 0; k < VERTICAL_MCU_PER_INPUTBUFFER; k++)
{
    for(uint8_t n = 0; n < HORIZONTAL_MCU_PER_INPUTBUFFER; n++)
    {
        inputOffset = verticalOffset + (n * 8);
        lutOffset = 0;

        for(uint8_t i = 0; i < ROWS_PER_MCU; i++)
        {
            for(uint8_t j = 0; j < WORDS_PER_MCU; j++)
            {
                /* Mask 32 bit according to DCMI input format */
                uint32_t rawBufferAddress = inputOffset+j; // Calculate rawBuffer address here so it only has to be calculated once
                jpegInBuffer[jpegInputLUT.JPEG_Y_MCU_LUT[lutOffset] + currentMCU]       = (rawBuffer[rawBufferAddress] & 0x7F);
                jpegInBuffer[jpegInputLUT.JPEG_Cb_MCU_422_LUT[lutOffset] + currentMCU]  = ((rawBuffer[rawBufferAddress] >> 7) & 0x7F);
                jpegInBuffer[jpegInputLUT.JPEG_Cr_MCU_422_LUT[lutOffset] + currentMCU]  = ((rawBuffer[rawBufferAddress] >> 23) & 0x7F);
                jpegInBuffer[jpegInputLUT.JPEG_Y_MCU_LUT[lutOffset+1] + currentMCU]     = ((rawBuffer[rawBufferAddress] >> 16) & 0x7F);

                lutOffset+=2;
            }
            inputOffset += 320;
        }
        currentMCU += 256;
    }
    verticalOffset += 2240;
}

目前，这种转换需要我大约8毫秒，这需要完成8次。目前，这几乎占用了我所有可用的执行时间，因为我试图从系统中获取15 fps。

有什么办法可以加快速度吗？我在想也许对输入数组进行排序，而不是只写一个新的缓冲区，但是交换一个数组中的2个元素是否比将值复制到另一个数组中有更快的执行时间？

很想听听您对此的想法/想法，

提前致谢！