Análisis del código con consultas de CodeQL

Acerca del análisis de bases de datos con la CodeQL CLI

Para analizar un código base, puedes ejecutar consultas en una base de datos de CodeQL extraída de código.

Los análisis de CodeQL generan resultados interpretados que se pueden mostrar como alertas o rutas de acceso en el código fuente. Para obtener información sobre cómo escribir consultas para que se ejecuten con database analyze, consulta Uso de consultas personalizadas con la CodeQL CLI.

Otros comandos de ejecución de consultas

Las consultas que se ejecutan con database analyze tienen estrictos requisitos de metadatos. También puedes ejecutar consultas con los siguientes subcomandos de nivel de asociación:

database run-queries, que genera resultados no interpretados en un formato binario intermedio denominado BQRS.
query run, que genera archivos BQRS o imprime tablas de resultados directamente en la línea de comandos. La visualización de los resultados directamente en la línea de comandos puede ser útil para el desarrollo de consultas iterativas mediante la CLI.

Las consultas que se ejecutan con estos comandos no tienen los mismos requisitos de metadatos. Aun así, para guardar datos legibles para el usuario, debes procesar cada archivo de resultados BQRS mediante el subcomando de asociación bqrs decode. Por lo tanto, en la mayoría de los casos de uso, es más fácil usar database analyze para generar directamente resultados interpretados.

Prerrequisitos

Antes de iniciar un análisis, debes hacer lo siguiente:

Configurar la CodeQL CLI para ejecutar comandos localmente.
Crear una base de datos de CodeQL para el código fuente que quieres analizar.

La manera más sencilla de ejecutar codeql database analyze consiste en usar paquetes de CodeQL. También puedes ejecutar el comando mediante consultas desde una restauración local del repositorio de CodeQL. Esto podría interesarte si quieres personalizar las consultas principales de CodeQL.

En ejecución `codeql database analyze`

Cuando se ejecuta database analyze, hace lo siguiente:

Opcionalmente, descarga los paquetes de CodeQL a los que se hace referencia que no están disponibles localmente.
Ejecuta uno o varios archivos de consulta mediante una base de datos de CodeQL.
Interpreta los resultados en función de determinados metadatos de consulta, de modo que las alertas se puedan mostrar en la ubicación correcta del código fuente.
Notifica los resultados de las consultas de diagnóstico y resumen a la salida estándar.

Para analizar una base de datos, ejecuta el comando siguiente:

codeql database analyze <database> --format=<format> --output=<output> <query-specifiers>...

Nota: Si analiza más de una base de datos de CodeQL para una sola confirmación, debe especificar una categoría SARIF para cada conjunto de resultados generados por este comando. Cuando cargas los resultados en GitHub, el code scanning utiliza esta categoría para almacenar los resultados para cada lenguaje por separado. Si olvida hacerlo, cada carga sobrescribe los resultados anteriores.

codeql database analyze <database> --format=<format> \
    --sarif-category=<language-specifier> --output=<output> \
    <packs,queries>

Debes especificar <database>, --format y --output. Puedes especificar opciones adicionales en función del análisis que quieras hacer.

Opción	Obligatorio	Uso
`<database>`		Especifica la ruta del directorio que contiene la base de datos de CodeQL a analizar.
`<packs,queries>`		Especifica los paquetes o consultas de CodeQL a ejecutar. Para ejecutar las consultas estándar que se utilizan para el code scanning, omite este parámetro. Para ver los demás conjuntos de consultas incluidos en el conjunto de la CodeQL CLI, busque en `/<extraction-root>/qlpacks/codeql/<language>-queries/codeql-suites`. Para obtener información sobre cómo crear un conjunto de consultas propio, consulta Creación de conjuntos de consultas de CodeQL en la documentación de la CodeQL CLI.
`--format`		Especifica el formato del archivo de resultados generado durante el análisis. Se admiten varios formatos diferentes, incluidos CSV, SARIF y grafo. Para cargarlo en GitHub, debe ser: `sarif-latest`. Para obtener más información, vea «Soporte de SARIF para escaneo de código».
`--output`		Especifique dónde guardar el archivo de resultados de SARIF.
`--sarif-category`		Opcional para el análisis de base de datos única. Necesario para definir el lenguaje al analizar varias bases de datos para una sola confirmación en un repositorio. Especifique una categoría que se incluirá en el archivo de resultados de SARIF para este análisis. Una categoría se usa para distinguir varios análisis de la misma herramienta y confirmación, pero se ejecuta en distintos lenguajes o partes del código.
`--sarif-add-baseline-file-info`		Opción recomendada. Se usa para enviar información de cobertura de archivos a la página de estado de la herramienta. Para obtener más información, vea «Acerca de la página de estado de la herramienta para el examen de código».
`--sarif-add-query-help`		Se usa si se quiere incluir cualquier ayuda de consulta representada por Markdown disponible para las consultas personalizadas que se usan en el análisis. Cualquier ayuda de consulta para consultas personalizadas incluidas en la salida de SARIF se mostrará en la interfaz de usuario de examen de código si la consulta correspondiente genera una alerta. Para obtener más información, lee "Inclusión de ayuda de consulta para consultas personalizadas de CodeQL en archivos SARIF".
`<packs>`		Úsalo si deseas incluir los paquetes de consulta de CodeQL en el análisis. Para obtener más información, consulta "Descarga y uso de paquetes de CodeQL".
`--download`		Úsalo si algunos de los paquetes de consulta de CodeQL aún no están en el disco y deben descargarse antes de ejecutar consultas.
`--threads`		Se usa si se quiere usar más de un subproceso para ejecutar consultas. El valor predeterminado es `1`. Puede especificar más subprocesos para acelerar la ejecución de consultas. Para establecer el número de subprocesos en el número de procesadores lógicos, especifique `0`.
`--verbose`		Se usa para obtener información más detallada sobre el proceso de análisis y datos de diagnóstico del proceso de creación de la base de datos.

Actualizar bases de datos

En el caso de las bases de datos creadas con la CodeQL CLI v2.3.3 o versiones anteriores, deberás actualizar explícitamente la base de datos para poder ejecutar un análisis con una versión más reciente de la CodeQL CLI. Si este paso es necesario, verás un mensaje que te indicará que la base de datos debe actualizarse al ejecutar database analyze.

En el caso de las bases de datos creadas con la CodeQL CLI v2.3.4 o versiones posteriores, la CLI ejecutará implícitamente las actualizaciones necesarias. No es necesario ejecutar explícitamente el comando de actualización.

Para obtener información detallada sobre todas las opciones que se pueden usar al analizar bases de datos, consulta "database analyze".

Ejemplo básico del análisis de una base de datos de CodeQL

En este ejemplo se analiza una base de datos de CodeQL almacenada en /codeql-dbs/example-repo y se guardan los resultados como un archivo SARIF: /temp/example-repo-js.sarif. Usa --sarif-category para incluir información adicional en el archivo SARIF que identifica los resultados como JavaScript. Esto es esencial cuando tienes más de una base de datos de CodeQL que analizar para una confirmación única en un repositorio.

$ codeql database analyze /codeql-dbs/example-repo \
    javascript-code-scanning.qls --sarif-category=javascript \
    --format=sarif-latest --output=/temp/example-repo-js.sarif

> Running queries.
> Compiling query plan for /codeql-home/codeql/qlpacks/codeql-javascript/AngularJS/DisablingSce.ql.
...
> Shutting down query evaluator.
> Interpreting results.

Adición de información de cobertura de archivos a los resultados para la supervisión

Opcionalmente, puedes enviar información de cobertura de archivos a GitHub para su presentación en la página de estado de la herramienta para code scanning. Para más información sobre la página de cobertura de seguridad, consulta "Acerca de la página de estado de la herramienta para el examen de código".

Para incluir información de cobertura de archivos con los resultados de code scanning, agrega la marca --sarif-add-baseline-file-info a la invocación codeql database analyze en el sistema de CI, por ejemplo:

$ codeql database analyze /codeql-dbs/example-repo \
    javascript-code-scanning.qls --sarif-category=javascript \
    --sarif-add-baseline-file-info \ --format=sarif-latest \
    --output=/temp/example-repo-js.sarif

Ejemplos de análisis de bases de datos en ejecución

En los ejemplos siguientes se muestra cómo se ejecuta database analyze con paquetes de CodeQL y cómo se usa una restauración local del repositorio de CodeQL. En estos ejemplos se da por supuesto que las bases de datos de CodeQL se han creado en un directorio del mismo nivel que las copias locales del repositorio de CodeQL.

Ejecución de un paquete de consultas de CodeQL

Note

La funcionalidad de administración de paquetes de CodeQL, incluidos los de CodeQL, se encuentra disponible actualmente en versión beta y está sujeta a cambios. En la versión beta, los paquetes de CodeQL solo están disponibles mediante el uso de GitHub Packages o el Container registry de GitHub. Para usar esta funcionalidad beta, instala la versión más reciente del paquete de la CodeQL CLI desde https://github.com/github/codeql-action/releases.

Para ejecutar un paquete de consultas de CodeQL existente desde el Container registry de GitHub, puedes especificar uno o varios nombres de paquete:

codeql database analyze <database> microsoft/coding-standards@1.0.0 github/security-queries --format=sarifv2.1.0 --output=query-results.sarif --download

Este comando ejecuta el conjunto de consultas predeterminado de dos paquetes de consultas de CodeQL: microsoft/coding-standards versión 1.0.0 y la versión más reciente de github/security-queries en la base de datos especificada. Para obtener más información sobre los conjuntos predeterminados, consulta "Publicación y uso de paquetes de CodeQL".

La marca --download es opcional. Al usarla, se garantiza la descarga del paquete de consultas si aún no está disponible localmente.

Ejecución de una sola consulta

Para ejecutar una sola consulta en una base de datos de CodeQL para un código base de JavaScript, puedes usar el comando siguiente desde el directorio que contiene la base de datos:

codeql database analyze --download <javascript-database> codeql/javascript-queries:Declarations/UnusedVariable.ql --format=csv --output=js-analysis/js-results.csv

Este comando ejecuta una sola consulta que encuentra posibles errores relacionados con variables no utilizadas, importaciones, funciones o clases; es una de las consultas de JavaScript incluidas en el repositorio de CodeQL. Puedes ejecutar más de una consulta si especificas una lista separada por espacios con rutas de acceso similares.

El análisis genera un archivo CSV (js-results.csv) en un directorio nuevo (js-analysis).

Como alternativa, si tienes desprotegido el repositorio de CodeQL, puedes ejecutar las mismas consultas si especificas la ruta de acceso directamente a la consulta:

codeql database analyze <javascript-database> ../ql/javascript/ql/src/Declarations/UnusedVariable.ql --format=csv --output=js-analysis/js-results.csv

También puede ejecutar tus propias consultas personalizadas con el comando database analyze. Para obtener más información sobre cómo preparar tus consultas para usarlas con la CodeQL CLI, consulta "Uso de consultas personalizadas con la CLI de CodeQL".

Ejecución de todas las consultas en un directorio

Puedes ejecutar todas las consultas ubicadas en un directorio si proporcionas la ruta de acceso del directorio, en lugar de enumerar todos los archivos de consulta individuales. Las rutas de acceso se buscan de forma recursiva, por lo que también se ejecutarán las consultas contenidas en las subcarpetas.

Importante

Debes evitar especificar la raíz de un paquete de consultas principal de CodeQL al ejecutar database analyze, ya que podría contener algunas consultas especiales que no están diseñadas para usarse con el comando. En su lugar, ejecuta el paquete de consultas para incluir las consultas predeterminadas del paquete en el análisis, o bien ejecuta uno de los conjuntos de consultas de examen de código.

Por ejemplo, para ejecutar todas las consultas de Python incluidas en el directorio Functions del paquete de consultas codeql/python-queries, ejecutarías lo siguiente:

codeql database analyze <python-database> codeql/python-queries:Functions --format=sarif-latest --output=python-analysis/python-results.sarif --download

Como alternativa, si tienes desprotegido el repositorio de CodeQL, puedes ejecutar las mismas consultas si especificas la ruta de acceso directamente al directorio:

codeql database analyze <python-database> ../ql/python/ql/src/Functions/ --format=sarif-latest --output=python-analysis/python-results.sarif

Cuando el análisis finalice, se generará un archivo de resultados SARIF. Al especificar --format=sarif-latest, se garantiza que se aplica a los resultados un formato conforme a la especificación SARIF más reciente admitida por CodeQL.

Ejecución de un subconjunto de consultas en un paquete de CodeQL

Si usas la CodeQL CLI v2.8.1 o una versión posterior, puedes incluir una ruta de acceso al final de una especificación del paquete para ejecutar un subconjunto de consultas dentro del paquete. Esto se aplica a cualquier comando que busque o ejecute consultas dentro de un paquete.

La manera completa de especificar un conjunto de consultas tiene el formato scope/name@range:path, donde:

scope/name es el nombre completo de un paquete de CodeQL.
range es un intervalo de SemVer.
path es una ruta de acceso del sistema de archivos a una sola consulta, un directorio que contiene consultas o un archivo de conjunto de consultas.

Cuando se especifica scope/name, range y path son opcionales. Si range se omite, se usa la versión más reciente del paquete especificado. Si path se omite, se usa el conjunto de consultas predeterminado del paquete especificado.

path puede ser un archivo de consulta \*.ql, un directorio que contiene una o varias consultas o un archivo de conjunto de consultas .qls. Si se omite el nombre de paquete, debes proporcionar path, que se interpretará en relación con el directorio de trabajo del proceso actual.

Si se especifica scope/name y path, el valor de path no puede ser absoluto. Se interpreta en relación con la raíz del paquete de CodeQL.

Para analizar una base de datos mediante todas las consultas de la carpeta experimental/Security dentro del paquete codeql/cpp-queries de CodeQL, puedes usar lo siguiente:

codeql database analyze --format=sarif-latest --output=results <db> \
    codeql/cpp-queries:experimental/Security

Para ejecutar la consulta RedundantNullCheckParam.ql en el paquete de CodeQL codeql/cpp-queries, usa lo siguiente:

codeql database analyze --format=sarif-latest --output=results <db> \
    'codeql/cpp-queries:experimental/Likely Bugs/RedundantNullCheckParam.ql'

Para analizar la base de datos mediante el conjunto de consultas cpp-security-and-quality.qls desde una versión del paquete de CodeQL codeql/cpp-queries que es >= 0.0.3 y < 0.1.0 (se elegirá la versión compatible más alta), puedes usar lo siguiente:

codeql database analyze --format=sarif-latest --output=results <db> \
   'codeql/cpp-queries@~0.0.3:codeql-suites/cpp-security-and-quality.qls'

Si necesitas hacer referencia a un archivo de consulta, directorio o conjunto cuya ruta de acceso contiene un elemento @ o : literal, puedes anteponer a la especificación de consulta el prefijo path:, como se indica a continuación:

codeql database analyze --format=sarif-latest --output=results <db> \
    path:C:/Users/ci/workspace@2/security/query.ql

Para obtener más información sobre los paquetes de CodeQL, consulta Personalización del análisis con paquetes de CodeQL.

Ejecución de conjuntos de consultas

Para ejecutar un conjunto de consultas en una base de datos de CodeQL para un código base de C/C++, puedes usar el comando siguiente desde el directorio que contiene la base de datos:

codeql database analyze <cpp-database> codeql/cpp-queries:codeql-suites/cpp-code-scanning.qls --format=sarifv2.1.0 --output=cpp-results.sarif --download

Este comando descarga el paquete de consultas de CodeQL codeql/cpp-queries, ejecuta el análisis y genera un archivo en el formato SARIF versión 2.1.0 compatible con todas las versiones de GitHub. Este archivo se puede cargar en GitHub mediante la ejecución de codeql github upload-results o de la API de examen de código. Para más información, consulta "Configurar el CLI de CodeQL en tu sistema de IC" o "Examen del código".

Los conjuntos de consultas de CodeQL son archivos .qls que usan directivas para seleccionar las consultas que se ejecutarán en función de determinadas propiedades de metadatos. Los paquetes estándar de CodeQL contienen metadatos que especifican la ubicación de los conjuntos de consultas que usa el examen de código, para que la CodeQL CLI sepa dónde encontrar los archivos de los conjunto automáticamente, y no es necesario especificar la ruta de acceso completa en la línea de comandos. Para obtener más información, vea «Creación de conjuntos de consultas de CodeQL».

Para más información sobre cómo crear conjuntos de consultas personalizados, consulta "Creación de conjuntos de consultas de CodeQL".

Información de diagnóstico y resumen

Al crear una base de datos de CodeQL, el extractor almacena los datos de diagnóstico en la base de datos. Los conjuntos de consultas de examen de código incluyen consultas adicionales para informar sobre estos datos de diagnóstico y calcular las métricas de resumen. Cuando el comando database analyze se completa, la CLI genera el archivo de resultados y notifica los datos de diagnóstico y resumen a la salida estándar. Si decides generar la salida de SARIF, los datos adicionales también se incluyen en el archivo SARIF.

Si el análisis encontró menos resultados de lo esperado para las consultas estándar, revisa los resultados de las consultas de diagnóstico y resumen para comprobar si es probable que la base de datos de CodeQL sea una representación adecuada del código base que quieres analizar.

Integración de un paquete de CodeQL en un flujo de trabajo de examen de código en GitHub

Puedes usar los paquetes de consultas de CodeQL en la configuración del examen de código. Esto te permite seleccionar paquetes de consulta publicados por varios orígenes y usarlos para analizar el código. Para obtener más información, lee el artículo titulado "Uso de paquetes de consultas de CodeQL en la acción de CodeQL o "Descarga y uso de paquetes de consultas de CodeQL en el sistema de integración continua".

Inclusión de ayuda de consulta para consultas personalizadas de CodeQL en archivos SARIF

Si usas la CodeQL CLI para ejecutar análisis que examinen código en sistemas de CI/CD de terceros, puedes incluir ayuda de consulta para las consultas personalizadas de los archivos SARIF generados durante un análisis. Después de cargar el archivo SARIF en GitHub, la ayuda de consulta se muestra en la interfaz de usuario de examen de código para las alertas generadas por las consultas personalizadas.

A partir de la CodeQL CLI v2.7.1 y versiones posteriores, puedes incluir ayuda de consulta representada con Markdown en archivos SARIF. Para ello, proporciona la opción --sarif-add-query-help al ejecutar codeql database analyze. Para más información, consulta Configurar el CLI de CodeQL en tu sistema de IC.

Puedes escribir ayuda de consulta para las consultas personalizadas directamente en un archivo Markdown y guardarla con la consulta correspondiente. Como alternativa, para garantizar la coherencia con las consultas estándar de CodeQL, puedes escribir ayuda de consulta en el formato .qhelp. La ayuda de consulta escrita en archivos .qhelp no se puede incluir en archivos SARIF y estos no se pueden procesar en un examen de código, por lo que debe convertirse a Markdown antes de ejecutar el análisis. Para obtener más información, lee "Consulta de archivos de ayuda" y "Prueba de archivos de ayuda de consulta".

Results

Puedes guardar los resultados del análisis en varios formatos diferentes, incluidos SARIF y CSV.

El formato SARIF está diseñado para representar la salida de una amplia gama de herramientas de análisis estático. Para más información, consulta Salida SARIF de la CLI de CodeQL.

Si decides generar los resultados en formato CSV, cada línea del archivo de salida se corresponde con una alerta. Cada línea es una lista separada por comas con la información siguiente.

Propiedad	Descripción	Ejemplo
Nombre	Nombre de la consulta que identificó el resultado.	`Inefficient regular expression`
Descripción	Descripción de la consulta.	`A regular expression that requires exponential time to match certain inputs can be a performance bottleneck, and may be vulnerable to denial-of-service attacks.`
severity	Gravedad de la consulta.	`error`
Message	Mensaje de alerta.	`This part of the regular expression may cause exponential backtracking on strings containing many repetitions of '\\\\'.`
Ruta de acceso	Ruta de acceso del archivo que contiene la alerta.	`/vendor/codemirror/markdown.js`
Línea de inicio	Línea del archivo donde comienza el código que desencadenó la alerta.	`617`
Columna de inicio	Columna de la línea de inicio que marca el inicio del código de alerta. No se incluye cuando es igual a 1.	`32`
Línea de finalización	Línea del archivo donde finaliza el código que desencadenó la alerta. No se incluye cuando tiene el mismo valor que la línea de inicio.	`64`
Columna de finalización	Cuando está disponible, es la columna de la línea de finalización que marca el final del código de alerta. En caso contrario, se repite la línea de finalización.	`617`

Puedes integrar los archivos de resultados en tu propia infraestructura de depuración o de revisión de código. Por ejemplo, la salida del archivo SARIF se puede usar para resaltar las alertas en la ubicación correcta del código fuente mediante un complemento del visor de SARIF para el IDE.

Información adicional

"Análisis de los proyectos en CodeQL para VS Code"

Análisis del código con consultas de CodeQL

En este artículo