La IA judicial ya dio resultados

El programa piloto de uso de inteligencia artificial generativa en el ámbito judicial tiene sus resultados premilinares y Diario Judicial desagrega las conclusiones: Cuál fue el uso que le dieron magistrados y funcionarios, qué herramientas fueron las más utilizadas y qué problemas se detectaron.

La IA judicial ya dio resultados

   

Se publicaron los resultados preliminares del Programa Piloto de Uso Estratégico y Responsable de IA Generativa en la Justicia Argentina, que pretende mejorar la eficiencia y calidad de las tareas judiciales e identificar las posibles aplicaciones de la inteligencia artificial generativa en el Poder Judicial.

La iniciativa, compartida entre el laboratorio de inteligencia artificial de la Universidad de Buenos Aires (UBA-IALAB) y Junta Federal de Cortes y Superiores Tribunales de Justicia de las Provincias Argentinas y de la Ciudad Autónoma de Buenos Aires (JUFEJUS), con la colaboración de múltiples instituciones nacionales y locales llevó adelante 29 pruebas en diferentes poderes judiciales del país (Mendoza, Tierra del Fuego, San Juan, Buenos Aires, Misiones, Tucumán y CABA), busca también “sensibilizar y alfabetizar a los integrantes de los órganos judiciales en la materia, promoviendo un uso estratégico, ético y responsable de herramientas como ChatGPT y Gemini”

Según los resultados publicados, a los que accedió Diario Judicial, se registraron 2845 interacciones con la IA en base a 1007 planillas de Excel en las cuales los funcionarios registraban las interacciones con herramientas como ChatGPT, Gemini o Copilot, en diferentes juzgados y fueros.

Por ejemplo, una de las tareas registradas fue la de asignar una valoración de 1 a 5 para puntuar la calidad y la eficiencia en tiempo que les supuso cada herramienta, siendo el valor 1 el más bajo y el 5 el más alto, de donde se obtuvo los promedios de puntuación.

Desagregando pór aplicación, si nos centramos en ChatGPT, la puntuación en cuanto a tiempo fue de 4,30 y en calidad 3,78, para Copilot, en tiempo 3,81 y en calidad 3,63. Para Gemini, el puntaje de tiempo fue de 3,97 y el de calidad 3,33, por último, se puntuó “otros” aplicativos de IAgen, con un 4,02 en tiempo y 3,79 en calidad.

Sin perjuicio de las puntuaciones, los voluntarios describieron en términos generales que se notaba “una diferencia sustancial en el tiempo de trabajo con y sin IAGen”, ya que el uso de estas herramientas permitió acelerar la ejecución de tareas, redacción de documentos o análisis de jurisprudencia. Destacándose como mayor problema el de necesidad de supervisión, dado que muchas veces la IA interpretaba erróneamente el documento o generaba alucinaciones en los resultados.

Sin perjuicio de las puntuaciones, los voluntarios describieron en términos generales que se notaba una diferencia sustancial en el tiempo de trabajo con o si el uso de IAgen, ya que las mismas permitían acelerar la ejecución de tareas, redacción de documentos o análisis de jurisprudencia. Destacándose como mayor problema el de necesidad de supervisión, dado que muchas veces la IA interpretaba erróneamente el documento o generaba alucinaciones en los resultados.

 “Del análisis global de las interacciones, se desprende que las tareas más utilizadas con IAGen en la justicia fueron la redacción de documentos (30,70%), seguida del análisis de información (17,31%) y la búsqueda de información (11,67%). La ideación de argumentos y estructuras jurídicas representó el 10,57%, mientras que la mejora de textos existentes alcanzó el 6,81%” indica el documento.

Sectorizado entre diferentes instancias, los resultados demostraron que, en primera instancia, se priorizó el uso en redacción (32,80%), “seguida del análisis con 15,87%, la búsqueda con 11,22% y la ideación con 10,11%”, seguido de “mejoras de textos 7,19% y profundización de argumentos/ideas 6,39%, con un menor uso en combinación de información/documentos 4,77%, interpretación 4,53% y valoración 2,60%.”

En segunda instancia, “el análisis fue la tarea más frecuente con 26,26%, seguida de redacción con 24,82% y búsqueda con 11,15%. La ideación tuvo un 8,27%, mientras que las mejoras a textos y la profundización de argumentos/ ideas alcanzaron un 6,83% cada una. La interpretación llegó al 5,76%, con un menor uso de combinación de información/documentos 4,32% y valoración 3,24%.”

En la instancia de Casación, se dio prioridad a la redacción con un 33,33%, seguido del análisis con 30,00%, búsqueda de información fue de 13,33% y “combinación de información/documentos y la ideación» tuvieron un uso menor, con 6,67% cada una”.

“Del análisis global de las interacciones, se desprende que las tareas más utilizadas con IAGen en la justicia fueron la redacción de documentos (30,70%), seguida del análisis de información (17,31%) y la búsqueda de información (11,67%). La ideación de argumentos y estructuras jurídicas representó el 10,57%, mientras que la mejora de textos existentes alcanzó el 6,81%” indica el documento.

 En el caso de Superiores Tribunales, “la redacción lideró con 25,27%, seguida del análisis con 19,23% y la ideación con 11,54%. La búsqueda de información y la profundización de argumentos representaron 8,24% cada una, mientras que las mejoras a textos fueron el 7,69% del uso. La interpretación alcanzó el 6,04%, y tareas como combinación de información/documentos 3,85%, distinciones conceptuales 3,30% y valoración 2,75% tuvieron un uso menor”.

En las conclusiones del documento se hace referencia a los beneficios del uso  de estas herramientas, como “optimizar tiempos, mejorar la calidad de los documentos y permitir a los y las agentes judiciales concentrarse en tareas más complejas que requieren su experiencia y criterio”, como en los desafíos de su implementación, ya que “será necesario continuar desarrollando estrategias de implementación que garanticen su uso responsable y ético”.

En este último punto, el estudio da cuenta de que herramientas como ChatGPT, Copilot o Gemini “requieren que los usuarios ingresen de forma activa a entornos específicos ajenos a las aplicaciones tradicionalmente utilizadas en el Poder Judicial”, situación que “evidenció la clara separación entre los sistemas de gestión oficial y las soluciones basadas en IA generativa”. 

Sumado a esto, en la mayoría de los casos, “los agentes y funcionarios acceden a estas aplicaciones bajo esquemas de licencia gratuitos o contratados de manera personal, sin intermediación de los Poderes Judiciales”.

Cabe destacar que, a partir del último trimestre de 2024, el esquema señalado “experimentó una transformación significativa” por la integración progresiva de la IA generativa en aplicaciones de uso cotidiano del Poder Judicial: procesadores de texto como Microsoft Word (Con copilot incorporado directamente al programa) y Google Docs, hojas de cálculo como Excel y Google Sheets y plataformas de reuniones virtuales como Zoom y Teams incorporaron funcionalidades impulsadas por IA.

Con este cambio, que implica que las propias aplicaciones cuentan con herramientas de IA “sin que el usuario tenga que intervenir explícitamente”, ha permitido que los usuarios utilicen la IA Generativa “a través de herramientas que ya conoce y emplea para su labor diaria”

Según el informe, “Este cambio de paradigma puede verse como una oportunidad para desarrollar estrategias regulatorias basadas en criterios de razonabilidad y proporcionalidad, que consideren el nuevo escenario y aborden el uso responsable y las medidas de prevención y mitigación de riesgos considerando variables específicas, propias de cada caso, como el tipo de acto procesal, la relevancia de los derechos implicados y el nivel de estandarización de las tareas.”.

Fuente: www.diariojudicial.com.ar