ChatGPT 4.0
desafios na interpretação de textos multimodais
DOI :
https://doi.org/10.46230/lef.v16i2.13157Mots-clés :
ChatGPT, interpretação de charges, comparação humano-IARésumé
Este estudo investiga a capacidade do modelo de inteligência artificial ChatGPT 4.0 em interpretar charges, utilizando benchmarks humanos como referência. As charges foram escolhidas por integrarem elementos verbais e não-verbais, permitindo uma avaliação detalhada de como o ChatGPT lida com nuances contextuais, humor e sátira. Os resultados demonstram que, embora o ChatGPT consiga identificar elementos visuais principais, ele enfrenta desafios significativos na compreensão de contextos mais amplos e na interpretação de humor e subtextos complexos. O estudo revela que as interpretações do ChatGPT tendem a ser superficiais e menos detalhadas em comparação com as humanas, especialmente em aspectos como estilo artístico, técnicas visuais e contextos culturais. Além disso, o ChatGPT mostra dificuldades em captar a profundidade e a intenção crítica de elementos satíricos, resultando em interpretações que não refletem completamente as mensagens implícitas nas charges. Os achados deste estudo contribuem para a compreensão das capacidades e limitações atuais dos modelos de IA na interpretação de discursos complexos, oferecendo insights valiosos para o avanço da linguística cognitiva e das tecnologias de processamento de linguagem natural.
Téléchargements
Références
ALAWIDA, M.; MEJRI, S.; MEHMOOD, A.; CHIKHAOUI, B.; ABIODUN, O. I. A comprehensive study of ChatGPT: Advancements, limitations, and ethical considerations in natural language processing and cybersecurity. Information, v. 14, n. 8, p. 462, 2023. DOI: https://doi.org/10.3390/info14080462. Disponível em: https://www.mdpi.com/2078-2489/14/8/462 . Acesso em: 17 abr. 2024.
ANDRADE, A. C. De. A charge: análise do processo enunciativo-discursivo numa perspectiva dialógica. 2011. 329 f. Tese (Doutorado em Linguística) – Centro de Artes e Comunicação, Programa de Pós-graduação em Letras, Universidade Federal de Pernambuco, Recife, 2011. Disponível em:
https://repositorio.ufpe.br/handle/123456789/15037. Acesso em: 13 abr. 2024.
BARROT, J. S. ChatGPT as a Language Learning Tool: An Emerging Technology Report. Technology, Knowledge and Learning, California, v. 28, n. 4, p. 1-6, dec. 2023. DOI: https://doi.org/10.1007/s10758-023-09711-4. Disponível em: https://link.springer.com/article/10.1007/s10758-023-09711-4. Acesso em: 22 ago. 2024.
CAO, Y.; ZHOU, L.; LEE, S.; CABELLO, L.; CHEN, M.; HERSHCOVICH, D. Assessing cross-cultural alignment between ChatGPT and human societies: An empirical study. In: Proceedings of the First Workshop on Cross-Cultural Considerations in NLP (C3NLP), Dubrovnik, Croatia. Association for Computational Linguistics, 2023. p. 53–67.
CAZO. Charge sobre o Dia da Árvore. Blog do AFTM. São Paulo, 22 set. 2023. Disponível em: https://anafisco.org.br/charge-dia-da-arvore/. Acesso em: 16 mar. 2024.
CONG-LEM, N.; SOYOOF, A.; TSERING, D. A systematic review of the limitations and associated opportunities of ChatGPT. International Journal of Human–Computer Interaction, 08 maio 2024, p. 718-738. DOI: 10.1080/10447318.2024.2344142. Acesso em: 29 maio 2024.
DUQUE, P. H. Discurso e cognição: uma abordagem baseada em frames. Revista da ANPOLL, v. 1, n. 39, p. 25-48, 2015. Disponível em: https://revistadaanpoll.emnuvens.com.br/revista/article/view/902. Acesso em: 29 maio 2024.
FARINA, M.; LAVAZZA, A. ChatGPT in society: emerging issues. Front. Artif. Intell, v. 6, p. 1-7, jun. 2023. Disponível em: https://www.frontiersin.org/articles/10.3389/frai.2023.1130913/full. Acesso em: 29 maio 2024.
FELDMAN, J. A. From molecule to metaphor. [S.L]: MIT Press, 2006.
GARCIA, G. I. Uma imagem, tantas possibilidades: os avanços e desafios no estudo das caricaturas. Revista em Perspectiva, v. 4, n. 1, p. 109-125, 2019. Disponível em: http://periodicos.ufc.br/emperspectiva/article/view/41573. Acesso em: 29 maio 2024.
GAWRYSZEWSKI, A. Conceito de caricatura: não tem graça nenhuma. Domínios da Imagem, v. I, n. 2, p. 7-26, 2008. Disponível em: https://www.academia.edu/43273460/Conceito_de_caricatura_n%C3%A3o_tem_gra%C3%A7a_nenhuma. Acesso em: 29 maio 2024.
GHOSH, A.; JAIN, S.; KAPOOR, A.; KUMAR, V.; AGARWAL, P. Exploring the frontier of vision-language models: A survey of current methodologies and future directions. Artificial Intelligence Review, v. 2, p. 1-16, abr. 2024. Disponível em: https://arxiv.org/pdf/2404.07214. Acesso em: 29 maio 2024.
HALLIDAY, M. A. K. Language as social semiotic. London: Edward Arnold, 1978.
HE, S.; CHEN, Y.; XIA, Y.; LI, Y.; LIANG, H-N.; YU, L. Visual harmony: Text-visual interplay in circular infographics. Journal of Visualization, v. 27, p. 255-271, 2024. Disponível em: https://arxiv.org/pdf/2402.05798. Acesso em: 29 maio 2024.
HESSEL, J.; MARASOVIC, A.; HWANG, J. D.; LEE, L.; DA, J.; ZELLERS, R.; MANKOFF, R.; CHOI, Y. Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, Toronto, jul, p. 688-714, 2023.
HODGE, R.; KRESS, G. Social semiotics. London: Polity Press, 1988.
HUA, S. Y.; JIN, S. C.; JIANG, S. Y. The Limitations and Ethical Considerations of ChatGPT. Data Intelligence, v. 6, n. 1, p. 201–239, 2024. DOI: 10.1162/dint_a_00243. Disponível em: https://www.researchgate.net/publication/376740720_The_Limitations_and_Ethical_Considerations_of_ChatGPT. Acesso em: 29 maio 2024.
JOHNSON, M. The body in the mind: The bodily basis of meaning, imagination, and Reason. Chicago: University of Chicago Press, 1987.
KENNEY, N. M. A Brief Analysis of the Architecture, Limitations, and Impacts of ChatGPT. Georgia: Georgia Institute of Technology, 2023. DOI: https://zenodo.org/doi/10.5281/zenodo.7762244. Disponível em: https://zenodo.org/records/7762245. Acesso em: 12 abril 2024.
KRESS, G. R. Multimodality: A Social Semiotic Approach to Contemporary Communication. London e New York: Routledge, 2010.
KRESS, G.; VAN LEEUWEN, T. Multimodal discourse: the modes and media of contemporary communication. London: Hodder Arnold, 2001.
LAKOFF, G. Women, fire, and dangerous things: What categories reveal about the mind. Chicago: University of Chicago Press, 1987.
MANDLER, J. M.; CÁNOVAS, C. P. On defining image schemas. Language and Cognition, v. 6, n. 4, p. 510–532, 2014. Disponível em: https://www.researchgate.net/publication/269931714_On_defining_image_schemas. Acesso em: 29 maio 2024.
NADELLA, G. Visual ChatGPT: A comprehensive guide to multimodal AI. Analytics Vidhya, 13 de março de 2024. Disponível em: https://www.analyticsvidhya.com/blog/2023/03/power-of-visual-chatgpt-conversations-with-ai-and-images/. Acesso em: 15 março 2024.
SANDLER, M.; CHOUNG, H.; ROSS, A.; DAVID, P. A Linguistic Comparison between Human and ChatGPT-Generated Conversations. ArXiv, v. 3, p. 1 – 15, abr, 2024. Disponível em: https://arxiv.org/pdf/2401.16587. Acesso em: 29 maio 2024.
SCHANK, R. C.; ABELSON, R. P. Scripts, plans, goals, and understanding: An inquiry into human knowledge structures. Hillsdale, NJ: Lawrence Erlbaum Associates, 1977.
SCHMOCK. Charge sobre as viagens de Lula e Janja. Revista Oeste. São Paulo, 23 jun. 2023. Disponível em: https://revistaoeste.com/politica/charge-da-semana-46/. Acesso em: 16 mar. 2024.
SOUZA, I. C. de O. A charge como fonte e representação da informação no desenvolvimento político brasileiro. 2018. 194 f. Tese (Doutorado) – Instituto de Ciência da Informação, Universidade Federal da Bahia, Salvador, 2018. Disponível em: https://repositorio.ufba.br/handle/ri/27843. Acesso em: 23 ago. 2024.
SPENNEMANN, D. H. R. ChatGPT and the generation of digitally born “knowledge”: How does a generative AI language model interpret cultural heritage values? Knowledge, v. 3, n. 3, p. 480-512, 2023. Disponível em: https://doi.org/10.3390/knowledge3030032. Acesso em: 29 maio 2024.
VASWANI, A.; SHAZEER, N.; PARMAR, N.; USZKOREIT, J.; JONES, L.; GOMEZ, A. N.; KAISER, L.; POLOSUKHIN, I. Attention is All You Need. In: Advances in Neural Information Processing Systems, 2017. Disponível em: https://arxiv.org/pdf/1706.03762. Acesso em: 11 mar. 2024.
VEREZA, S. Entrelaçando frames: a construção do sentido metafórico na linguagem em uso. Cadernos de Estudos Linguísticos, n. 1, v. 55, p. 109-125, 2013. DOI: https://doi.org/10.20396/cel.v55i1.8636598. Disponível em: https://periodicos.sbu.unicamp.br/ojs/index.php/cel/article/view/8636598. Acesso em: 22 ago. 2024.
ZENG, Y.; ZHANG, H.; ZHENG, J.; XIA, J.; WEI, G.; WEI, Y.; ZHANG, Y.; KONG, T. What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? ArXiv, 2023. Disponível em: https://arxiv.org/pdf/2307.02469. Acesso em: 29 maio 2024.
Téléchargements
Publiée
Comment citer
Numéro
Rubrique
Licence
(c) Tous droits réservés Paulo Henrique Duque 2024
Ce travail est disponible sous la licence Creative Commons Attribution 4.0 International .
Os autores que publicam na Linguagem em Foco concordam com os seguintes termos:
- Os autores mantêm os direitos autorais e concedem à revista o direito de primeira publicação. Os artigos estão simultaneamente licenciados sob a Creative Commons Attribution License que permite a partilha do trabalho com reconhecimento da sua autoria e da publicação inicial nesta revista.
- Os conceitos emitidos em artigos assinados são de absoluta e exclusiva responsabilidade de seus autores. Para tanto, solicitamos uma Declaração de Direito Autoral, que deve ser submetido junto ao manuscrito como Documento Suplementar.
- Os autores têm autorização para disponibilizar a versão do texto publicada na Linguagem em Foco em repositórios institucionais ou outras plataformas de distribuição de trabalhos acadêmicos (ex. ResearchGate, Academia.edu).