ОНТОЛОГИИ КАК ФУНДАМЕНТ ФОРМАЛИЗАЦИИ НАУЧНОЙ ИНФОРМАЦИИ И ИЗВЛЕЧЕНИЯ НОВЫХ ЗНАНИЙ

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

“Ковчег знаний” – цифровой проект, разрабатываемый Московским государственным университетом им. М. В. Ломоносова. Он предоставляет доступ к фундаментальным знаниям на русском языке и должен играть ключевую роль в сохранении и распространении культурного и научного наследия России. “Ковчег знаний” – это онтологическая информационная система. В статье рассматриваются современные представления об онтологии, этапы создания, онтологические особенности БРЭ и Викиданных, а также проектирование информационной системы и применение для обучения языковых моделей. Кратко описан первоначальный рабочий прототип указанной информационной системы. Работы по созданию системы ведутся силами научных сотрудников и программистов лаборатории инженерии знаний Института математических исследований сложных систем МГУ, также учеными филологического, механико-математического факультетов, факультета вычислительной математики и кибернетики, Филиала МГУ в городе Севастополе.

Об авторах

А. С. Бубнов

Лаборатория инженерии знаний Института математических исследований сложных систем, Московский государственный университет им. М. В. Ломоносова

Москва, Россия

Н. И. Галлини

Крымский федеральный университет им. В. И. Вернадского

Симферополь, Россия

И. Ю. Гришин

Филиал Московского государственного университета им. М. В. Ломоносова в городе Севастополе

Севастополь, Россия

И. М. Кобозева

Филологический факультет, Московский государственный университет им. М. В. Ломоносова

Москва, Россия

Н. В. Лукашевич

Научно-исследовательский вычислительный центр, Московский государственный университет им. М. В. Ломоносова

Email: louk_nat@mail.ru
Москва, Россия

М. Б. Панич

Филологический факультет, Московский государственный университет им. М. В. Ломоносова

Москва, Россия

Е. Н. Раевский

Факультет вычислительной математики и кибернетики, Московский государственный университет им. М. В. Ломоносова

Москва, Россия

Ф. А. Садковский

Филологический факультет, Московский государственный университет им. М. В. Ломоносова

Москва, Россия

Р. Р. Тимиргалеева

Филиал Московского государственного университета им. М. В. Ломоносова в городе Севастополе

Севастополь, Россия

Список литературы

  1. Еременко Г. О. Elibrary.ru: курс на повышение качества контента // Университетская книга, 2016, 3. С. 62–68.
  2. Ginsparg P. ArXiv at 20 // Nature, 2011, 476(7359). P. 145–147. https://doi.org/10.1038/476145a
  3. Jain S. M. Introduction to transformers for NLP: With the Hugging Face library and models to solve problems // Berkeley, CA: Apress, 2022. P. 51–67. ISBN: 9781484288443.
  4. Wang K., Shen Z., Huang C.-Y. et al. Microsoft academic graph: When experts are not enough // Quantitative Science Studies, 2020, 1(1). P. 396–413. https://doi.org/10.1162/qss_a_00021
  5. Lund B. D., Wang T. Chatting about ChatGPT: how may AI and GPT impact academia and libraries? // Library hi tech news, 2023, 40(3). P. 26–29. https://doi.org/10.1108/LHTN-01-2023-0009
  6. Haider J., Söderström K. R. Ekström B. et al. GPTfabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation // Harvard Kennedy School Misinformation Review, 2024, 5(5). P. 1–16.
  7. Dadkhah M., Oermann M. H., Hegedüs M. et al. Detection of fake papers in the era of artificial intelligence // Diagnosis, 2023, 10(4). P. 390–397. https://doi.org/10.1515/dx-2023-0090
  8. Wittau J., Seifert R. How to fight fake papers: a review on important information sources and steps towards solution of the problem // NaunynSchmiedeberg’s archives of pharmacology, 2024. P. 1–14. https://doi.org/10.1007/s00210-024-03272-8
  9. Kendall G., da Silva J. A. T. Risks of abuse of large language models, like ChatGPT, in scientific publishing: Authorship, predatory publishing, and paper mills // Learned Publishing, 2024, 37(1). P. 55–62. https://doi.org/10.1002/leap.1578
  10. Tirumala K., Simig D., Aghajanyan A. et al. D4: Improving LLM pretraining via document deduplication and diversification // Advances in Neural Information Processing Systems, 2023, 36. P. 53983–53995. https://doi.org/10.48550/arXiv.2308.12284
  11. Beltagy I., Lo K., Cohen A. SciBERT: A Pretrained Language Model for Scientific Text // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019. P. 3615–3620. https://doi.org/10.18653/v1/D19-1371
  12. Gerasimenko N. A., Chernyavsky A. S., Nikiforova M. A. RuSciBERT: A transformer language model for obtaining semantic embeddings of scientific texts in Russian // Doklady Mathematics, 2022, 106, Suppl 1. P. S95–S96. https://doi.org/10.1134/S1064562422060072
  13. Горячко В. В., Бубнов А. С., Раевский Е. В., Семенов А. Л. Цифровой ковчег знаний // Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, 508(1). С. 128–133. https://doi.org/10.31857/S2686954322070098
  14. Hogan A., Blomqvist E., Cochez M, et al. Knowledge graphs // ACM Computing Surveys (CSUR), 2021, 54(4). P. 1–37. https://doi.org/10.1145/344777
  15. Dong X., Gabrilovich E., Heitz G., et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion // Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014. P. 601–610. https://doi.org/10.1145/2623330.2623623
  16. Vrandečić D., Krötzsch M. Wikidata: a free collaborative knowledgebase // Communications of the ACM, 2014, 57(10). P. 78–85. https://doi.org/10.1145/2629489
  17. Shenoy K., Ilievski F., Daniel Garijo D., et al. A study of the quality of Wikidata // Journal of Web Semantics, 2022, 72. P. 100679. https://doi.org/10.1016/j.websem.2021.100679
  18. Hug S. E., Ochsner M., Brändle M. P. Citation analysis with Microsoft academic // Scientometrics, 2017, 111. P. 371–378. https://doi.org/10.1007/s11192-017-2247-8
  19. Васенин В. А. Афонин С. А., Голомазова Д. Д. и др. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) // Информационное общество, 2013, 1–2. С. 39–57.
  20. Козицын А. С., Афонин С. А. Алгоритм разрешения неоднозначности имен авторов в ИАС ИСТИНА // Современные информационные технологии и ИТ-образование, 2020, 16(1). С. 108–117. https://doi.org/10.25559/SITITO.16.202001.108-117
  21. Семенов А. Л. Искусственный интеллект в обществе // Доклады РАН. Математика, информатика, процессы управления. Специальный выпуск “Технологии искусственного интеллекта и машинного обучения”. 2023, 514(2). С. 6–19. https://doi.org/10.31857/S2686954323350023
  22. Wille R. Formal Concept Analysis as Mathematical Theory of Concepts and Concept Hierarchies // In: Ganter B., Stumme G., Wille R. (eds) Formal Concept Analysis. Lecture Notes in Computer Science, 2005, 3626. Springer, Berlin, Heidelberg. P. 1–33. https://doi.org/10.1007/11528784_1
  23. Лукашевич Н. В., Добров Б. В., Павлов А. М., Штернов С. В. Онтологические ресурсы и информационно-аналитическая система в предметной области “безопасность” // Онтология проектирования, 2018, 1(27). https://cyberleninka.ru/article/n/ontologicheskie-resursy-i-informionno-analiticheskaya-sis-tema-v-predmetnoy-oblasti-bezopasnost (дата обращения: 01.10.2024).
  24. Семенов А. Л., Раевский Е. Н., Бубнов А. С. и др. Универсальная энциклопедическая платформа работы со знанием // Современные информационные технологии и ИТ-образование. 2023, 19(3). С. 696–703.
  25. https://doi.org/10.25559/SITITO.019.202303.696-703

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2024