Preview

Труды Института системного программирования РАН

Расширенный поиск

Инструментальные средства оценки качества научно-технических документов

Аннотация

В статье предлагается комбинированный подход к оценке качества научно-технических документов, учитывающий различные категории автоматически рассчитываемых характеристик качества документов - как существующие библиометрические и наукометрические характеристики (рассчитываемые на основе сведений из «цитатных» баз), так и новые типы характеристик, основанные на семантическом анализе текстов научно-технических документов, применении эвристических правил, а также на применении методов оценки наличия прямых текстовых заимствований (плагиата). На основе полученных базовых оценок формируется интегральный показатель оценки качества научно-технических документов с использованием методов машинного обучения аналогично решению задачи ранжирования в информационном поиске. Представлена разработанная экспериментальная система, основанная на предложенном подходе, а также приводятся экспериментальные исследования разработанной системы, направленные на проверку точности оценки научно-технических документов. Проведённый в статье анализ состояния исследований в РФ и за рубежом в области методов оценки качества научно-технических документов показал, что предложенный в статье подход на основе автоматического расчета базовых оценок из указанного «расширенного» набора групп никем не рассматривалась в настолько широкой постановке и в целом является новаторским.

Об авторах

С. В. Герасимов
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


Р. В. Курынин
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


И. В. Машечкин
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


М. И. Петровский
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


Д. В. Царёв
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


А. А. Шестимеров
Факультет вычислительной математики и кибернетики Московского государственного университета имени М.В.Ломоносова
Россия


Список литературы

1. Steve Lawrence, Kurt Bollacker, C . Lee Giles. Indexing and Retrieval of Scientific Literature // Eighth International Conference on Information and Knowledge Management, CIKM 99, Kansas City, Missouri, November 2–6, pp. 139–146, 1999.

2. В.В. Писляков. Методы оценки научного знания по показателям цитирования // М.: Социологический журнал, 2007, N1, стр. 128-140.

3. Официальный сайт ISI Web of Knowledge (ныне подразделение Healthcare & Science business в Thomson Reuters) // http://www.webofknowledge.com.

4. Официальный сайт системы CiteSeer // http://citeseerx.ist.psu.edu.

5. Российский Индекс Научного Цитирования // http://elibrary.ru/project_risc.asp.

6. Писляков В. В. Наукометрические методы и практики, рекомендуемые к применению в работе с российским индексом научного цитирования // Отчёт о научно-исследовательской работе (промежуточный) по теме «Разработка системы статистического анализа российской науки на основе данных российского индекса цитирования». — М., 2005.

7. Meho L (Meho, Lokman); Yang K (Yang, Kiduk). Fusion approach to citation-based quality assessment // Proceedings Of Issi 2007: 11th International Conference Of The International Society For Scientometrics And Informetrics, Vols I And II : 568-581.

8. Angela Vorndran, Alexander Botte. Analysis and evaluation of existing methods and indicators for quality assessment of scientific publications // http://www.eerqi.eu/sites/default/files/Analysis_and_evaluation_of_existing_methods_and_indicators.pdf [PDF].

9. Официальный сайт проекта EERQI – European Educational Research Quality Indicators // www.eerqi.eu.

10. EERQI Project Final Report (2011) // http://eerqi.eu/sites/default/files/Final_Report.pdf [PDF].

11. Moyses Szklo. Quality of scientific articles // Revista Saúde Pública vol.40 special issue São Paulo Aug. 2006.

12. Dr Navneet Gupta BSc (Hons) PhD MCOptom FBCLA. How to Evaluate a Scientific Research Article // http://www.optometry.co.uk/uploads/articles/ARTICLE%200309.pdf [PDF].

13. Официальный сайт системы Google Scholar// http://scholar.google.ru.

14. Berry M.W., Dumais S.T., O’Brien G.W. Using Linear Algebra for Intelligent Information Retrieval // University of Tennessee Knoxville. TN. USA, 1994.

15. Lee D.D., Seung H.S. Learning the parts of objects by non-negative matrix factorization // Nature, 401, pp. 788-791, 1999.

16. Rakesh P., Shivapratap G., Divya G., Soman KP. Evaluation of SVD and NMF Methods for Latent Semantic Analysis // International Journal of Recent Trends in Engineering, Vol. 1, No. 3, 2009.

17. Griffiths T L, Steyvers M. Finding scientific topics // In: Proceedings of the National Academy of Sciences. USA, 2004, 101: 5228–5235.

18. Steinberger J., Ježek K. Text Summarization and Singular Value Decomposition // In Lecture Notes for Computer Science vol. 2457, Springer-Verlag, 2004, pp. 245-254.

19. Steinberger J. Text Summarization within the LSA Framework // PhD Thesis, University of West Bohemia in Pilsen, Czech Republic, January 2007.

20. Машечкин И.В., Петровский М.И., Царёв Д.В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. Том 14, 2013. 91-102.

21. Mashechkin I.V., Petrovskiy M.I., Popov D.S., Tsarev D.V. Automatic text summarization using latent semantic analysis // Programming and Computer Software, pp. 299-305, 2011.

22. Tsarev D., Petrovskiy M., Mashechkin I. Using NMF-based text summarization to improve supervised and unsupervised classification // 11th International Conference on Hybrid Intelligent Systems (HIS), Malacca, MALAYSIA. P. 185-189, 2011.

23. Dmitry Tsarev, Mikhail Petrovskiy and Igor Mashechkin, Supervised and Unsupervised Text Classification via Generic Summarization International Journal of Computer Information Systems and Industrial Management Applications. MIR Labs, Volume 5, 2013, pp. 509-515.

24. Wei Xu, Xin Liu, Yihong Gong Document clustering based on non-negative matrix factorization // Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, Toronto, Canada, 2003.

25. Y. Ding. Applying weighted PageRank to author citation networks. In Proceedings of JASIST. 2011, pp. 236-245.

26. M. Potthast, T. Gollub, M. Hagen, J. Graßegger, J. Kiesel, M. Michel, A. Oberländer, M. Tippmann, A. Barrón-Cedeño, P. Gupta, P. Rosso, B. Stein. Overview of the 4th International Competition on Plagiarism Detection. CLEF2012. 2012.

27. S. Alzahrani, N. Salim. Fuzzy Semantic-Based String Similarity for Extrinsic Plagiarism Detection, Lab Report for PAN at CLEF2010, 2010.

28. A. Martins. String kernels and similarity measures for information retrieval. 2006.

29. Berry M.W., Browne M., Langville A.N., Pauca V.P., Plemmons R.J. Algorithms and applications for approximate nonnegative matrix factorization // Computational Statistics and Data Analysis, pp. 155-173, 2007.

30. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко. // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-во МГУ, 1996, c.768-820.

31. Braslavski P. Document Style Recognition Using Shallow Statistical Analysis. In Proceedings of the ESSLLI 2004 Workshop on Combining Shallow and Deep Processing for NLP, Nancy, France, 2004, p. 1–9.

32. DuBay, W.H. The Principles of Readability. Costa Mesa, CA: Impact Information. 2004.

33. P.V. Rao and L.L. Kupper, “Ties in paired-comparison experiments: A generalization of the Bradley–Terry model”, Amer. Statist. Assoc, 62, 1967, pp. 194–204.

34. Turner, H and Firth, D (2012). Bradley-Terry Models in R: The BradleyTerry2 Package. Journal of Statistical Software 48(9), 1–21.

35. Hastie, Tibshirani and Friedman (2008). The Elements of Statistical Learning (2nd edition) Springer-Verlag. 763 pages.

36. Официальный сайт Twisted Framework // http://twistedmatrix.com.

37. Официальный сайт qooxdoo // http://qooxdoo.org.

38. Конференция «Математические методы распознавания образов» // http://www.mmro.ru.

39. The IEEE International Conference on Data Mining (ICDM) // http://www.cs.uvm.edu/~icdm.

40. International Conference on Mechanical and Electrical Technology (ICMET) // http://www.icmet.ac.cn.

41. Zhang M.-L., Zhou Z.-H. A k-nearest neighbor based algorithm for multi-label classification // Proceedings of the 1st IEEE International Conference on Granular Computing (GrC'05). Beijing, China, 2005. pp. 718-721.


Рецензия

Для цитирования:


Герасимов С.В., Курынин Р.В., Машечкин И.В., Петровский М.И., Царёв Д.В., Шестимеров А.А. Инструментальные средства оценки качества научно-технических документов. Труды Института системного программирования РАН. 2013;24.

For citation:


Gerasimov S.V., Kurynin R.V., Mashechkin I.V., Petrovskiy M.I., Tsarev D.V., Shestimerov A.A. Tools for Quality Assessment of Scientific and Technical Documents. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2013;24. (In Russ.)



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)