Preview

Труды Института системного программирования РАН

Расширенный поиск

Автоматическое извлечение терминов из коллекции текстов предметной области с помощью Википедии

https://doi.org/10.15514/ISPRAS-2014-26(4)-1

Аннотация

Автоматическое извлечение терминов является важной задачей во многих приложениях, связанных с обработкой текстов предметной области. В настоящее время существует множество методов извлечения терминов, однако они недостаточно полным образом используют внешние ресурсы, в частности - интернет-энциклопедию Википедия. Кроме того, существующие методы сильно зависят от языка и предметной области входной коллекции текстов. В данной работе предлагаются два новых признака: «Вероятность быть гиперссылкой» - нормализованная частота, с которой кандидат в термины является гиперссылкой в статьях Википедии; и «Близость к ключевым концептам» - среднее арифметическое значений семантической близости к ключевым понятиям заданной предметной области, определяемым автоматически на основе входной коллекции текстов предметной области. Также в данной работе предлагается новый автоматический метод извлечения терминов, основанный на алгоритме частичного обучения и не требующий размеченных данных. Схема метода состоит в извлечении лучших 100-300 кандидатов, присутствующих в Википедии, с помощью специального метода и последующем использовании этих кандидатов как положительных примеров для построения модели алгоритма обучения на основе положительных и неразмеченных примеров. Проведенное экспериментальное исследование на четырех предметных областях (настольные игры, биомедицина, информатика, сельское хозяйство) показывают значительное превосходство предложенного метода и его независимость от предметной области: средняя точность возросла на 5-17% по сравнению с лучшим из существующих методов для конкретного набора данных.

Об авторе

Н. А. Астраханце
ИСП РАН
Россия


Список литературы

1. Н.А. Астраханцев, Д.Ю. Турдаков. Методы автоматического построения и обогащения неформальных онтологий. Программирование, Т.39, №1, стр. 23-34, 2013.

2. Y. Lingpeng, J. Donghong, Z. Guodong, N. Yu. Improving retrieval effectiveness by using key terms in top retrieved documents. Advances in Information Retrieval, Springer, 2005, P. 169-184.

3. R. Yangarber, R. Grishman, P. Tapanainen, and S. Huttunen. Automatic acquisition of domain knowledge for information extraction. Proceedings of the 18th conference on Computational linguistics-Volume 2, 2000, P. 940-946.

4. Д. Д. Голомазов. Методы и средства управления научной информацией с использованием онтологий. Диссертация на соискание ученой степени кандидата физико-математических наук. МГУ им. Ломоносова, 2012, 154 стр.

5. The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat Genet, 25(1), 2007.

6. G. A. Miller. WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11. P. 39-41, 1995.

7. А.А. Алексеев, Б.В. Добров, Н.В. Лукашевич. Лингвистическая онтология тезаурус РуТез. Труды конференции Open Semantic Technologies for Intelligent Systems - OSTIS, P. 153-158, 2013.

8. D. Milne, O. Medelyan, I. H. Witten. Mining domain-specific thesauri from wikipedia: A case study. Proceedings of the 2006 IEEE/WIC/ACM international conference on web intelligence, 2006, P. 442-448.

9. C.D. Manning and H. Schutze. Foundations of statistical natural language processing. MIT press, Cambridge, MA, USA. 1999. 680 p.

10. Y. Park, R.J. Byrd, and B.K. Boguraev. Automatic glossary extraction: beyond terminology identification. In Proceedings of the 19th international conference on Computational linguistics-Volume 1, P. 1-7. Association for Computational Linguistics, 2002.

11. K.T. Frantzi and S. Ananiadou. Extracting nested collocations. Proceedings of the 16th conference on Computational linguistics-Volume 1, P. 41-46. Association for Computational Linguistics, 1996.

12. R. Navigli and P. Velardi. Semantic interpretation of terminological strings. In Proc. 6th Intl Conf. Terminology and Knowledge Eng, 2002, P. 95-100.

13. S. Li, J. Li, T. Song, W. Li, B. Chang. A novel topic model for automatic term extraction. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2013, P. 885-888.

14. K. Frantzi, S. Ananiadou, H. Mima. Automatic recognition of multi-word terms: the c-value/nc-value method. International Journal on Digital Libraries, vol. 3, no. 2, P. 115-130, 2000.

15. G. Bordea, P. Buitelaar, T. Polajnar. Domain-independent term extraction through domain modeling. 10th International Conference on Terminology and Artificial Intelligence (TIA 2013), Paris, France, 2013.

16. K. Ahmad, L. Gillam, L. Tostevin, et al. University of surrey participation in trec8: Weirdness indexing for logical document extrapolation and retrieval (wilder). In The Eighth Text REtrieval Conference (TREC-8), 1999.

17. F. Sclano and P. Velardi. Termextractor: a web application to learn the shared terminology of emergent web communities. Enterprise Interoperability II, 2007, P. 287-290.

18. A. Penas, F. Verdejo, J. Gonzalo, et al. Corpus-based terminology extraction applied to information access. In Proceedings of Corpus Linguistics, volume 2001. Citeseer, 2001.

19. Z. Zhang, C. Brewster, F. Ciravegna. A comparative evaluation of term recognition algorithms. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC08), Marrakech, Morocco, 2008.

20. A. Patry and P. Langlais. Corpus-based terminology extraction. In Terminology and Content Development-Proceedings of 7th International Conference On Terminology and Knowledge Engineering, Litera, Copenhagen, 2005.

21. J. Foo, Term extraction using machine learning. Linkoping University, LINKOPING, 2009.

22. A. Judea, H. Schütze, S. Brügmann. Unsupervised Training Set Generation for Automatic Acquisition of Technical Terminology in Patents. The 25th International Conference on Computational Linguistics (COLING 2014), Dublin, Ireland, 2014, P. 290-300.

23. D. Fedorenko, N. Astrakhantsev, D. Turdakov. Automatic recognition of domain-specific terms: an experimental evaluation. Proceedings of SYRCoDIS 2013, 2013, P. 15-23.

24. Д. Турдаков, Н. Астраханцев, Я. Недумов, А. Сысоев, И. Андрианов, В. Майоров, Д. Федоренко, А. Коршунов, С. Кузнецов. Texterra: инфраструктура для анализа текстов. Труды Института системного программирования РАН, том 26, 2014 г. Выпуск 1. Стр. 421-438. DOI: 10.15514/ISPRAS-2014-26(1)-18.

25. Д. Ю. Турдаков, С. Д. Кузнецов. Автоматическое разрешение лексической многозначности терминов на основе сетей документов. Программирование, Том. 36, Номер 1, стр. 11-18, 2010.

26. S. R. El-Beltagy, A. Rafea. KP-Miner: A keyphrase extraction system for English and Arabic documents. Information Systems, 34(1), P. 132-144, 2009.

27. M. Montes, H. J. Escalante. Novel representations and methods in text classification. 7th Russian Summer School in Information Retrieval. Kazan, Russia, 2013.

28. M. Montes-y-Gómez, P. Rosso. Using PU-Learning to Detect Deceptive Opinion Spam. WASSA 2013, p. 38, 2013.

29. B. Liu, W. S. Lee, P. S. Yu, X. Li. Partially supervised classification of text documents. ICML, 2002, vol. 2, P. 387-394.

30. S. Sellamanickam, P. Garg, S. K. Selvaraj. A pairwise ranking based approach to learning with positive and unlabeled examples. Proceedings of the 20th ACM international conference on Information and knowledge management, 2011, P. 663-672.

31. J.-D. Kim, T. Ohta, Y. Tateisi, J. Tsujii. GENIA corpus--a semantically annotated corpus for bio-textmining. Bioinformatics, vol. 19, no. Suppl 1, P. 180-182, 2003.

32. M. Krapivin, A. Autaeu, M. Marchese. Large dataset for keyphrases extraction. 2009.

33. O. Medelyan, I. Witten. Domain-independent automatic keyphrase indexing with small training sets. Journal of the American Society for Information Science and Technology, 59.7, 2008, P. 1026-1040.

34. S. Faralli, R. Navigli. Growing Multi-Domain Glossaries from a Few Seeds using Probabilistic Topic Models. EMNLP, 2013, P. 170-181.

35. N. Astrakhantsev, D. Fedorenko, D. Turdakov. Automatic Enrichment of Informal Ontology by Analyzing a Domain-Specific Text Collection. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue”, Issue 13, 2014, P. 29-42.

36. M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten. The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1, 2009.

37. N.A. Astrakhantsev, D.Yu. Turdakov. Automatic construction and enrichment of informal ontologies: A survey, 2013, published in Programmirovanie, 2013, Vol. 39, No. 1.

38. Y. Lingpeng, J. Donghong, Z. Guodong, N. Yu. Improving retrieval effectiveness by using key terms in top retrieved documents. Advances in Information Retrieval, Springer, 2005, P. 169-184.

39. R. Yangarber, R. Grishman, P. Tapanainen, and S. Huttunen. Automatic acquisition of domain knowledge for information extraction. Proceedings of the 18th conference on Computational linguistics-Volume 2, 2000, P. 940-946.

40. D. D. Golomazov. Metody i sredstva upravleniya nauchnoj informatsiej s ispol'zovaniem ontologij [Methods and tools for management of scientific information by using ontologies]. Ph.D. Thesis. Lomonosov MSU, 2012, 154 p.

41. The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat Genet, 25(1), 2007.

42. G. A. Miller. WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11. P. 39-41, 1995.

43. А.А. Алексеев, Б.В. Добров, Н.В. Лукашевич. Лингвистическая онтология тезаурус РуТез. Труды конференции Open Semantic Technologies for Intelligent Systems - OSTIS, P. 153-158, 2013.

44. D. Milne, O. Medelyan, I. H. Witten. Mining domain-specific thesauri from wikipedia: A case study. Proceedings of the 2006 IEEE/WIC/ACM international conference on web intelligence, 2006, P. 442-448.

45. C.D. Manning and H. Schutze. Foundations of statistical natural language processing. MIT press, Cambridge, MA, USA. 1999. 680 p.

46. Y. Park, R.J. Byrd, and B.K. Boguraev. Automatic glossary extraction: beyond terminology identification. In Proceedings of the 19th international conference on Computational linguistics-Volume 1, P. 1-7. Association for Computational Linguistics, 2002.

47. K.T. Frantzi and S. Ananiadou. Extracting nested collocations. Proceedings of the 16th conference on Computational linguistics-Volume 1, P. 41-46. Association for Computational Linguistics, 1996.

48. R. Navigli and P. Velardi. Semantic interpretation of terminological strings. In Proc. 6th Intl Conf. Terminology and Knowledge Eng, 2002, P. 95-100.

49. S. Li, J. Li, T. Song, W. Li, B. Chang. A novel topic model for automatic term extraction. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2013, P. 885-888.

50. K. Frantzi, S. Ananiadou, H. Mima. Automatic recognition of multi-word terms: the c-value/nc-value method. International Journal on Digital Libraries, vol. 3, no. 2, P. 115-130, 2000.

51. G. Bordea, P. Buitelaar, T. Polajnar. Domain-independent term extraction through domain modeling. 10th International Conference on Terminology and Artificial Intelligence (TIA 2013), Paris, France, 2013.

52. K. Ahmad, L. Gillam, L. Tostevin, et al. University of surrey participation in trec8: Weirdness indexing for logical document extrapolation and retrieval (wilder). In The Eighth Text REtrieval Conference (TREC-8), 1999.

53. F. Sclano and P. Velardi. Termextractor: a web application to learn the shared terminology of emergent web communities. Enterprise Interoperability II, 2007, P. 287-290.

54. A. Penas, F. Verdejo, J. Gonzalo, et al. Corpus-based terminology extraction applied to information access. In Proceedings of Corpus Linguistics, volume 2001. Citeseer, 2001.

55. Z. Zhang, C. Brewster, F. Ciravegna. A comparative evaluation of term recognition algorithms. In Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC08), Marrakech, Morocco, 2008.

56. A. Patry and P. Langlais. Corpus-based terminology extraction. In Terminology and Content Development-Proceedings of 7th International Conference On Terminology and Knowledge Engineering, Litera, Copenhagen, 2005.

57. J. Foo, Term extraction using machine learning. Linkoping University, LINKOPING, 2009.

58. A. Judea, H. Schütze, S. Brügmann. Unsupervised Training Set Generation for Automatic Acquisition of Technical Terminology in Patents. The 25th International Conference on Computational Linguistics (COLING 2014), Dublin, Ireland, 2014, P. 290-300.

59. D. Fedorenko, N. Astrakhantsev, D. Turdakov. Automatic recognition of domain-specific terms: an experimental evaluation. Proceedings of SYRCoDIS 2013, 2013, P. 15-23.

60. D. Turdakov, N. Аstrakhantsev, YA. Nedumov, А. Sysoev, I. Аndrianov, V. Majorov, D. Fedorenko, А. Korshunov, S. Kuznetsov. Texterra: infrastruktura dlya analiza tekstov [Texterra: A Framework for Text Analysis]. Trudy ISP RAN [Proceedings of ISP RAS], 26(1), 2014. P. 421-438. DOI: 10.15514/ISPRAS-2014-26(1)-18.

61. D. Turdakov, S. Kuznetsov. Automatic word sense disambiguation based on document networks. Programming and Computer Software, Volume 36, Number 1, 11-18, 2010.

62. S. R. El-Beltagy, A. Rafea. KP-Miner: A keyphrase extraction system for English and Arabic documents. Information Systems, 34(1), P. 132-144, 2009.

63. M. Montes, H. J. Escalante. Novel representations and methods in text classification. 7th Russian Summer School in Information Retrieval. Kazan, Russia, 2013.

64. M. Montes-y-Gómez, P. Rosso. Using PU-Learning to Detect Deceptive Opinion Spam. WASSA 2013, p. 38, 2013.

65. B. Liu, W. S. Lee, P. S. Yu, X. Li. Partially supervised classification of text documents. ICML, 2002, vol. 2, P. 387-394.

66. S. Sellamanickam, P. Garg, S. K. Selvaraj. A pairwise ranking based approach to learning with positive and unlabeled examples. Proceedings of the 20th ACM international conference on Information and knowledge management, 2011, P. 663-672.

67. J.-D. Kim, T. Ohta, Y. Tateisi, J. Tsujii. GENIA corpus--a semantically annotated corpus for bio-textmining. Bioinformatics, vol. 19, no. Suppl 1, P. 180-182, 2003.

68. M. Krapivin, A. Autaeu, M. Marchese. Large dataset for keyphrases extraction. 2009.

69. O. Medelyan, I. Witten. Domain-independent automatic keyphrase indexing with small training sets. Journal of the American Society for Information Science and Technology, 59.7, 2008, P. 1026-1040.

70. S. Faralli, R. Navigli. Growing Multi-Domain Glossaries from a Few Seeds using Probabilistic Topic Models. EMNLP, 2013, P. 170-181.

71. N. Astrakhantsev, D. Fedorenko, D. Turdakov. Automatic Enrichment of Informal Ontology by Analyzing a Domain-Specific Text Collection. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference “Dialogue”, Issue 13, 2014, P. 29-42.

72. M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten. The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1, 2009.


Рецензия

Для цитирования:


Астраханце Н.А. Автоматическое извлечение терминов из коллекции текстов предметной области с помощью Википедии. Труды Института системного программирования РАН. 2014;26(4):7-20. https://doi.org/10.15514/ISPRAS-2014-26(4)-1

For citation:


Astrakhantsev N. Automatic term acquisition from domain-specific text collection by using Wikipedia. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2014;26(4):7-20. (In Russ.) https://doi.org/10.15514/ISPRAS-2014-26(4)-1



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)