• Title/Summary/Keyword: document analysis

검색결과 1,202건 처리시간 0.024초

Conceptual Extraction of Compound Korean Keywords

  • Lee, Samuel Sangkon
    • Journal of Information Processing Systems
    • /
    • 제16권2호
    • /
    • pp.447-459
    • /
    • 2020
  • After reading a document, people construct a concept about the information they consumed and merge multiple words to set up keywords that represent the material. With that in mind, this study suggests a smarter and more efficient keyword extraction method wherein scholarly journals are used as the basis for the establishment of production rules based on a concept information of words appearing in a document in a way in which author-provided keywords are functional although they do not appear in the body of the document. This study presents a new way to determine the importance of each keyword, excluding non-relevant keywords. To identify the validity of extracted keywords, titles and abstracts of journals about natural language and auditory language were collected for analysis. The comparison of author-provided keywords with the keyword results of the developed system showed that the developed system was highly useful, with an accuracy rate as good as up to 96%.

절차적 프로그램으로부터의 객체 추출 방법론 (A Method of Object Identification from Procedural Programs)

  • 진윤숙;마평수;신규상
    • 한국정보처리학회논문지
    • /
    • 제6권10호
    • /
    • pp.2693-2706
    • /
    • 1999
  • Reengineering to object-oriented system is needed to maintain the system and satisfy requirements of structure change. Target systems which should be reengineered to object-oriented system are difficult to change because these systems have no design document or their design document is inconsistent of source code. Using design document to identifying objects for these systems is improper. There are several researches which identify objects through procedural source code analysis. In this paper, we propose automatic object identification method based on clustering of VTFG(Variable-Type-Function Graph) which represents relations among variables, types, and functions. VTFG includes relations among variables, types, and functions that may be basis of objects, and weights of these relations. By clustering related variables, types, and functions using their weights, our method overcomes limit of existing researches which identify too big objects or objects excluding many functions. The method proposed in this paper minimizes user's interaction through automatic object identification and make it easy to reenginner procedural system to object-oriented system.

  • PDF

구조 기반 검색을 위한 색인 구조에 대한 분석 (Analysis of Indexing Schemes for Structure-Based Retrieval)

  • 김영자;김현주;배종민
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.601-616
    • /
    • 2004
  • 구조적 문서들에 대한 검색시스템은 구조 기반 검색 질의를 지원하여 다양한 수준의 검색 기능을 제공한다. 완전한 구조 기반 질의를 처리하기 위해서는 구조적 문서가 가지는 엘리먼트 간의 구조적 포함관계나 순서에 관한 정보를 유지되어야 한다. 본 논문에서는 엘리먼트와 엘리먼트 사이의 구조적 상관관계와 엘리먼트의 발생순서에 관련된 질의 등 여러 유형의 순수 구조 질의를 처리할 수 있는 네 가지 색인구조를 제시하고 그 성능을 평가한다. 제안된 색인 알고리즘은 전체 문서 인스턴스 트리 개념에 바탕을 두고 있다.

  • PDF

Information Technologies in Higher Education Institutions: Experience of Leading Countries of the World

  • Bachynska, Nadiia;Novalska, Tetiana;Kuchnarov, Valerii;Kasian, Vladyslav;Salata, Halyna;Larysa, Grinberg
    • International Journal of Computer Science & Network Security
    • /
    • 제21권4호
    • /
    • pp.47-51
    • /
    • 2021
  • The article analyzes and studies that pedagogical design of the educational process using information and communication technologies in educational institutions of higher education based on the development of a model and methodology personalization of training will improve the quality of the educational process at the university and solve the identified contradiction. A qualitative analysis of foreign countries in the possibility of using information and communication technologies in educational institutions of higher education is carried out.

효율적인 문서 구성을 위한 TF-IDF 알고리즘 기반 문서 제안 시스템의 설계 (Design of Document Suggestion System based on TF-IDF Algorithm for Efficient Organization of Documentation)

  • 김영훈;박승민;조대수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.527-528
    • /
    • 2022
  • 빠르게 변하는 환경에 맞춰 평생 교육이 일반화되고 개인에게 요구되는 학습량은 많아지고 있으며 높아진 학습량에 맞게 학습 시간 단축과 효율적인 학습을 위한 학습 방법을 선택하는 것이 중요해지고 있다. 본 논문에서는 학습 정리를 위해 작성한 문서를 분석하여 해당 문서와 관련된 문서를 제안하고 본 문서와 엮어 학습을 위한 문서 묶음을 만들 수 있는 시스템을 제안한다. 문서의 유사도, 중요도를 구할 수 있는 TF-IDF를 이용하여 문서를 분석해 키워드를 추출한 다음 그와 관련된 문서를 제안하고 문서 묶음을 만들어 조회할 수 있도록 한다. 이 시스템은 학습 정리 시 관련 문서를 함께 볼 수 있도록 하고, 필요하다면 묶음으로 만들어 효과적인 학습을 위한 도구로 이용할 수 있다.

  • PDF

R&D Perspective Social Issue Packaging using Text Analysis

  • Wong, William Xiu Shun;Kim, Namgyu
    • 한국IT서비스학회지
    • /
    • 제15권3호
    • /
    • pp.71-95
    • /
    • 2016
  • In recent years, text mining has been used to extract meaningful insights from the large volume of unstructured text data sets of various domains. As one of the most representative text mining applications, topic modeling has been widely used to extract main topics in the form of a set of keywords extracted from a large collection of documents. In general, topic modeling is performed according to the weighted frequency of words in a document corpus. However, general topic modeling cannot discover the relation between documents if the documents share only a few terms, although the documents are in fact strongly related from a particular perspective. For instance, a document about "sexual offense" and another document about "silver industry for aged persons" might not be classified into the same topic because they may not share many key terms. However, these two documents can be strongly related from the R&D perspective because some technologies, such as "RF Tag," "CCTV," and "Heart Rate Sensor," are core components of both "sexual offense" and "silver industry." Thus, in this study, we attempted to discover the differences between the results of general topic modeling and R&D perspective topic modeling. Furthermore, we package social issues from the R&D perspective and present a prototype system, which provides a package of news articles for each R&D issue. Finally, we analyze the quality of R&D perspective topic modeling and provide the results of inter- and intra-topic analysis.

계층적 결합형 문서 클러스터링 시스템과 복합명사 색인방법과의 연관관계 연구 (The Experimental Study on the Relationship between Hierarchical Agglomerative Clustering and Compound Nouns Indexing)

  • 조현양;최성필
    • 한국문헌정보학회지
    • /
    • 제38권4호
    • /
    • pp.179-192
    • /
    • 2004
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결합 문서 클러스터링 시스템의 결과를 분석한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglomerative Clustering) 엔진에 대해서 설명하고 한글 색인 엔진에서 제공되는 3가지 복합명사 분석 모드에 대해서 기술한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 예시한다. 실험에서는 3가지 복합명사 색인 방법을 기준으로 문서 클러스터링을 수행하고, 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

문헌에 의해 분석된 한국 전통 온돌(구들)의 역사와 특성 (The History and Characteristics of Korean Traditional Ondol(Gudle) studied through Document Analysis)

  • 김준봉;정상규
    • KIEAE Journal
    • /
    • 제8권6호
    • /
    • pp.3-10
    • /
    • 2008
  • Since fire was founded in the world, human races have invented various heating methods. Ondol is traditional heating method in Korea. It is very the important work to trace the history and characteristics of Ondol which originated and was developed in the Korean peninsula. Especially, the study on Ondol will contribute to improving the present heating methods and predicting future ones. In this paper, we shall study through the analysis of documents such as oriental documents, the document of Choseon dynasty, European documents and American documents. In order to discover the origins of Ondol as one of the excellent heating method all over the world, This study aims at identifying the history and characteristics of Ondol in the Korean peninsula, through document analysis. Results of this study are as follows. 1) The first document about Ondol is Sookyongjoo(水經注), Chinese ancient geography book. Contents recorded in the book include the description related to Ondol at Kwankyesa temple which was located at the border land between Gogooryo(ancient Korea) and the northeast of China. 2) Ondol was popular heating method in Gogooryo(ancient Korea) and it was used in not only Gogooryo but also Silla Kingdom and Beakje Kingdom. Thereafter, it was also used widely in Goryo dynasty and Choseon dynasty. Thereby we know that Ondol has been used as a heating method for a long time in the Korean peninsula. 3) Ondol was covered with a floor paper since the beginning of Choseon dynasty. the paper made room clean and impacted on Korean life style. Because the floor was clean and warm, Koreans thus took off shoes and sat on the floor. 4) Ondol was spreaded to Jeju island in Korea before 16th century but wasn't used widely there. The reason was that Ondol was rare high class heating system and the weather was warm in Jeju island. 5) The overspreading of Ondol caused that poor people built roughly Ondol in the last of Choseon dynasty. So, the quality of Ondol gradually became lower and lower. 6) A westerner was impressed by the novelty of Ondol and Frank Lloyd Wright had played an important role to update and spread Ondol widely all over the world. Hailing Ondol as the ideal heating system, Frank Lloyd Wright began incorporating it in his buildings back in the U.S. and even invented a modified ondol system, using hot water running through pipes instead of the hot exhaust through flues.

공간 통계 데이터의 시각화 기술 및 시스템 개발 (Visualization Technique of Spatial Statistical Data and System Implementation)

  • 백룡;홍광수;양승훈;김병규
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권12호
    • /
    • pp.849-854
    • /
    • 2013
  • 본 논문에서는 공간 데이터를 기반으로 한 도시의 다양한 통계 정보를 제안된 알고리즘을 통해서 시각화하고 시각화된 데이터를 지도와 사상(Mapping)하여 분석할 수 있게 할 뿐만 아니라 공간적 정보를 기반으로 의사 결정을 하는 경우 활용할 수 있는 문서를 사용자의 간단한 조작으로 프로그래밍 방식에 의해 작성해주는 시스템을 제안한다. 제안된 기법은 2차원 지도 데이터에서 특징데이터 값에 대해 색을 이용하여 표현하는 기법인 히트 맵 분석 (Heat Map Analysis)기법과 공간적 근접성을 정의할 때 이용되는 버퍼링 분석 (Buffering Analysis) 기법을 활용한다. 본 시스템을 통해서 공간적 정보를 시각화를 한다면 지역의 분포된 다양한 공간적 정보를 쉽게 파악할 수 있을 것이다. 또한 분석된 정보를 기반으로 제공되고 있는 문서 자동생성기능을 활용한다면 표현된 공간적 정보의 문서화에 필요한 많은 시간과 비용을 절감할 수 있을 것으로 기대된다.

LSA를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서 요약 (Document Summarization Using Mutual Recommendation with LSA and Sense Analysis)

  • 이동욱;백서현;박민지;박진희;정혜욱;이지형
    • 한국지능시스템학회논문지
    • /
    • 제22권5호
    • /
    • pp.656-662
    • /
    • 2012
  • 본 논문에서는 그래프기반 문장랭킹 방식인 문장 상호 추천과 문장의 주관, 객관 성향을 이용하는 문장 성향 분석을 혼합한 새로운 요약문 추출 방법에 대해서 기술한다. 문장 상호 추천에서는 문장을 단어벡터로 변환한 후에 LSA를 이용하여 문장과 문장 사이의 유사도 점수를 계산하였다. 이렇게 얻어진 유사도와 각 단어의 희귀도(Rarity Score)를 기반으로 문장과 문장 사이의 연결 강도를 정의하여, 그래프 기반 문장 랭킹 방식을 적용 하였다. 한편, 문장성향 분석에서는 주관, 객관 성향을 결정하기 위해서 기존의 Golden Standard 단어 성향 분류를 기반으로 워드넷을 확장하여 데이터베이스를 구축하였다. 이를 통해 각 단어들의 성향을 판단하고 단어들의 평균 성향을 문장의 전체 성향에 반영하여, 주관적 성향을 띄는 문장들을 선택하였다. 최종적으로 문장 상호 추천 결과와 문장 성향 분석 결과를 혼합하여 주어진 문서로부터 요약문을 추출하였다. 요약문 추출 기능의 객관적인 성능 평가를 위하여 추출된 요약문 토대로 한 분류게임을 실시하였고, 그 결과를 MS-Word에 포함된 문서 요약 기능과 비교함으로써, 제안한 모델의 효과성을 확인하였다.