• 제목/요약/키워드: Document Analysis

검색결과 1,180건 처리시간 0.026초

가중치 기반 PLSA를 이용한 문서 평가 분석 (Reputation Analysis of Document Using Probabilistic Latent Semantic Analysis Based on Weighting Distinctions)

  • 조시원;이동욱
    • 전기학회논문지
    • /
    • 제58권3호
    • /
    • pp.632-638
    • /
    • 2009
  • Probabilistic Latent Semantic Analysis has many applications in information retrieval and filtering, natural language processing, machine learning from text, and in related areas. In this paper, we propose an algorithm using weighted Probabilistic Latent Semantic Analysis Model to find the contextual phrases and opinions from documents. The traditional keyword search is unable to find the semantic relations of phrases, Overcoming these obstacles requires the development of techniques for automatically classifying semantic relations of phrases. Through experiments, we show that the proposed algorithm works well to discover semantic relations of phrases and presents the semantic relations of phrases to the vector-space model. The proposed algorithm is able to perform a variety of analyses, including such as document classification, online reputation, and collaborative recommendation.

The Effect of the Sentence Location on Arabic Sentiment Analysis

  • Alotaibi, Saud S.
    • International Journal of Computer Science & Network Security
    • /
    • 제22권5호
    • /
    • pp.317-319
    • /
    • 2022
  • Rich morphology language such as Arabic needs more investigation and method to improve the sentiment analysis task. Using all document parts in the process of the sentiment analysis may add some unnecessary information to the classifier. Therefore, this paper shows the ongoing work to use sentence location as a feature with Arabic sentiment analysis. Our proposed method employs a supervised sentiment classification method by enriching the feature space model with some information from the document. The experiments and evaluations that were conducted in this work show that our proposed feature in the sentiment analysis for Arabic improves the performance of the classifier compared to the baseline model.

HL7 표준임상문서구조를 사용한 전자퇴원요약의 생성, 저장, 관리 시스템 (Generation, Storing and Management System for Electronic Discharge Summaries Using HL7 Clinical Document Architecture)

  • 김화선;김일곤;조훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.239-249
    • /
    • 2006
  • 병원정보시스템(Hospital Information System)은 다른 병원정보시스템과 서로 독립적으로 운영되므로 상호운영성(Interoperability)이 배제되어 왔다. 이 연구는 HL7 표준임상문서구조(Health Level 7, Clinical Document Architecture)와 XML 스키마의 분석과 설계를 통하여 새로운 패러다임의 병원정보시스템을 제안한다. 퇴원요약지로부터 필수 항목을 규정하여 템플릿을 정의한 후 임상문서구조를 설계하여 자동적으로 임상문서를 생성되도록 하였다. XML 스키마는 HL7에서 정의한 참조정보모델(Reference Information Model)을 기반으로 분석하였고, 전송 프로토콜은 HL7 V2.4를 사용하였다. 본 연구가 가지는 의의는 첫째, 국제 표준인 HL7 표준임상문서구조를 사용하기 위한 확장과 정제과정의 연구를 했으며, 둘째, 표준임상문서구조를 사용할 수 있는 웹 기반의 차세대 병원정보시스템의 구조를 제안하였다. 결론적으로, 한국의 퇴원요약 표준임상문서구조에 대한 본 연구로 말미암아 평생전자의무기록(Electronic Health Record)과 임상데이타저장소(Clinical Data Repository)를 포함하여 다양한 보건의료기관 간 의료정보 공유의 기반이 될 것이다.

한국어 자연어 요구문서에서 구문 구조 기반의 조응어 처리 시스템 (Anaphora Resolution System for Natural Language Requirements Document in Korean based on Syntactic Structure)

  • 박기선;안동언;이용석
    • 정보처리학회논문지B
    • /
    • 제17B권3호
    • /
    • pp.255-262
    • /
    • 2010
  • 시스템 개발에 있어서 요구문서(requirements document)를 생성하고 정형 명세를 작성하는 것은 요구 분석 전문가와 명세 전문가에 의해 수행되고 있다. 만약 요구문서 생성과 정형 명세 작성 과정을 자동화 한다면 시스템 개발 비용 및 기간을 단축할 수 있고, 또한 전문가 사이의 잘못된 이해로 인한 오류를 줄일 수 있다. 대명사는 인칭대명사와 지시대명사로 분류될 수 있다. 일반적으로 요구문서의 특성상 인칭대명사는 사용되지 않기 때문에 본 논문은 지시대명사의 지시어 결정에 초점을 두고 있다. 지시대명사를 포함하는 요구문서에서 자연어처리 기법을 통해 정형화된 요구사항을 자동으로 추출하기 위해서는 대명사의 지시어 결정이 매우 중요하다. 본 연구의 최종 목표는 자연어 처리 기법을 통하여 자연어 요구문서로부터 시스템 개발에 필요한 정형 명세를 자동으로 생성하는데 있다. 이를 위해 본 논문은 선행연구를 기반으로 한국어로 기술된 자연어 요구문서에서 대명사에 대한 지시어를 결정하는 조응어 해소(anaphora resolution) 시스템을 제안한다. 본 시스템의 개발을 위해 조응어 해소를 위한 경험 규칙을 정의하고, 이를 통해 10개의 요구문서에 대해 실험한 결과 평균 재현율 92.45%, 정확률 69.68%의 성능을 보였다.

전역 토픽의 지역 매핑을 통한 효율적 토픽 모델링 방안 (Efficient Topic Modeling by Mapping Global and Local Topics)

  • 최호창;김남규
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.69-94
    • /
    • 2017
  • 최근 빅데이터 분석 수요의 지속적 증가와 함께 관련 기법 및 도구의 비약적 발전이 이루어지고 있으며, 이에 따라 빅데이터 분석은 소수 전문가에 의한 독점이 아닌 개별 사용자의 자가 수행 형태로 변모하고 있다. 또한 전통적 방법으로는 분석이 어려웠던 비정형 데이터의 활용 방안에 대한 관심이 증가하고 있으며, 대표적으로 방대한 양의 텍스트에서 주제를 도출해내는 토픽 모델링(Topic Modeling)에 대한 연구가 활발히 진행되고 있다. 전통적인 토픽 모델링은 전체 문서에 걸친 주요 용어의 분포에 기반을 두고 수행되기 때문에, 각 문서의 토픽 식별에는 전체 문서에 대한 일괄 분석이 필요하다. 이로 인해 대용량 문서의 토픽 모델링에는 오랜 시간이 소요되며, 이 문제는 특히 분석 대상 문서가 복수의 시스템 또는 지역에 분산 저장되어 있는 경우 더욱 크게 작용한다. 따라서 이를 극복하기 위해 대량의 문서를 하위 군집으로 분할하고, 각 군집별 분석을 통해 토픽을 도출하는 방법을 생각할 수 있다. 하지만 이 경우 각 군집에서 도출한 지역 토픽은 전체 문서로부터 도출한 전역 토픽과 상이하게 나타나므로, 각 문서와 전역 토픽의 대응 관계를 식별할 수 없다. 따라서 본 연구에서는 전체 문서를 하위 군집으로 분할하고, 각 하위 군집에서 대표 문서를 추출하여 축소된 전역 문서 집합을 구성하고, 대표 문서를 매개로 하위 군집에서 도출한 지역 토픽으로부터 전역 토픽의 성분을 도출하는 방안을 제시한다. 또한 뉴스 기사 24,000건에 대한 실험을 통해 제안 방법론의 실무 적용 가능성을 평가하였으며, 이와 함께 제안 방법론에 따른 분할 정복(Divide and Conquer) 방식과 전체 문서에 대한 일괄 수행 방식의 토픽 분석 결과를 비교하였다.

구문의미 분석을 활용한 복합 문단구분 시스템에 대한 연구 (Research on the Hybrid Paragraph Detection System Using Syntactic-Semantic Analysis)

  • 강원석
    • 한국멀티미디어학회논문지
    • /
    • 제24권1호
    • /
    • pp.106-116
    • /
    • 2021
  • To increase the quality of the system in the subjective-type question grading and document classification, we need the paragraph detection. But it is not easy because it is accompanied by semantic analysis. Many researches on the paragraph detection solve the detection problem using the word based clustering method. However, the word based method can not use the order and dependency relation between words. This paper suggests the paragraph detection system using syntactic-semantic relation between words with the Korean syntactic-semantic analysis. This system is the hybrid system of word based, concept based, and syntactic-semantic tree based detection. The experiment result of the system shows it has the better result than the word based system. This system will be utilized in Korean subjective question grading and document classification.

Document Structure Understanding on Subjects Registration Table

  • Ito, Yuichi;Ohno, Masanaga;Tsuruoka, Shinji;Yoshikawa, Tomohiro;Tsuyoshi, Shinogi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.571-574
    • /
    • 2003
  • This research is aimed to automate the generating process of the database from paper based table forms like this work. The registration table has so complicate table structures, ana in this research we used the registration tables as an example of general table structure understanding. We propose a table structure understanding system for some table types, and it has some steps. The first step is that the document images on paper are read from the image scanner. The second step is that a document image segments into some tables. In the third step, the character strings is extracted using image processing technology and the property of the character strings is determined. And the structured database is generated automatically. The proposed system consists of two systems. "Master document generation system" is used for the table form definition, and it doesn′t include the handwritten characters. "Structure analysis system for complete d table" is used for the written form, and it analyzes the table form filled in the handwritten character. We implemented the system using MS Visual C++ on Windows, and it can get the correct extraction rate 98% among 51 registration tables written by the different students.

  • PDF

인터넷을 통하여 접속가능한 상업적 문헌전달서비스의 성능 평가 (Performance Evaluation of Commercial Document Delivery Suppliers Accessible through the Internet)

  • 장혜란
    • 정보관리학회지
    • /
    • 제17권1호
    • /
    • pp.89-101
    • /
    • 2000
  • 인터넷을 통하여 서비스되고 있는 대표적인 상업적 문헌전달 기관을 선정하여 성능을 비교 평가하였다. 서비스의 유형을 고찰한 후, 실제로 정보센터에 접수된 문헌요구를 표집하여 기록을 조사하고 각 기관에 신청함으로써 데이터를 수집하였다. 신청문헌의 특성을 파악하고 항공우편과 팩스송달 두 가지 전달방식으로 구분하여 공급률 소요시간 비용 등의 평가요소에 따라 문헌전달력을 분석하였다. 문헌의 주제는 과학기술 분야로 유형은 연속간행물 기사로 한정하였다. 각 서비스의 성능은 전달방식과 평가요소별로 다양하게 나타났다. 마지막으로 현행 서비스의 문제점과 개선방안을 제시하였다.

  • PDF

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

주성분 분석과 k 평균 알고리즘을 이용한 문서군집 방법 (Document Clustering Technique by K-means Algorithm and PCA)

  • 김우생;김수영
    • 한국정보통신학회논문지
    • /
    • 제18권3호
    • /
    • pp.625-630
    • /
    • 2014
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되기 때문에, 이들을 효과적으로 검색하고 처리하는 방법의 연구가 필요하다. 문서 군집은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 대용량의 문서들을 자동으로 분류하고 검색하고 처리하는데 효율과 정확성을 증대시킨다. 본 논문은 특징 벡터 공간 상의 벡터들로 표현되는 문서들을 K 평균 알고리즘으로 군집화할 때, 주성분 분석을 사용하여 초기 시드점들을 선정함으로써 군집의 효율을 높이는 방법을 제안한다. 실험 결과를 통하여 제안하는 기법이 기존의 K 평균 알고리즘보다 좋은 결과를 얻을 수 있음을 보였다.