• 제목/요약/키워드: knowledge extraction

검색결과 385건 처리시간 0.034초

PDF문서를 EPUB3.0 포맷으로 변환을 위한 효과적 색 추출 및 상호작용 효과삽입기법 (An effective color extraction and interactive insertion technique for converting PDF documents to EPUB3.0 format)

  • 이남희;김강석;김재훈;변계섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.968-970
    • /
    • 2015
  • 기존 책 문서인 PDP 문서를 전자책에서도 억세스 할 수 있도록 전자책의 표준 형태로 변환하는 과정이 필요하다. PDP 문서를 전자책의 대표적인 표준 형태인 EPUB3.0으로 변환할 때, 인쇄 색상 표현방법인 CMYK를 디지털 색상 RGB 형태로 변환하는데 형태의 차이로 인하여 색감이 제대로 변환되지 못하는 문제점이 있다. 본 연구에서는 변환 시 색감을 잃지 않도록 ICC 프로파일을 이용한 변환 연구를 수행하였다. 또한 전자책 독자들을 위한 상호 작용적인 시각적인 효과를 제공하기 위하여, 많은 부분의 텍스트 중 특정 부분을 인식하여 효과 코드를 넣는 알고리즘을 제안하였다.

그래프마이닝을 활용한 빈발 패턴 탐색에 관한 연구 (A Methodology for Searching Frequent Pattern Using Graph-Mining Technique)

  • 홍준석
    • Journal of Information Technology Applications and Management
    • /
    • 제26권1호
    • /
    • pp.65-75
    • /
    • 2019
  • As the use of semantic web based on XML increases in the field of data management, a lot of studies to extract useful information from the data stored in ontology have been tried based on association rule mining. Ontology data is advantageous in that data can be freely expressed because it has a flexible and scalable structure unlike a conventional database having a predefined structure. On the contrary, it is difficult to find frequent patterns in a uniformized analysis method. The goal of this study is to provide a basis for extracting useful knowledge from ontology by searching for frequently occurring subgraph patterns by applying transaction-based graph mining techniques to ontology schema graph data and instance graph data constituting ontology. In order to overcome the structural limitations of the existing ontology mining, the frequent pattern search methodology in this study uses the methodology used in graph mining to apply the frequent pattern in the graph data structure to the ontology by applying iterative node chunking method. Our suggested methodology will play an important role in knowledge extraction.

가전제품의 설계지원을 위한 안전규격 지식베이스의 구축 (Construction of a knowledge-base for safety standards to support the design of household electrical appliances)

  • 이효섭;한순흥
    • 한국정밀공학회지
    • /
    • 제11권4호
    • /
    • pp.106-113
    • /
    • 1994
  • Household electrical appliances should be designed to satisfy safety standards. An expert system is implemented to support the design process. The general-purpose expert system shell. ART-IM which is running under MS-DOS environment, is used to construct the knowledge-base. A set of rules has been extracted from the EN 60 335-1 that is British standard specification for the safety of household and similar electrical appliances. The main focus of this paper is on codes that have systematic and mormative structures. The internal structure of the safety standard is analysed to improve the process of rule extraction.

  • PDF

학습용 시각 정보 인식 시스템의 설계 및 구현 (Design and Implementation of Visual Information Extraction System for Education)

  • 신현경
    • 정보교육학회논문지
    • /
    • 제16권4호
    • /
    • pp.483-488
    • /
    • 2012
  • 모바일 기반의 스마트 기기의 보급이 확대됨에 따라 교육 현장에서 이를 활용하는 사례가 증가하고 있는 추세이며, 가까운 장내에는 매우 중요한 교육용 기자재로서의 위치를 차지할 것으로 예측된다. 이러한 추세에 맞춰 교육과학기술부는 스마트 교육에 대한 중장기 추진 계획을 발표하였고 현재 추진을 준비 중에 있으며, 다양한 산업계 학계 연구 기관에서 관련 연구 결과물과 시제품들을 활발히 발표하고 있는 현실이다. 본 논문에서는 모바일 스마트 기기에 장착된 비디오카메라를 이용하여 촬영된 영상 내부에 포함된 문자를 인식하는 모듈을 구현하고 이를 응용하여, 교육환경에서 현실적으로 적용 가능한 학습용 시각 정보 인식 시스템에 관련한 설계 및 구현 방안을 제안하였다. 본 논문에서 제안한 학습용 시각 정보 인식 시스템은 비디오 영상취득, 영상 처리, 정보 추출, 지식 표현 등 4개의 모듈로 구성되었으며, 실제적인 예제를 통해 각 모듈을 설명 하였다.

  • PDF

기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안 (Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents)

  • 한희정;김태영;두효철;오효정
    • 정보관리학회지
    • /
    • 제34권4호
    • /
    • pp.81-99
    • /
    • 2017
  • 기술문서는 지식정보사회에서 생성되는 중요 연구 성과물로, 이를 제대로 활용하기 위해서는 정보 요약 및 정보추출과 같은 개선된 정보 처리 방법을 토대로 기술문서 활용의 편의성을 높여줄 필요가 있다. 이에 본 연구는 기술문서의 핵심 정보를 추출하기 위한 방안으로, 기술문서의 구조와 정의문 패턴을 기반으로 전문용어 및 정의문을 자동 추출하고, 이를 기반으로 전문용어사전을 구축할 수 있는 시스템을 제안하였다. 나아가 전문용어사전을 지식메모리로서 보다 다양하게 활용할 수 있도록 전문용어사전에 기반한 개인화서비스 제공방안을 제안하였다. 이처럼 전문용어 및 정의문 자동추출을 기반으로 전문용어사전을 구축하게 되면 새롭게 등장하는 전문용어를 빠르게 수용할 수 있어 이용자들이 최신정보를 보다 손쉽게 찾을 수 있다. 더불어 개인화된 전문용어사전을 이용자에게 제공한다면 전문용어사전의 가치와 활용성, 검색의 효율성을 극대화할 수 있다.

Analysis of Some Online Questions with High Frequency about Dental Treatment in Korea

  • Kang, A-Reum;Go, Ye-Eun;Kim, Ka-Eun;Kim, Min-Joo;Kim, Seon-Jeong;Hwang, SooJeong
    • 치위생과학회지
    • /
    • 제19권3호
    • /
    • pp.190-197
    • /
    • 2019
  • Background: The Internet has advantages in terms of accessibility and amount of information, and the search for health information over the Internet is increasing exponentially. The purpose of this study is to analyze the information generated about some dental treatment on the internet by year. Methods: Naver Knowledge (JisikIn in Korean) which is an interactive search service was selected as the first search site in Korea. Scaling, wisdom tooth extraction, and endodontic treatment that can be paid by Korean health insurance were selected. Finally, 4,729 questions about scaling, 23,963 wisdom teeth extraction questions and 17,733 endodontic treatment questions were extracted. The question contents, the information about the questioner and the answerer, and an error of answers were investigated. Frequency analysis was used and chi-square test was used if necessary. Results: The most frequently asked questions were discomfort and dissatisfaction after the treatment. The need for treatment was the second in questions of the wisdom tooth extraction and endodontic treatment, but the health insurance benefit was the second in dental scaling. Most of the questioners didn't disclose personal information. The public answered the most in 2013~2014, but the highest percentage of the respondents was experts in 2017. Responses were mostly personal experience, but showed a tendency to decrease with years, and professional knowledge showed an increasing tendency. The error of the answer has also gradually decreased. Conclusion: Questions about dental care over the Internet are increasing exponentially, experts are responding increasingly, and errors in answers are decreasing. Nevertheless, it is necessary to pay attention to the related expert group to prevent misinformation.

데이터베이스 시스템에서 디지털 포렌식 조사를 위한 체계적인 데이터 추출 기법 연구 (Research of organized data extraction method for digital investigation in relational database system)

  • 이동찬;이상진
    • 정보보호학회논문지
    • /
    • 제22권3호
    • /
    • pp.565-573
    • /
    • 2012
  • 기업의 탈법, 비리 등 부정행위를 조사할 경우 인사, 회계, 물류, 생산 등의 업무데이터(Business Data)의 확보가 필요하다. 다수의 기업들은 분산된 업무 데이터를 데이터베이스(Database)화하여 통합적으로 관리하고 있기 때문에 디지털 포렌식 조사를 위하여 데이터베이스에 대한 체계적인 업무데이터 추출기법 연구가 중요하다. 일반적인 정보체계 환경에서 데이터베이스는 상위 어플리케이션 및 대용량 파일 서버와 통합된 정보체계 내의 부분적 형태로 존재한다. 또한 사용자가 입력한 원시 업무 데이터는 정규화 과정을 거친 테이블 설계에 의해 하나 이상의 테이블에 분산되어 저장된다. 기존 데이터베이스 구조 분석에 관한 연구들은 데이터베이스의 최적화와 시각화를 위하여 테이블 간 연관관계 분석이 가장 중요한 연구대상이었다. 그러나 원시 업무데이터를 획득해야 하는 디지털 포렌식 관점의 연구는 테이블 간 연관관계 시각화보다 데이터의 해석이 더 중요한 연구대상이다. 본 논문에서는 데이터베이스 내부에서 미리 정의된 테이블 간 연관관계 분석기술뿐만 아니라 도메인 전문 지식(domain knowledge)을 활용한 체계화된 분석절차를 제시하여 데이터베이스에 저장된 원시 업무 데이터 구조를 분석하고 사건관련 데이터를 추출할 수 있는 분석방안을 제안한다.

Airbnb 숙소 유형에 따른 호스트의 자기소개 텍스트가 공유성과에 미치는 영향 (Impact of Self-Presentation Text of Airbnb Hosts on Listing Performance by Facility Type)

  • 심지환;김소영;정여진
    • 지식경영연구
    • /
    • 제21권4호
    • /
    • pp.157-173
    • /
    • 2020
  • 최근 빠르게 성장하고 있는 숙박 공유경제 시장에서 품질에 대한 불확실성은 사용자의 만족도에 영향을 미치는 위험요소지만, 이는 시설 제공자가 공개하는 정보를 통해 완화될 수 있다. 그 중 시설 제공자의 본인에 대한 자기소개는 사용자와의 정서적 교류를 통해 심리적 거리를 제거함으로써 공유 성과에 긍정적 영향을 미친다. 본 연구는 대표적인 숙박공유경제 플랫폼인 Airbnb에서 호스트의 자기소개가 포함하는 정보의 종류에 따라 공유성과에 미치는 영향을 분석하고, Airbnb의 숙소 유형에 따라 차이를 분석하였다. 이를 위해 호스트가 공개하는 자기소개 텍스트를 문장별로 분리하고 비지도 학습기반의 딥러닝 방법인 Attention-Based Aspect Extraction 방법을 활용하여 각 문장이 포함하는 의미를 추출하였다. 추출된 의미를 토대로 자기소개 텍스트가 포함하는 의미가 공유성과에 미치는 영향과 숙소 유형에 따른 교호작용 효과를 분석하였다. 연구결과, 숙소 유형별로 호스트의 특정 성향이 공유성과에 긍정적인 영향을 미치는 것을 확인하였고, 이를 통해 숙소 유형에 따라 공유성과를 극대화하기 위한 마케팅 전략에 대한 실증적인 함의를 제공한다.

환경 요인에 독립적인 관심 영역 추출을 위한 프레임워크의 개발 (Development of A Framework for Robust Extraction of Regions Of Interest)

  • 김성훈;이광의;허경용
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.49-57
    • /
    • 2011
  • 영상으로부터 관심 영역을 추출하는 작업은 비젼을 이용한 응용 분야에서 첫 번째 단계로 이후 처리 단계에 영향을 미치는 중요한 작업이다. 하지만 관심 영역추출은 조명이나 카메라 등의 주변 환경에 민감하여 일반적으로 문제에 관련된 지식이나 후처리를 도입하여 추출된 영역을 보정하고 있다. 이 논문에서는 환경에 민감하지 않으며 이후 처리 과정에 독립적인 관심 영역 추출을 위한 프레임워크를 제안한다. 제안하는 프레임워크는 차영상과 색상 분포를 이용하여 관심 영역을 추출하며 색상 분포를 학습함으로써 환경의 변화에 적응할 수 있다. 또한 프레임워크의 각 구성 요소들이 독립적으로 동작하는 유연한 구조를 가지므로 확장성이 뛰어나다. 제안하는 프레임워크의 유용성은 동영상에서 손 영역 추출을 통해 확인할 수 있다.

구조화된 웹 문서에 대한 자동 정보추출 (Automatic Information Extraction for Structured Web Documents)

  • 윤보현
    • 인터넷정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.129-145
    • /
    • 2005
  • 본 논문에서는 구조화된 웹문서에서 자동으로 정보를 추출하고 추출된 정보를 통합하는 정보추출 시스템을 제안한다. 제안한 시스템은 레이블(label)이 없는 엔티티를 인식하기 위해 확률 기반 엔티티 인식 방법을 이용하며, 추출된 데이터를 이용하여 기존의 도메인 지식을 반자동으로 확장하는 기능을 제공한다. 게다가 기본 페이지에 링크된 하위 링크의 정보를 추출하는 기능을 제공하며, 도메인에 대한 이종의 정보 소스로부터 얻어진 유사 추출 결과를 통합하는 기능을 제공한다. 실험 결과, 도메인 지식만을 이용하여 웹 정보추출 시스템을 평가하였을 경우의 성능에 비해 하위링크의 정보를 추출하거나 확률 기반으로 레이블을 추론하여 추출 시스템을 평가한 경우의 성능이 상당히 향상됨을 보인다. 아울러 본 논문에서 제안하는 웹 정보추출 시스템은 도메인별로 시스템을 융통성 있게 적용시킬 수 있기 때문에 보다 다양한 정보들을 추출할 수 있다. 자동 도메인 지식의 확장이나 확률적 엔티티 인식 방법은 도메인 지식을 이용하는 프로그램이 추출할 수 있는 정보의 질을 증대시키기 때문에, 사용자의 만족도를 극대화시킬 수 있다는 장점이 있다. 따라서 본 시스템은 인터넷상의 영화 사이트나 공연 사이트 혹은 음식점 사이트에 대해서 정보를 추출해서 사용자의 지적 호기심을 충족시켜줄 수 있을 뿐만 아니라, 다양한 비교 시스템을 구축할 수 있기 때문에 전자 상거래의 활성화에도 기여한다.

  • PDF