• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.021초

오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구 (A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권1호
    • /
    • pp.184-194
    • /
    • 1997
  • 최근 상용 오프라인 문자 인식시스템들이 계속 발표되고 있다. 본 눈문에서는 적 은 메모리와 빠른 시간내에 검색이 가능한 자기조직화 구조를 가진 단어 사전을 구축 하고 검색하는 알고리즘을 제시하며 오프라인 문자 인식 시스템을 이용하여 오인식 교정의 측면에서 문장부호, 영문자, 한자를 인식한 후에 나온 오인식된 문자들을 수 집하여 오인식 형태를 제분류하였다. 영문자에 대해서는 영문자의 오인식 형태와 오 인식의 예들을 조사하고 오인식이 자주 일어나는 글자에 대해 오인식 혼동 테이블을 작성하였으며 25,145개의 영어 단어가 입력된 자기조직화된 영어 단어 사전을 가지고 교정을 행하여 0.5%의 인식률 향상을 가져왔다. 한자에 대해서도 영문자와 마찬가지 로 오인식 행태를 조사하고 혼동 테이블을 작성하였으며 34,593개의 단어가 입력된 자기조직화된 한자 단어 사전을 이용하여 교정을 행하여 인식률을 6.1% 향상시켰다.

  • PDF

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

이미지 사전과 동사기반 문장 생성 규칙을 활용한 보완대체 의사소통 시스템 구현 (Implementation of Augmentative and Alternative Communication System Using Image Dictionary and Verbal based Sentence Generation Rule)

  • 류제;한광록
    • 정보처리학회논문지B
    • /
    • 제13B권5호
    • /
    • pp.569-578
    • /
    • 2006
  • 본 논문에서는 언어장애인이 쉽게 인식할 수 있는 이미지들을 이용한 보완대체 의사소통 시스템의 구현에 관하여 연구하였다. 특히 보완대체 의사소통 도구의 휴대성 및 이동성과 보다 유연한 형태의 의사소통 시스템 구현에 초점을 맞추었다. 이동성과 휴대성을 위하여 PDA와 같은 모바일 기기에서 운용될 수 있는 시스템을 구현하여 사용 장소의 제약에서 벗어나 여러 장소에서 일반인과 다름없는 의사소통을 할 수 있도록 하였으며, 용량이 큰 이미지 데이터의 저장 공간 한계를 극복하기 위하여 유선 또는 무선 인터넷 환경에서 클라이언트/서버 형태의 보완대체 의사소통 시스템을 설계하였다. 또한 사용자의 원활한 의사소통이 가능하도록 동사를 기준으로 하여 동사에 대응하는 명사들을 하위 범주화하여 이미지 사전을 구축하였다. 이를 위하여 문장을 구성하는데 가장 중요한 역할을 하는 품사인 동사에 초점을 맞추어 동사의 유형에 따라 생성되는 문장의 유형을 정규화 하였다.

한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램 (Named Entity Recognition and Dictionary Construction for Korean Title: Books, Movies, Music and TV Programs)

  • 박용민;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.285-292
    • /
    • 2014
  • 개체명 인식은 정보검색 시스템, 질의응답 시스템, 기계번역 시스템 등의 성능을 향상시키기 위하여 사용된다. 개체명 인식은 일반적으로 PLOs(인명, 지명, 기관명)을 대상으로 하며, 주로 미등록어와 고유명사로 이루어져 있기 때문에 고유명사나 미등록어는 중요한 개체명 후보로 쓰일 수 있다. 하지만 도서명, 영화명, 음악명, TV프로그램명과 같은 제목 개체명은 PLO와는 달리 단어부터 문장까지 매우 다양한 형태를 지니고 있어서 개체명 인식이 쉽지 않다. 본 논문에서는 뉴스 기사문을 이용하여 제목 개체명을 빠르게 인식하고 자동으로 사전을 구축하는 방법을 제안한다. 먼저 특수기호로 묶인 어절을 추출하고, 주변 문맥 단어 및 단어 거리를 이용하여 SVM으로 제목 후보들을 추출하였다. 이렇게 추출된 제목 후보들은 상호 정보량을 가중치로 SVM을 이용해 제목 유형을 분류하였다.

정보자원사전에 대한 서술논리 표현과 관리 (First Order Predicate Logic Representation and Management for Information Resource Dictionary)

  • 김창화
    • 정보기술과데이타베이스저널
    • /
    • 제5권1호
    • /
    • pp.13-37
    • /
    • 1998
  • 인터넷 등의 컴퓨터 통신 네트워크의 발달로 인하여 분산된 정보자원의 공유를 통한 자원에 대한 재사용성의 필요성이 대두되었다. IRD(Information Resource Dictionary)는 조직 내에서 관련된 모든 정보에 대한 데이터가 논리적으로 중앙화된 정보저장소(repository)이다. IRD 내의 데이터는 다른 데이터를 기술하므로 이른바 메타 데이터라고 하기도 한다. IRD의 사전(dictionary) 요소는 정보자원의 종류, 정보자원의 의미, 정보자원의 논리적 구조, 정보자원의 위치, 그리고 정보자원의 접근방법 등을 기술한다. FIPS ANSI의 IRDS는 이항 관계를 이용하여 무결성 제약조건을 표현하므로 제약조건 규칙의 표현과 일반적인 추론 규칙의 표현이 제한되어 있으며, 다양한 형태의 무결성 제약조건의 표현과 IRD와 관련된 여러 정보의 도출 또는 추론 및 관리에 관한 사항은 IRD 응용 고유의 문제로 간주하여 언급하고 있지 않다. 한편, FIPS IRDS는 사용자가 SQL 및 IRD에 대한 전문적 지식이 없이는 사용자 질의 작성이 어려운 점등에 대한 문제점을 안고 있다. 본 논문은 FIPS IRDS의 기본모델에서 정보자원 표현, 정보자원들간의 관계, 정보자원의 관리 정보 구분을 명확히 하기 위해 정보자원 모델을 정보자원 표현요소와 정보자원 관리요소의 두 부류로 나누어 구분하고, 각 부류에 대한 자격 질의(competency question)를 통하여 유추된 요소들을 FIPS ANSI IRDS 기본 모델의 스키마 기술 레벨과 스키마 레벨에 첨가함으로써 그 기본 모델을 확장한다. 그리고, FIPS ANSI IRDS가 제공하는 IRD 기술과 관리 기능을 그대로 포함하면서 앞에서 문제점으로 지적된 제약조건 표현과 추론규칙 표현을 위하여 확장된 기본 모델을 중심으로 각 레벨의 구성 요소들의 형식적 의미(formal semantics)와 레벨 내 혹은 레벨 구성요소들간의 관계성(relationship), 그리고 제약조건의 표현과 질의 추론 규칙들을 식별하여 FOPL(First Order Predicate Logic)로 표현한다. 또한, 본 논문은 FOPL로 표현된 predicate들과 규칙들을 구현하기 위하여 Prolog로 변환하기 위한 이론적 방법론을 제시하고 정보자원 관리를 위한 기본 함수들과 스키마 진화(schema evolution)를 위한 방법론을 제안한다.

  • PDF

Searchable Encrypted String for Query Support on Different Encrypted Data Types

  • Azizi, Shahrzad;Mohammadpur, Davud
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권10호
    • /
    • pp.4198-4213
    • /
    • 2020
  • Data encryption, particularly application-level data encryption, is a common solution to protect data confidentiality and deal with security threats. Application-level encryption is a process in which data is encrypted before being sent to the database. However, cryptography transforms data and makes the query difficult to execute. Various studies have been carried out to find ways in order to implement a searchable encrypted database. In the current paper, we provide a new encrypting method and querying on encrypted data (ZSDB) for different data types. It is worth mentioning that the proposed method is based on secret sharing. ZSDB provides data confidentiality by dividing sensitive data into two parts and using the additional server as Dictionary Server. In addition, it supports required operations on various types of data, especially LIKE operator functioning on string data type. ZSDB dedicates the largest volume of execution tasks on queries to the server. Therefore, the data owner only needs to encrypt and decrypt data.

스마트워치 SNS 리뷰 데이터와 오피니언 마이닝을 통한 감성 분석 처리에 대한 연구 (A Study on Smartwatch review data of SNS and sentiment analytical using opinion mining)

  • 신동현;최용락
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1047-1050
    • /
    • 2015
  • IoT(Internet of Things)에 대한 관심과 함께 웨어러블 디바이스 또한 차세대 융합 기술의 핵심으로 그 관심이 증가하고 있다. 특히, 초기 단계인 스마트워치 시장의 선점을 위하여 여러 기업들이 경쟁하고 있으며, 사용자들은 이러한 경쟁 속에서 각 기기에 대한 의견을 SNS를 통하여 공유하며 그에 대한 선호도를 표출하고 있다. 따라서 본 논문에서는 스마트워치에 관련된 속성과 감성단어들에 대한 감성사전을 먼저 구축한 뒤 이를 토대로 의견 데이터 모델을 통하여 수집된 SNS의 데이터를 속성별로 분류한다. 이후 수집된 데이터를 자연언어 처리 기법을 이용하여 전반적 극성 및 속성별 극성을 판단하고 이를 통하여 각 스마트워치 리뷰에 대한 분석을 수행하고자 한다. 그리고 수집된 자료 분석을 통하여 사용자들이 선호하는 스마트워치의 속성을 파악할 수 있도록 하고 이를 통해 각 기기별 발전방향을 판단하는데 기여하도록 한다.

  • PDF

중소규모 사업용 BIM을 위한 데이터 사전의 활용 (Application of Data Dictionary to BIM for Small and Medium Project)

  • 이환우;이경섭;김광양
    • 한국전산구조공학회논문집
    • /
    • 제26권6호
    • /
    • pp.431-438
    • /
    • 2013
  • 건설 산업의 전반적인 생산성 향상을 위하여 시설물의 전 생애주기에 걸쳐 정보의 시스템화가 요구되고 있다. 정보를 시스템화하는 방법의 하나로 3차원 정보모델을 기반으로 정보 관리하는 기술인 BIM(Building Information Modeling)이 활발하게 연구되고 있다. 하지만 BIM 연구의 초점은 대형 사업장에 맞추어져 있으며 중소규모 사업장을 위한 BIM 연구는 미비한 실정이다. 중소규모 사업장의 경우 대형 사업장보다 정보 손실이 더욱 심각하지만, 투자 자원의 부족으로 인해 BIM을 도입하기에는 힘든 실정이다. 따라서 이 논문에는 과도한 투자 없이 BIM의 효과를 얻을 수 있는 중소규모 사업장 대상 맞춤형 BIM 시스템 개발을 위한 연구를 수행하였다. 이를 Pseudo BIM(이하, 의사BIM)이라 정의하였다. 그리고 의사 BIM의 개념과 구축방법에 따라 PLIB Part 42, 건설정보분류체계 등을 활용하여 의사 BIM의 엔진 구조를 담당하는 데이터 사전 구축 방법을 제시하고 Pilot test를 실시하여 의사 BIM의 유효성을 검증하였다.

전자기록의 장기적 보존을 위한 보존메타데이터 요소 분석 (A Study on Preservation Metadata for Long Term Preservation of Electronic Records)

  • 이경남
    • 기록학연구
    • /
    • 제14호
    • /
    • pp.191-240
    • /
    • 2006
  • 전자기록의 장기적 보존을 위해서는 전자기록의 생성 당시부터 관리의 전 과정에 이르는 정보가 획득되어 기록과 함께 관리되어야 한다. 이러한 정보는 보존 메타데이터에 의해 지원되므로 전자기록이 기록의 속성을 유지하며 보존되기 위해서 보존 메타데이터의 도입은 중요하다. 보존 메타데이터는 디지털 보존 과정을 지원하는 정보로서 디지털 자원의 장기간 유지가능성, 재연가능성, 이해가능성, 진본성, 무결성을 유지하는 기능을 한다. 보존 메타데이터는 교환과 이용을 위해 국제적인 상호운용성을 지니도록 국제 표준 OAIS 참조모형을 준용하여 개발되어야 한다. 초기의 국제적인 보존 메타데이터 스키마들은 OAIS 참조모형을 준용하여 개발되었다. 그러나 VERS의 보존 메타데이터 스키마와 최근에 발표된 PREMIS 실무 그룹의 Data Dictionary는 기존의 틀과는 다른 진전된 형태로 개발되었다. 개념적인 것에서 보다 실무적인 것으로의 진전을 이루었다. 이 두 사례를 비교하여 전자기록의 장기적 보존을 위해 반드시 필요한 필수 요소를 중심으로 보존 메타데이터 요소를 제안하였다. 본고에서는 보존 메타데이터와 관련한 기존의 논의를 정리하고 전자기록의 장기적 보존을 위한 보존 메타데이터 요소를 제안함으로써 향후 보존 메타데이터 요소 개발에 방향을 제시하고자 하였다.

실시간 이슈 탐지를 위한 일반-급상승 단어사전 생성 및 매칭 기법 (A Generation and Matching Method of Normal-Transient Dictionary for Realtime Topic Detection)

  • 최봉준;이한주;용우석;이원석
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권5호
    • /
    • pp.7-18
    • /
    • 2017
  • 트위터는 사용자들에게 정보를 받거나 교환하는 채널로써의 역할이 활발히 이루어지고 있고 새로운 사건이 발생했을 때 빠르게 반응하기 때문에 지진이나 홍수, 자살 등의 새로운 사건을 탐지하는 센서역할로 활용할 수 있다. 그리고 사건을 탐지하기 위해서 우선적으로 관련된 트윗 추출이 필수적이다. 하지만 관련된 트윗을 찾기 위해 관련 키워드를 포함한 트윗을 추출하기 때문에 해당 키워드가 없지만 의미적으로 사건과 관련이 있는 트윗은 찾지 못하는 문제점이 있다. 또한 기존의 연구들은 디스크에 저장된 데이터에 대한 분석이 주를 이루고 있어 원하는 결과를 얻기 위해서는 데이터를 수집하여 저장하고 분석에 이르기까지 오랜 시간이 소모된다. 이러한 문제점을 해결하기 위해 본 연구에서는 실시간 이슈 탐지를 위한 일반-급상승 단어 사전 생성 및 매칭 기법을 제안한다. 데이터 스트림 인메모리 기반으로 일반-급상승 단어 사전을 생성 및 관리하기 때문에 새로운 사건을 빠르게 학습하고 대응할 수 있다. 또한 분석을 원하는 주제의 일반 사전과 급상승 사전을 동시에 관리하기 때문에 기존의 방법으로 찾지 못하는 트윗을 검출해 낼 수 있다. 본 연구를 통해 빠른 정보와 대응이 필요한 분야에 즉시적으로 활용할 수 있다.