• Title/Summary/Keyword: Data Dictionary

검색결과 347건 처리시간 0.026초

사전 정보와 차트 자료 구조를 이용한 효율적인 형태소 분석기 및 합성기(KoMAS) (An Efficient Korean Morpheme Analyzer and Synthesizer using Dictionary Information and Chart Data Structure)

  • 김정해;이상조
    • 전자공학회논문지B
    • /
    • 제31B권3호
    • /
    • pp.123-131
    • /
    • 1994
  • This paper describes on the analysis of morphemes and it's synthesis being constituted of Korean word phrases. To analyze morphemes, we propose the introduction of "morph" for morpheme features in lexicon and the usage of chart data structures. it controls over the generation of unnecessary morpheme, and extracts every possible morpheme unit in a word phrase which minimized lexicon investigation by using heuristic information. Moreover, to synthesize morphemes, it is composed of every possible analyzed morphemes in word phrases to take advantage of speech and union information which can be obtained for program. Therefore, the systhesis of analyzed morphemes were designed to aid a syntactic analysis next step of natural language processing. This system for analyzing and systhesizing morpheme was to generate a word phrase by unifying syntactic and semantic features of analyzed morphemes in lexicon, and then established by C language of the personal computer.

  • PDF

데이터베이스로부터의 선형계획모형 추출방법에 대한 연구 (Linear Programming Model Discovery from Databases)

  • 권오병;김윤호
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.290-293
    • /
    • 2000
  • Knowledge discovery refers to the overall process of discovering useful knowledge from data. The linear programming model is a special form of useful knowledge that is embedded in a database. Since formulating models from scratch requires knowledge-intensive efforts, knowledge-based formulation support systems have been proposed in the DSS area. However, they rely on the strict assumption that sufficient domain knowledge should already be captured as a specific knowledge representation form. Hence, the purpose of this paper is to propose a methodology that finds useful knowledge on building linear programming models from a database. The methodology consists of two parts. The first part is to find s first-cut model based on a data dictionary. To do so, we applied the GPS algorithm. The second part is to discover a second-cut model by applying neural network technique. An illustrative example is described to show the feasibility of the proposed methodology.

  • PDF

메타 데이타베이스와 관리기의 설계 및 구현-통계 데이타베이스를 중심으로 (The Design and Implementation of Meta database and manager)

  • 안성욱
    • 자연과학논문집
    • /
    • 제8권1호
    • /
    • pp.109-114
    • /
    • 1995
  • 통계 데이타베이스의 효율적 이용을 위해 통계 분석을 위한 요약 정보를 미리 계산하여 저장함으로써 사용자에게 빠른 응답시간내에 통계 정보를 제공하려는 요약 데이타베이스와 이의 효율적인 관리와 사용의 편리를 위한 메타 데이타베이스가 생성되고 관리되어야만 한다. 요약 데이타베이스를 효율적으로 이용한 통계 분석 작업의 환경과 사용자의 편이성을 지원하기 위하여 계층 구조 형태인 데이타 사전/디렉토리의 형태로 독립적으로 운영되는 메타 데이타베이스와 관리기의 설계 및 구현 작업과 이를 이용한 운영 방법 등이 제시되었다.

  • PDF

레디믹스트 콘크리트의 품질관리 프로그램 개발 (Computer Program for Quality Control of Ready Mixed Concrete)

  • 최재진;박원태
    • 한국산학기술학회논문지
    • /
    • 제3권1호
    • /
    • pp.20-26
    • /
    • 2002
  • 콘크리트의 품질관리에 활용하기 위하여 콘크리트의 시멘트-물비와 압축강도의 상관식을 시험을 통하여 구하였다. 그리고 콘크리트의 공기량, 슬림프 및 강도 시험결과를 데이터 베이스화 하고 X-R 관리도와 X-Rs 관리도를 작성하는 기능 그리고 사용재료에 대한 각종 시험결과를 정리할 수 있는 데이터 시트 기능을 가진 품질관리 프로그램을 개발하였다. 또한 이 프로그램 속에는 콘크리트 시험 비비기를 할 때의 배합계산 및 콘크리트 관련 용어사전 기능을 포함시켰다.

  • PDF

영화도메인 한국어 감성사전의 자동구축과 평가 (Automatic Construction and Evaluation of Movie Domain Korean Sentiment Dictionary)

  • 조희련;최상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.585-587
    • /
    • 2015
  • 본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

Word Order and Cliticization in Sakizaya: A Corpus-based Approach

  • Lin, Chihkai
    • 아시아태평양코퍼스연구
    • /
    • 제1권2호
    • /
    • pp.41-56
    • /
    • 2020
  • This paper aims to investigate how word order interacts with cliticization in Sakizaya, a Formosan language. This paper looks into nominative and genitive case markers from a corpus-based approach. The data are collected from an online dictionary of Sakizaya, and they are classified into two word orders: nominative case marker preceding genitive case marker and vice versa. The data are also divided into three categories, according to the demarcation of the case markers, which include right, left, or no demarcation. The corpus includes 700 sentences in the construction of predicate + noun phrase + noun phrase. The results suggest that the two case markers tend to be parsed into the preceding word and show right demarcation. The results also reveal that there are type difference and distance effect of the case markers on the cliticization. Nominative case markers show more right demarcation than genitive case markers do in the corpus. Also, the closer the case markers are to the predicate, the more possible the case markers undergo cliticization.

Mutational Data Loading Routines for Human Genome Databases: the BRCA1 Case

  • Van Der Kroon, Matthijs;Ramirez, Ignacio Lereu;Levin, Ana M.;Pastor, Oscar;Brinkkemper, Sjaak
    • Journal of Computing Science and Engineering
    • /
    • 제4권4호
    • /
    • pp.291-312
    • /
    • 2010
  • The last decades a large amount of research has been done in the genomics domain which has and is generating terabytes, if not exabytes, of information stored globally in a very fragmented way. Different databases use different ways of storing the same data, resulting in undesired redundancy and restrained information transfer. Adding to this, keeping the existing databases consistent and data integrity maintained is mainly left to human intervention which in turn is very costly, both in time and money as well as error prone. Identifying a fixed conceptual dictionary in the form of a conceptual model thus seems crucial. This paper presents an effort to integrate the mutational data from the established genomic data source HGMD into a conceptual model driven database HGDB, thereby providing useful lessons to improve the already existing conceptual model of the human genome.

텍스트 마이닝과 딥러닝을 활용한 암호화폐 가격 예측 : 한국과 미국시장 비교 (The Prediction of Cryptocurrency on Using Text Mining and Deep Learning Techniques : Comparison of Korean and USA Market)

  • 원종관;홍태호
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.1-17
    • /
    • 2021
  • 본 연구에서는 한국과 미국의 대표적인 거래소인 빗썸과 코인베이스의 비트코인 가격을 ARIMA와 순환 신경망(Recurrent Neural Network)을 이용해 예측하고, 이후 각 국가의 뉴스 기사를 이용해 분리 학습에 기반한 separated RNN 모형을 제안한다. separated RNN 모형은 학습 데이터를 가격의 추세 변화 점을 기준으로 분리해 학습시킨 후, 추세 변화점 별 뉴스 데이터를 활용해 용어 기반 사전을 구축한다. 이후 용어 기반 사전과 평가 데이터 기간의 뉴스 데이터를 이용해 예측할 데이터의 가격 추세 변화 점을 찾아낸 후, 매칭되는 모형을 적용해 예측 결과를 산출한다. 2017년 5월 22일부터 2020년 9월 16일까지의 가격 데이터를 사용해 분석한 결과, 제안된 separated RNN을 이용해 예측한 결과가 한국과 미국의 비트코인 가격 예측 모두에서 순환 신경망(RNN)을 이용해 예측한 결과보다 높은 예측 성과를 보였다. 본 연구는 시계열 예측 기법의 한계를 뉴스 데이터를 이용한 추세 변화 점 탐색을 통해 극복할 수 있고, 성과 향상을 위한 추후 다양한 시계열 예측 기법 및 추세 변화 점 탐색을 위한 다양한 텍스트 마이닝 기법을 적용해볼 필요가 있음을 시사한다.

A GIS Vector Data Compression Method Considering Dynamic Updates

  • Chun Woo-Je;Joo Yong-Jin;Moon Kyung-Ky;Lee Yong-Ik;Park Soo-Hong
    • Spatial Information Research
    • /
    • 제13권4호
    • /
    • pp.355-364
    • /
    • 2005
  • 모바일 기기의 제한적 환경에서 공간데이터의 활용을 극대화하기 위해 벡터데이터의 압축에 대한 연구가 최근 이뤄지고 있다. 이 중 군집화 방법을 이용한 벡터데이터 압축은 기존 압축방법과 다른 새로운 형태로 주목을 받고 있다. 그러나 현재까지 연구는 데이터의 동적인 갱신이 고려되지 않았다. 본 연구는 기존의 군집화 방법을 이용한 벡터데이터 압축방법의 문제점을 파악하고, 데이터의 동적인 갱신이 고려된 압축 방법을 제시하였다. 실험을 통한 결과는 갱신이 발생하였을 경우 제안된 방법이 더 좋은 결과를 나타냄을 확인할 수 있었다.

  • PDF

사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템 (A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions)

  • 허정;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권9호
    • /
    • pp.688-698
    • /
    • 2001
  • 동형이의어는 문장에서 그와 함께 사용된 체언, 용언에 의해서 그의 의미를 확정지을 수 있다. 본 논문에서는 사전의 뜻풀이말에서 추출한 통계적 의미정보에 기반한 동형이의어 중의성 해결 시스템을 제안한다. 의미정보는 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 체언(보통 명사)와 용언(형용사, 동사)을 추출하여 구성된다. 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 두 가지로 분류하였다. 첫 번째 유형은 의미분별할 동형이의어와 표제어가 의미적으로 상-하의어 관계를 이루고 있는 경우로, 표제어의 뜻풀이말에서 동형이의어가 의미적으로 중심어이다. 이러한 상-하의어 관계는 의미계층 구조가 없는 경우에 활용할 수 있으며, 자료 부족 문제를 해결하기 위한 의미정보의 확장에 유용하다. 두 번째 유형은 동형이의어가 뜻풀이말의 중간에 사용된 경우이다. 본 논문에서 제안하는 동형이의어 중의성 해결 시스템은 체언과 용언 의미정보를 모두 고려한 모델로, 체언과 용언이 동형이의어 중의성 해결에 영향을 주는 정도(가중치)를 결정하기 위하여 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 코퍼스(사전 뜻풀이말)로 실험한 결과, 체언과 용언의 가중치가 0.9/0.1일 때 평균 96.11%의 중의성 해결 정확률이 가장 높았다. 또한 제안하는 동형이의어 중의성 해결 시스템의 일반성을 측정하기 위해, 학습되지 않은 외부 데이터 (국어 정보베이스 I과 ETRI 코퍼스 1,796 문장)로 실험한 결과 평균 80.73%의 정화률을 보였다.

  • PDF