• Title/Summary/Keyword: 단어 데이터베이스

Search Result 208, Processing Time 0.024 seconds

A Study on Design and Implementation of Filtering System on Hurtfulness Site (유해 사이트 필터링에 관한 연구)

  • 장혜숙;강일고;박기홍
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2002.11a
    • /
    • pp.636-639
    • /
    • 2002
  • This article is focused on the research for the system design that isolate noxious data from internet for juveniles Normally, by motivating this software which was designed to isolate noxious data, harmful data was deleted or graded But these normal process contains a lot of complexity, for example, essential continual upgrade, grading mistake, etc. So, to solve these fallacy, word-weighting process, where several harmful words which can be optained in internet site are discriminance and weighted, is utilized by using AC machine. At the result, the isolation rate of harmful site rose up to 90%, which means this process is greatly efficient.

  • PDF

An Evaluative study on information quality of ASKERIC databases (ASKERIC 데이터베이스의 품질에 관한 연구)

  • 이명희
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.9 no.1
    • /
    • pp.221-240
    • /
    • 1998
  • This study concerns information quality of the database which has been produced in the ASKERIC database. The measures used in this study were accuracy of the records. consistency, completeness and currency. Accuracy was measurred in terms of the keywords used in different ways in the US and Britain and the spelling errors in the records. Consistency was measured in terms of 'see also' and 'see reference' mechanism and character capitalization. Completeness was measured as follows: completeness of the search fields in the record and relevance of search fields. Currency was measured using the publication date. The experimental result showed that ERIC databases had some errors in terms of accuracy. consistency. completeness and currency. However, continuous striving for the automatic error checking functions and the policy of feedback from users have contributed to the improvement of the quality in ERIC databases.

  • PDF

A Study on Implementation for Web Search Program in Specific Web Site (특정 사이트내의 검색 프로그램 구현에 관한 연구)

  • Jang, Doc-Sung;Gu, Se-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1243-1246
    • /
    • 2002
  • 본 논문은 검색엔진을 이용하여 대상 웹사이트의 링크 사이트 전체를 수집하고, 각 링크 사이트의 페이지를 인덱싱하여 데이터베이스화하는데, 특히 가장 최신의 페이지를 분류하여 시간에 의해 검색단어의 정확도가 가려지는 경우, 이를 이용할 수 있도록 하였다. 본 논문은 검색엔진에 의해 검색 서비스를 제공하는 기본적인 웹 로봇의 구현에 대한 연구이며, 웹 로봇의 역할은 크게 링크 사이트를 수집하는 것 이외에 제목, 메타태그, 멀티미디어 다운로드등의 역할들을 수행하며 이를 인덱싱 하여 데이터베이스화한다.

  • PDF

Network Analysis between Uncertainty Words based on Word2Vec and WordNet (Word2Vec과 WordNet 기반 불확실성 단어 간의 네트워크 분석에 관한 연구)

  • Heo, Go Eun
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.53 no.3
    • /
    • pp.247-271
    • /
    • 2019
  • Uncertainty in scientific knowledge means an uncertain state where propositions are neither true or false at present. The existing studies have analyzed the propositions written in the academic literature, and have conducted the performance evaluation based on the rule based and machine learning based approaches by using the corpus. Although they recognized that the importance of word construction, there are insufficient attempts to expand the word by analyzing the meaning of uncertainty words. On the other hand, studies for analyzing the structure of networks by using bibliometrics and text mining techniques are widely used as methods for understanding intellectual structure and relationship in various disciplines. Therefore, in this study, semantic relations were analyzed by applying Word2Vec to existing uncertainty words. In addition, WordNet, which is an English vocabulary database and thesaurus, was applied to perform a network analysis based on hypernyms, hyponyms, and synonyms relations linked to uncertainty words. The semantic and lexical relationships of uncertainty words were structurally identified. As a result, we identified the possibility of automatically expanding uncertainty words.

Usenet News Filtering using Fuzzy Inference and Kohonen Network (퍼지추론과 코호넨 신경망을 사용한 유즈넷 뉴스 필터링)

  • 김종완;조규철;김병익
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2003.05a
    • /
    • pp.47-51
    • /
    • 2003
  • 인터넷을 통해 제공되는 맡은 양의 뉴스 정보 중에서 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것이 필요하다. 먼저, 인터넷에 접속된 뉴스서버들의 뉴스 문서를 각 그룹별로 수집한다. 수집된 뉴스 문서를 대상으로 퍼지추론을 통하여 문서를 대표하는 키워드를 추출하여 데이터베이스에 저장한다. 각 뉴스그룹의 문서에서 단어들을 분석하여 입력된 단어들의 개수를 이용하여 정규화 시켜서 대표적인 비지도학습 신경망인 코호넨 신경망을 사용하여 학습시킨다. 코호넨 신경망으로 추출된 단어들의 연관성을 활용하여 뉴스그룹을 클러스터링한다. 최종적으로 사용자가 관심 있는 키워드를 입력하면, 학습된 신경망이 유사한 뉴스그룹들을 사용자에게 제시해준다.

  • PDF

A Study on the Implementatin of Vocalbulary Independent Korean Speech Recognizer (가변어휘 음성인식기 구현에 관한 연구)

  • 황병한
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.60-63
    • /
    • 1998
  • 본 논문에서는 사용자가 별도의 훈련과정 없이 인식대상 어휘를 추가 및 변경이 가능한 가변어휘 인식시스템에 관하여 기술한다. 가변어휘 음성인식에서는 미리 구성된 음소모델을 토대로 인식대상 어휘가 결정되명 발음사전에 의거하여 이들 어휘에 해당하는 음소모델을 연결함으로써 단어모델을 만든다. 사용된 음소모델은 현재 음소의 앞뒤의 음소 context를 고려한 문맥종속형(Context-Dependent)음소모델인 triphone을 사용하였고, 연속확률분포를 가지는 Hidden Markov Model(HMM)기반의 고립단어인식 시스템을 구현하였다. 비교를 위해 문맥 독립형 음소모델인 monophone으로 인식실험을 병행하였다. 개발된 시스템은 음성특징벡터로 MFCC(Mel Frequency Cepstrum Coefficient)를 사용하였으며, test 환경에서 나타나지 않은 unseen triphone 문제를 해결하기 위하여 state-tying 방법중 음성학적 지식에 기반을 둔 tree-based clustering 기법을 도입하였다. 음소모델 훈련에는 ETRI에서 구축한 POW (Phonetically Optimized Words) 음성 데이터베이스(DB)[1]를 사용하였고, 어휘독립인식실험에는 POW DB와 관련없는 22개의 부서명을 50명이 발음한 총 1.100개의 고립단어 부서 DB[2]를 사용하였다. 인식실험결과 문맥독립형 음소모델이 88.6%를 보인데 비해 문맥종속형 음소모델은 96.2%의 더 나은 성능을 보였다.

  • PDF

Efficient Retrieval of Spatial Words in Social Database (소셜 데이터베이스에서 공간 단어의 효율적인 검색)

  • Yang, Pyoung Woo;Joe, Hyun Gu;Nam, Kwang Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.719-720
    • /
    • 2014
  • 공간 웹 객체는 문서상에 지리정보를 포함하는 문서를 말한다. Twitter 나 FaceBook 같은 경우 문서가 생성된 위치를 문서 안에 포함하고 있다. 최근에는 공간 웹 객체와 같은 공간정보와 문자를 요구하는 검색이 많이 요구되고 있다. 본 논문에서는 공간 웹 객체를 검색하기 위한 효율적인 검색 기법을 제안한다. 이를 위하여 문서를 단어별로 나누고 각 단어와 문서의 위치정보를 포함하는 공간 객체를 만들어 공간객체를 검색하기 위한 QP-tree 를 제안한다.

Fuzzy Structured Query Language for Fuzzy Database System (퍼지 데이터베이스 시스템을 위한 퍼지 질의어 연구(FSQL))

  • 정은영;신세영;김승권;유자영;박순철
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2000.05a
    • /
    • pp.79-84
    • /
    • 2000
  • 우리가 일상적으로 사용하는 말속에는 모호한 표현들이 많이 들어있다. 예를 들어, '젊다', '크다', '어느 정도' 등의 표현들은 정해진 값을 갖는 말들이 아니다. 가장 보편화된 RDBMS에서의 질의어인 SQL(Structured Query Language, 이하 SQL)은 데이터베이스에서 허용된 값, 즉 정량적인 값들에 대해서만 질의할 수 있도록 되어 있다. '젊은 여자' 혹은 '20세 정도의 여자'라는 질의는 할 수 없으며, '25세의 여자' 라는 식으로 정확한 질의만이 허용된다. 그러나 정보량이 급증하고 있고, 정보가 곧 힘이 되는 지금, 일반 사용자들도 데이터베이스에서 자신이 원하는 정보를 얻어 낼 수 있어야만 하게 되었다. 따라서 본 논문에서는 일반 사용자들도 데이터베이스에서 일상적으로 사용하는 단어(이하 자연어)로 질의를 할 수 있도록 하는 FSQL에 대해 논의하고자 한다.

  • PDF

Evaluation of Word Recognition System For Mobile Telephone (이동전화를 위한 단어 인식기의 성능평가)

  • Kim Min-Jung;Hwang Cheol-Jun;Chung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.92-95
    • /
    • 1999
  • 본 논문에서는 음성에 의해 구동되는 이동천화를 구현하기 위한 기초 실험으로서, 이동전화상에서 많이 사용되는 단어 데이터를 직접 채록하여 단어 인식 실험을 수행하여 인식기의 성능을 평가하였다. 인식 실험에 사용된 단어 데이터베이스는 서울 화자 360명(남성화자 180명, 여성화자 180명), 41상도 화자 240명(남성화자 120명, 여성화자 120명)으로 구성된 600명의 발성을 이용하여 구성하였다. 발성 단어는 이동전화에 주로 사용되는 중요 기능과 제어 단어, 그리고 숫자음을 포함한 55개 단어로 구성되었으며, 각 화자가 3회씩 발성하였다. 데이터의 채집환경은 잡음이 다소 있는 사무실환경이며, 샘플링율은 8kHz였다. 인식의 기본단위는 48개의 유사음소단위(Phoneme Like Unit : PLU)를 사용하였으며, 정적 특징으로 멜켑스트럼과 동적 특징으로 회귀계수를 특징 파라미터로 사용하였다. 인식실험에서는 OPDP(One Pass Dynamic Programming)알고리즘을 사용하였다. 인식실험을 위한 모델은 각 지역에 따라 학습을 수행한 모델과, 지역에 상관없이 학습한 모델을 만들었으며, 기존의 16Htz의 초기 모델에 8kHz로 채집된 데이터를 적응화시키는 방법을 이용하여 학습을 수행하였다. 인식실험에 있어서는 각 지역별 모델과 지역에 관계없이 학습한 모델에 대하여, 각 지역별로, 그리고 지역에 관계없이 평가용 데이터로 인식실험을 수행하였다 인식실험 결과, $90\%$이상의 비교적 높은 인식률을 얻어 인식시스템 성능의 유효성을 확인할 수 있었다.

  • PDF

An Implementation of Rejection Capabilities in the Isolated Word Recognition System (고립단어 인식 시스템에서의 거절기능 구현)

  • Kim, Dong-Hwa;Kim, Hyung-Soon;Kim, Young-Ho
    • The Journal of the Acoustical Society of Korea
    • /
    • v.16 no.6
    • /
    • pp.106-109
    • /
    • 1997
  • For the practical isolated word recognition system, the ability to reject the out-of -vocabulary(OOV) is required. In this paper, we present a rejection method which uses the clustered phoneme modeling combined with postprocessing by likelihood ratio scoring. Our baseline speech recognition system was based on the whole-word continuous HMM. And 6 clustered phoneme models were generated using statistical method from the 45 context independent phoneme models, which were trained using the phonetically balanced speech database. The test of the rejection performance for speaker independent isolated words recogntion task on the 22 section names shows that our method is superior to the conventional postprocessing method, performing the rejection according to the likelihood difference between the first and second candidates. Furthermore, this clustered phoneme models do not require retraining for the other isolated word recognition system with different vocabulary sets.

  • PDF