• 제목/요약/키워드: Retrieval Efficiency

검색결과 324건 처리시간 0.021초

쿠쿠 필터 유사도를 적용한 다중 필터 분산 중복 제거 시스템 설계 및 구현 (Design and Implementation of Multiple Filter Distributed Deduplication System Applying Cuckoo Filter Similarity)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제10권10호
    • /
    • pp.1-8
    • /
    • 2020
  • 최근 몇 년 동안 기업이 수행하는 비즈니스 활동에서 생성된 데이터를 기반으로 하는 기술이 비즈니스 성공의 열쇠로 부상함에 따라 대체 데이터에 대한 저장, 관리 및 검색 기술에 대한 필요성이 대두되었다. 기존 빅 데이터 플랫폼 시스템은 대체 데이터인 비정형 데이터를 처리하기 위해 실시간으로 생성된 대량의 데이터를 지체 없이 로드하고 중복 데이터 발생 시 서로 다른 스토리지의 중복 제거 시스템을 활용하여 스토리지 공간을 효율적으로 관리해야 한다. 본 논문에서는 빅 데이터의 특성을 고려하여 쿠쿠 해싱 필터 기법의 유사도를 이용한 다중 계층 분산 데이터 중복 제거 프로세스 시스템을 제안한다. 가상 머신 간의 유사성을 쿠쿠 해시로 적용함으로써 개별 스토리지 노드는 중복 제거 효율성으로 성능을 향상시키고 다중 레이어 쿠쿠 필터를 적용하여 처리 시간을 줄일 수 있다. 실험 결과 제안한 방법은 기존 블룸 필터를 이용한 중복 제거 기법에 의해 8.9%의 처리 시간 단축과 중복 제거율이 10.3% 높아짐을 확인하였다.

웹에서의 XML 질의 캐쉬 기법 (Techniques of XML Query Caching on the Web)

  • 박대성;강현철
    • 한국전자거래학회지
    • /
    • 제11권1호
    • /
    • pp.1-23
    • /
    • 2006
  • e-Commerce와 같은 응용 등에 의해 점에서 XML데이터의 양이 많아짐에 따라 XML질의 처리를 신속하게 해주는 기술이 필요하게 되었다. 이를 가능하게 해주는 것이 XML질의 캐슁이다. 자주 제기되는 질의에 대하여 질의 결과를 캐쉬한 후, 동일 질의에 재사용 함으로써 빠른 응답 시간을 보장할 수 있다. 본 논문에서는 XML 질의 결과의 포맷으로 가장 보편적으로 사용되고 있는 노드 식별자 집합(NIS)을 캐쉬하여 XML 질의 성능을 향상시키는 기법을 제안한다. 캐쉬되는 NIS는 질의 결과를 구성하는 소스 XML 엘리먼트들의 식별자 집합이다. 따라서 NIS는 질의 결과의 재구성, 변형, 다른 데이터와의 통합 등 정 응용의 데이터 검색 요건을 충족시키기에 적절하고, XML 소스의 변경에 따른 점진적 갱신에 효율적이다. 그러나 XML문서 형태로 질의 결과를 반환해야 할 경우에는 소스 XML 엘리먼트를 검색하는 실체화 과정을 필요로 한다. 본 논문에서는 세 가지의 서로 다른 NIS의 구성을 고려하여 이들의 생성, 실체화. 점진적 갱신 알고리즘을 제안하고 RD BMS를 이용하여 구현하였다. 다양한 실험을 통한 성능 평가 결과 본 논문에서 제시하는 XML질의 캐쉬 기병의 효율성을 확확하였다.

  • PDF

교육시설(敎育施設)에 관한 문헌연구(文獻硏究) 방법(方法) - 미국 ERIC 자료 활용방법을 중심으로 - (A Study on Methods of Documentary Research on Educational Facilities - Focused on the Utilization of the ERIC -)

  • 박재윤
    • 교육시설
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 1994
  • This study was taken to increase efficiency in reviewing documents of school facilities from the network of ERIV(Educational Resources and Information Center, USA). Outline of the ERIC network, and the structure, role, function of the ERIC thesaurus are introduced. A thesaurus have developed for information retrieval purpose provides the filing labels which permit information to be stored by one person and retrieved by another. As an information system grows, its thesaurus is systematically built and refined to the point where it represents, in a very special sense, the vocabulary of subject field. The Thesaurus of ERIC Descriptors represents such a vocabulary for the field education. An understanding of its origins, its function and its limitations, is just as important to the teacher, the student of education or the educational researcher as it is for the indexer or custodian of the information pool it represents. If the Thesaurus is understood and used in an appropriate way, it can give all educators not only insight into the ERIC system but also an increased awareness of the language of their field. A great many terms are necessary to describe the many aspects of education, and the task of relating them in even an approximately consistent way is an enormous one. The undertaking should be managed by people who not only know what they are talking about but who also should be able to predict what people in their field are lilely to be talking about in the near future. It should also enlist people who are willing to pay term to another within the system. To engage a large number of these two kinds of people over a long period of time is very likely to cost a great deal of money. There is very little proprietary value in producing such a list of terms, for it can very easily be copied, adapted, updated, etc. Thus, because of its high cost and low proprietary value, it becomes a task likely to be funded only by a government. A government has many ways of spending its money. However, after the decision has been made to spend money to produce an authority list, one must decide how this authority is to be delegated. The history of the development of the ERIC Thesaurus is the history of how this authority was delegated. Scientific research has thrived on efforts to define terms as precisely as possible. It is difficult to say with certainty, however, that solutions to social problems have thrived on a simple diet of scientific research. Contemporary crises demand new and imaginative ways of conceiving problems and talking about them. If this Thesaurus or any other scheme for normalizing or controlling language inhibits in the slightest measure the creative use of language, it is against it use. Only if the principles and details of the Thesaurus are misunderstood can it be used as a constraint on language in a negative sense. Students of education of every kind should see the The-saurus as an opportunity to become increasingly self-conscious about their language and thus about their assumptions and their approaches to educational problems.

  • PDF

전자 카탈로그에 대한 효율적인 색인어 통계 정보 관리 방법 (Efficient Management of Statistical Information of Keywords on E-Catalogs)

  • 이동주;황인범;이상구
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.1-17
    • /
    • 2009
  • 전자 카탈로그는 상품이나 서비스 정보를 저장하고 있는 전자 문서로, 전자 상거래에서 가장 중요한 자료 중 하나이다. 전자 카탈로그는 지속적으로 추가, 수정 혹은 삭제되면서 최신의 상태로 유지되게 되는데, 전자 카탈로그의 양이 많아지면서 중복이 발생하고, 부적합한 분류에 할당되는 등, 품질 유지 문제가 발생한다. 검색, 중복확인, 자동분류는 카탈로그 품질 관리를 위해 중요한 기능들인데, 이 기능을 구현하기 위해서 카탈로그에서 추출된 색인어들의 통계 정보를 활용한 확률 모델들이 제시되었다. 그러나 이들은 서로 독립적으로 다루어 졌기에, 카탈로그 관리 시스템이라 는 하나의 시스템에서 구현될 수 있음에도 불구하고, 각 모델들이 공유하는 데이터와 이를 관리하기 위한 데이터 관리 기법에 관한 연구는 미흡하였다. 따라서 본 논문에서는 세 기능을 위한 확률모델을 정리하고, 이를 관계형 데이터베이스 상에서 구현하고, 통계 정보를 효율적으로 관리하는 방법을 제시한다. 특히, 실체화 뷰를 이용하여 불필요한 응용의 개발 비용과 데이터 무결성 저해요인을 제거하였다. 다량의 실제 전자 카탈로그 데이터베이스에 대한 실험을 통해 관계형 데이터 베이스를 이용한 구현이 속도와 정확성에 있어 실용성이 있음을 보였고, 응용을 통한 통계 정보갱신 방법과의 비교를 통해 실체화 뷰를 활용한 통계 정보 관리 기법의 효용성을 보였다.

  • PDF

시맨틱 웹 기반 국방무기 다차원 정보 분석 시스템 (Semantic Web based Multi-Dimensional Information Analysis System on the National Defense Weapons)

  • 최중환;박정호;김평;이승우;정한민;서동민
    • 한국콘텐츠학회논문지
    • /
    • 제12권11호
    • /
    • pp.502-510
    • /
    • 2012
  • 국방 과학기술의 발달에 따라 첨단 무기들이 지속적으로 개발되고 온라인을 통한 정보의 공유가 활발해지면서, 각국의 미래 전략무기 소요 제기를 위한 정보의 수집 및 분석의 중요성이 증가하고 있으며, 이를 위한 이종의 국방정보를 통합 관리 및 분석하는 시스템이 필요하다. 시맨틱 웹은 이종의 지식자원을 통합하고 검색 및 내비게이션 할 수 있는 차세대 지식정보 관리 기반 기술로 최근에는 지능형 시스템 구축에 활발하게 사용되고 있다. 시맨틱 웹은 단순 키워드 검색이 아닌 의미적으로 연관된 정보 검색을 제공하기 때문에 신뢰도 높은 분석 결과를 제공한다. 본 논문에서는 시맨틱 웹을 기반으로 무기 제원 정보를 중심으로 무기의 제조국, 개발 회사, 개발 현황 등 무기와 관련된 다양한 관련 정보를 온톨로지로 구조화하는 것은 물론, 관련 정보를 이용해서 무기를 효과적으로 검색 및 분석할 수 있는 국방무기 다차원 정보분석시스템을 제안한다. 제안한 시스템은 무기의 제원명과 제원의 상하위 관계를 이용해서 확장 검색 기능을 제공하며, 무기 관련 정보를 이용해서 다양한 경로로 무기정보에 접근할 수 있는 기능과 함께 무기체계에 따른 다양한 분석 기능도 제공한다. 또한 개발된 시스템은 무기 분야의 전문가 지식과 웹에서 수집된 무기 관련 정보를 온톨로지로 구축하고 지능화된 검색 서비스를 구현함으로써, 정보전 시대에 필요한 첨단 무기 정보 획득의 효율성을 제고한다.

DCT 해쉬를 이용한 모자이크 생성 알고리즘 (Photo Mosaic Generation Algorithm Using the DCT Hash)

  • 이주용;정승도;이지훈
    • 한국산학기술학회논문지
    • /
    • 제17권10호
    • /
    • pp.61-67
    • /
    • 2016
  • 최근 스마트기기의 높은 보급률 및 컴퓨팅 기술의 발전으로 인하여 단순히 정보를 검색하는 사용 패턴에서 벗어나 사진 및 동영상 등의 멀티미디어에 관한 사용자의 관심이 증대되고 있다. 이러한 관심 증대로 인하여 다양한 응용을 위해 이미지를 생성하고 처리하는 이미지 프로세싱에 대한 기술이 발전하고 있다. 최근 자신이 좋아하는 연예인 등의 여러 개의 작은 이미지들을 이용하여 모자이크로 표현하는 엔터테인먼트적인 사례들이 등장하고 있으며 모자이크 기법에 대한 연구 또한 활발히 진행 중이다. 하지만 기존의 모자이크 기법들 데이터베이스의 이미지를 선형적으로 비교하기 때문에 데이터베이스 이미지수가 증가함에 따라 비교 연산처리 시간이 증가하는 단점이 있다. 긴 연산처리 시간을 가진다. 따라서 본 논문에서는 효율적인 검색을 위해 DCT 해쉬를 이용하는 모자이크 이미지 생성 알고리즘을 제안한다. 제안한 알고리즘은 데이터베이스 생성 단계와 모자이크 생성 단계로 구성된다. 데이터베이스 생성 단계에서는 데이터베이스 구축을 위한 이미지들을 블록 단위로 분할하고 분할된 영역에 대한 DCT 해쉬 셋을 생성하여 저장한다. 모자이크 생성 단계에서는 입력 이미지의 각 블록에 대하여 DCT 해쉬를 통해 데이터베이스 내의 가장 유사한 블록을 효율적으로 검색하고, 최종적인 모자이크 이미지를 생성한다. 다양한 실험을 통해, 제안된 알고리즘이 다양한 종류의 이미지 및 크기에 상관없이 효과적으로 모자이크가 생성됨을 보였다.

문서분류를 위한 의미적 주제선정방법 (Semantic Topic Selection Method of Document for Classification)

  • 고광섭;김판구;이창훈;황명권
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.163-172
    • /
    • 2007
  • 웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

연구개발 생산성 향상을 위한 태스크 유사도 기반 산출물 재사용 추천 프레임워크 (A reuse recommendation framework of artifacts based on task similarity to improve R&D performance)

  • 남승우;혼 다네스;홍장의
    • 융합정보논문지
    • /
    • 제9권2호
    • /
    • pp.23-33
    • /
    • 2019
  • 연구 개발 활동은 다양한 기술 정보의 조사 분석 및 기술 보고서 작성 활동들로 구성된다. 연구 개발 활동이 구체화되면서 이전 단계에 작성된, 또는 이전의 유사 프로젝트에서 작성된 관련 기술 문서를 참조하는 일이 많이 발생한다. 본 논문에서는 연구자가 원하는 이전 산출물의 효율적인 재사용을 가능하게 하는 재사용 추천 프레임워크인 RTRF(research task based reuse recommendation framework)를 제안한다. 제안하는 프레임워크는 기존의 유사어 기반 검색 및 재사용에 추가하여 태스크 유사도를 기반으로, 개발자의 연구와 비슷한 흐름을 가지고 있는 다른 개발자가 재사용한 문서를 추천해주어 개발자에게 필요할 수 있는 정보를 제공한다. 사례연구는 연구자들이 기존 문서를 재사용하여 기술동향보고서를 작성하는 과정에서의 효율성을 보이기 위해 수행하였다. RTRF를 이용하여 재사용을 수행하는 경우, RTRF를 이용하지 않는 경우와 비교했을 때 다른 단계의 문서 및 다른 연구분야의 문서를 더 빈번하게 재사용하는 것을 알 수 있었다. 본 논문에서 제안하는 RTRF는 개발자가 저장소에 저장되어 있는 방대한 양의 R&D 문서들 중에서 원하는 문서를 효율적으로 재사용하는 것에 큰 기여를 한다.

미래 동물생명산업 발전전략으로써 스마트축산의 응용: 리뷰 (Applying a smart livestock system as a development strategy for the animal life industry in the future: A review)

  • 박상오
    • 한국응용과학기술학회지
    • /
    • 제38권1호
    • /
    • pp.241-262
    • /
    • 2021
  • 본 논문은 과학논문을 통해 30년 후인 2050년까지 가축과 동물성식품의 동향을 예측하면서 미래 동물생명산업 발전 전략으로써 ICT-기반 스마트축산 기술의 필요성을 검토하였다. 전 세계적으로 가축사육과 동물성식품 소비는 인구증가, 고령화, 농촌인구 감소, 도시화 및 소득증가에 대한 반응으로 빠르게 변화하고 있다. 기후변화는 가축 환경, 생산성과 번식효율성을 바꿀 수 있다. 가축생산은 온실가스 배출 증가, 토지 황폐화, 수질오염, 동물복지 및 인간의 건강 문제로 이어질 것이다. 이러한 문제를 해결하기 위해 동물생명산업의 다양한 측면에서 4차 산업혁명과 융합된 ICT-기반 스마트축산을 활용하여 기후변화 대응, 생산성 향상, 동물복지, 동물성식품 영양품질 개선, 동물의 질병예방을 위한 선제적인 미래 대응전략이 필요하다. 미래 동물생명산업은 지속 가능성과 생산효율성을 향상시키기 위해 자동화를 통합해야 한다. 디지털 시대에 IoT와 빅 데이터를 사용하는 지능형 정밀가축사양, ICT-기반 스마트축산은 동물생명산업의 다양한 소스로부터 데이터를 수집, 처리 및 분석할 수 있다. 축사 내부와 외부의 환경 매개 변수를 정밀하게 원격 제어할 수 있는 디지털 시스템으로 구성되어있다. ICT-기반 스마트축산은 인터넷과 휴대폰을 통한 원격 제어를 위해 센싱 기술을 사용하여 동물의 행동복지 및 사양관리를 모니터링 할 수 있다. 농가가 필요로 하는 광범위한 정보의 수집, 저장, 검색 및 보급에 도움이 될 수 있고 새로운 정보서비스를 제공할 수 있다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.