• 제목/요약/키워드: language processing

검색결과 2,669건 처리시간 0.026초

문장-질의 유사성을 이용한 웹 정보 검색의 성능 향상 (Performance Improvement of Web Information Retrieval Using Sentence-Query Similarity)

  • 박의규;나동열;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.406-415
    • /
    • 2005
  • 인터넷의 발전으로 웹 상에 수많은 문서 및 정보가 존재하는 상황에서 사용자가 원하는 정보를 담은 웹 문서를 검색하여 주는 웹 정보 검색 기술은 매우 중요하게 되었다. 본 논문에서는 웹 정보 검색 시스템의 성능 향상에 효과적인 몇 가지 주요한 기술을 제안하였다. 기존 시스템들은 주로 문서와 질의의 유사도를 계산하여 이를 주요 정보로 이용하였다. 그러나 본 논문에서는 여기에서 한 걸음 더 나아가 문서 안의 각 문장들이 질의와 얼마나 유사한가를 계산하여 이를 이용하는 기법을 제안하였다. 이러한 문장-질의 유사도를 성숙된 자연어 처리 기술 없이 근사적으로 계산하는 방법을 소개하였다. 그리고 이계산 작업은 문서 수의 증가에 선형적인 계산량의 증가를 가져 옴을 보임으로써 실용적인 대용량 시스템에서도 사용할 수 있음을 보였다. 그 다음으로 제안된 주요한 기술은 출력 문서의 순위화에 계층적인 개념을 도입하는 것이다. 이 기법을 사용함으로써 상당한 성능 향상을 이룰 수 있음을 보였다. 그 외에도 웹 문서의 특징인 하이퍼 링크 정보와 타이틀 정보를 이용하여 어느 정도의 성능 개선을 가져올 수 있음을 보였다. 이러한 기술들의 타당성을 입증하기 위해 대용량 웹 정보검색 시스템을 개발하고 실험하였다.

관계형 데이터베이스 기반의 XML 응용을 위한, UML 클래스를 이용한 통합 설계 방법론 (A Unified Design Methodology using UML Classes for XML Application based on RDB)

  • 방승윤;주경수
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1105-1112
    • /
    • 2002
  • B2B 전자상거래와 같이 XML을 이용한 정보 교환이 확산되고 있으며 이에 따라 상호 교환되는 정보에 대하여 체계적이며 안정적인 저장관리가 요구되고 있다. 이를 위해 XML 응용과 데이터베이스 연계를 위한 다양한 연구가 관계형 데이터베이스를 중심으로 수행되었다. 그러나 계층구조를 갖는 XML 데이터를 2차원 테이블의 집합인 관계형 정보로 표현하는 관계형 데이터베이스로의 저장에는 본질적인 한계가 있어, 계층적 구조를 2차원 정보로 변환하는 방법에 의해서 각 구조화된 정보를 관계형 데이터베이스로 저장하기 위한 모델링 방안이 요구된다. 양질의 어플리케이션 시스템을 구축하기 위해서는 우선적으로 모델링이 중요하다. 1997년에 OMG는 표준 모델링 언어로 UML를 채택하였고, 이에 따라 UML은 보다 널리 사용될 것이다. 그러므로 효율적인 XML 어플리케이션을 개발하는데 UML에 기반을 둔 설계 방법론이 필요하다고 할 수 있다. 본 논문에서는 UML을 이용한, 관계형 데이터베이스기반의 XML 응용을 위한 통합 설계 방법론을 제안한다. 이를 위하여 먼저 UML을 이용하여 W3C XML schema를 설계하기 위한 XML 모델링 방안을 제시하고, 아울러 교환되는 XML 데이터를 효율적으로 저장하기 위하여 관계형 데이터베이스 스키마 설계를 위한 데이터 모델링 방법을 제안한다.

이미지 캡션 생성을 위한 심층 신경망 모델의 설계 (Design of a Deep Neural Network Model for Image Caption Generation)

  • 김동하;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.203-210
    • /
    • 2017
  • 본 논문에서는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다. 본 모델은 멀티 모달 순환 신경망 모델의 하나로서, 이미지로부터 시각 정보를 추출하는 컨볼루션 신경망 층, 각 단어를 저차원의 특징으로 변환하는 임베딩 층, 캡션 문장 구조를 학습하는 순환 신경망 층, 시각 정보와 언어 정보를 결합하는 멀티 모달 층 등 총 5 개의 계층들로 구성된다. 특히 본 모델에서는 시퀀스 패턴 학습과 모델 전이에 우수한 LSTM 유닛을 이용하여 순환 신경망 층을 구성하며, 캡션 문장 생성을 위한 매 순환 단계마다 이미지의 시각 정보를 이용할 수 있도록 컨볼루션 신경망 층의 출력을 순환 신경망 층의 초기 상태뿐만 아니라 멀티 모달 층의 입력에도 연결하는 구조를 가진다. Flickr8k, Flickr30k, MSCOCO 등의 공개 데이터 집합들을 이용한 다양한 비교 실험들을 통해, 캡션의 정확도와 모델 전이의 효과 면에서 본 논문에서 제시한 멀티 모달 순환 신경망 모델의 높은 성능을 확인할 수 있었다.

기술로드맵핑을 위한 특허정보의 SAO기반 텍스트 마이닝 접근 방법 (An SAO-based Text Mining Approach for Technology Roadmapping Using Patent Information)

  • 최성철;김홍빈;윤장혁
    • 기술혁신연구
    • /
    • 제20권1호
    • /
    • pp.199-234
    • /
    • 2012
  • 기술로드맵 (Technology RoadMap: TRM)은 전략적 기술기획 및 관리를 위한 필수적인 도구이다. 최근 급속한 기술변화와 시장경쟁의 심화로 인해 TRM은 점차 중요시되고 있는데, 이는 TRM이 기업의 전략적 목적과 기술을 연계함으로써 장기적으로 필요한 기술들을 확보하기 위한 일종의 지도 역할을 하기 때문이다. 그러나 TRM을 개발하고 유지하기 위해서는 기술 전문가의 정성적 노력에 따른 많은 비용과 시간이 수반됨으로 인해, 기술문서의 자동화된 분석을 통해 TRM 개발 생산성을 높이는 방법에 대한 연구가 기업과 정부기관들의 최근 주요 관심사 중의 하나이다. 비록 TRM 개발을 위해 키워드 기반의 접근방법 (Keyword-based Patent Analysis)이 제시된 바 있으나, 이 방법은 미리 정의된 키워드의 출현정보에만 기반하므로 기술요소들간의 명시적 연관관계를 담지 못한다. 즉, 키워드 기반의 접근은 기술의 목적, 구성, 효과 (Objective, Structure, Effect: OSE)에 대한 정보를 제공하지 못하기 때문에 기술로드맵핑 시 기술정보의 활용성 측면에서 한계점을 지닌다. 이에, 본 연구는 기능 (Function) 기반의 접근법을 활용한 기술로드맵핑 방법을 제시한다. 기능이란 기술의 OSE 정보를 담고 있으며 Subject-Action-Object (SAO) 구조로 표현될 수 있기 때문에, 본 연구에서 제시되는 방법은 기술문서의 자연어처리분석을 통해 기술의 OSE 정보를 추출하여 TRM을 개발할 수 있도록 한다. 본 연구의 방법을 연구개발 기획단계에 적용함으로써, TRM 개발에 따른 비용과 시간의 절감이 가능하며, 제품이나 기술 OSE에 대한 연구개발 기획전문가의 시야를 넓혀 보다 효과적인 의사결정이 가능할 것으로 기대된다.

  • PDF

대용량 DEM 데이터의 효율적 압축을 위한 DEM_Comp 소프트웨어 개발 (DEM_Comp Software for Effective Compression of Large DEM Data Sets)

  • 강인구;윤홍식;위광재;이동하
    • 한국측량학회지
    • /
    • 제28권2호
    • /
    • pp.265-271
    • /
    • 2010
  • 본 논문에서는 대용량의 수치표고모델(DEM) 데이터의 효율적인 압축을 위해 허프만 코딩과 Lempel-Ziv-Welch 압축방법을 기반으로 하는 새로운 DEM 압축 소프트웨어인 DEM_Comp를 개발하였다. DEM_Comp의 개발을 위해서 $C^{++}$ 언어를 이용하였으며, 모든 Window 플랫폼에서 사용이 가능하도록 하였다. 개발된 소프트웨어의 성능을 평가하기 위해 다양한 지형의 형태를 가지는 DEM에 대해 압축을 수행하고, 출력파일의 용량에 따른 압축효율을 평가하였다. 최근 새로운 지형데이터 취득장비인 LiDAR와 SAR 등에 의해 고해상도의 DEM의 활용이 급격하게 증가하고 있어, 데이터의 저장용량과 전송대역폭을 감소시킬 수 있는 DEM 압축기술이 매우 유용하게 이용되고 있다. 일반적으로 데이터 압축기술은 i) 데이터 사이의 관계를 분석하고, ii) 분석 결과에 따라 압축 및 저장기술을 결정하는 2부분으로 구성되는데, DEM_Comp에서는 정규격자, Lempel-Ziv 압축방법, 허프만 코딩의 3단계 압축 알고리즘을 통해 DEM이 압축된다. DEM_Comp의 압축효율 실험 결과 전처리만 수행하였을 경우 지형의 기복과 상관없이 압축효율은 약 83% 정도를 나타내었지만, 3단계의 압축 알고리즘이 완료된 경우에는 압축효율이 97%까지 증가하는 것으로 나타났다. 이러한 수치는 일반적인 상업용 압축 소프트웨어들과 비교하여 약 14% 정도의 압축효율이 향상되었음을 나타낸다. 이에 따라 본 연구에서 개발된 DEM_Comp S/W를 이용하면 대용량의 고해상도 DEM의 관리, 저장, 배포를 보다 효율적으로 수행할 수 있을 것으로 판단된다.

음악의 인지기술과 학습 기술과의 관계 (Relationship between Music Cognitive Skills and Academic Skills)

  • 정현주
    • 인간행동과 음악연구
    • /
    • 제3권1호
    • /
    • pp.63-76
    • /
    • 2006
  • 1980년대 이후 음악과 학습에 관한 많은 연구들은 다양한 학습 기술에 필요한 인지기술의 영역에 대한 음악의 효과성을 계속해서 입증해 오고 있다. 음악과 학습에 관한 많은 연구들은 주로 음악의 인지기술과 학습의 세부적 기술들을 개별적으로 연관 지어 다루고 있으며, 음악이 비음악적 능력에 어떠한 영향을 미치는 지에 관심을 두고 있다. 이에 본 연구는 인지 학습기술과 음악적 인지기술과의 상관관계를 설명하고 있는 다양한 이론 및 연구들을 소개하고, 이를 통해 음악이 비음악적 능력 중 학습 기술에 어떠한 영향을 미치는 지를 정리해 보고자 하였다. 먼저 음악적 능력과 공간 지각력과의 상관관계를 설명하는 두 가지 이론으로서, "신경적 연계성(neural theories)" 이론과 "근접적 전이(near transfer)" 이론에 대해 살펴보았다. 이를 통해 음악적 기술과 공간적 기술을 담당하는 대뇌의 신경망 구조에서 음악 정보를 처리하는 과정이 어떻게 공간적-시간적 정보처리 과정과 연계되는 지를 설명하였다. 또한 음악이 학습과정에 필요한 주의력, 관찰력, 독립적 사고, 문제해결력, 비판적 사고 등을 강화시킨다고 제안하는 "동기이론"을 소개하였다. 이러한 이론들에 근거하여 음악과 학습기술과의 상관관계를 메타분석한 연구들을 살펴보았다. 많은 연구들이 음악기술과 학습기술의 상관관계는 물론 유의미한 인과 관계가 있음을 보여주었으며 이러한 결과들은 음악적 훈련 과정에서 습득되는 음악의 공간적, 시간적 개념이 학습기술에 긍정적인 영향을 미친다는 점을 지지한다. 다양한 학습기술에서도 공간 지각 능력을 주로 사용하는 수학과 읽기에 관한 연구가 많았는데, 특히 수학적 개념 중에서 분수나 집합 개념과 같은 추상적 개념들이 가장 높은 상관관계가 있었으며 읽기 능력에서는 시간적 개념에 근거한 단어 나열, 문자로 상징된 언어를 해석(decode)하는 기술이 강화된다는 점을 보여주었다. 음악과 학습과의 관계를 설명한 많은 연구들은 음악의 지각인지 기술이 다른 학습 분야에 전이된다는 사실을 이론적으로 지지하며, 또한 이러한 현상을 설명하는 세 가지 가설은 구조화된 음악활동이 학습 현장에 있는 아동들에게 효율적인 치료 교육적 개입이 될 수 있다는 근거를 제공할 수 있을 것이다.

  • PDF

언어창조성과 춈스키 문법 비판 (Linguistic Productivity and Chomskyan Grammar: A Critique)

  • Bong-rae Seok
    • 인문언어
    • /
    • 제1권1호
    • /
    • pp.235-251
    • /
    • 2001
  • 춈스키의 언어 이론에 따르면, 인간은 무한한 수의 어법에 맞는 문장을 말하고 이해할 수 있다. 언어 창조성이라고 하는 이러한 능력은 이상화된 언어 능력을 전제한다. 사람들이 실제로 언어를 사용하여 의사 소통을 할 때는 단기 기억이나 주의 집중이라는 인지 능력의 한계로 인해 이러한 창조성에 많은 제약이 따른다. 하지만 언어의 창조성은 이러한 언어 실행 능력과는 관계없는 순수 언어 능력을 고려할 때 이해된다고 춈스키는 주장한다. 충분한 시간과 기억 능력이 보장된다면, 인간 언어능력이 제약될 이유가 없다. 언어 창조성은 마치 덧셈을 하는 인간의 능력과 비교된다. 국민학교 산수를 공부한 학생은 덧셈을 할 수 있다. 덧셈 능력이 인간의 마음에 자리를 잡으면 어떤 숫자를 놓고도 덧셈을 할 수 있다. 물론 실제로 엄청난 숫자를 덧셈하는 데는 문제가 많다. 하지만 충분한 시간과 연필과 종이가 있다면 원칙상 어떤 숫자를 놓고도 덧셈을 할 수 있다. 본 논문에서는 필자는 이러한 언어 능력이 필요 이상 이상화되었음을 중앙 삽입형 문장들을 고찰함으로써 지적하고자 한다. 중앙 삽입형 문장 (center embedded sentences) 또는 양파 문장 (onion sentences) 들은 이상화된 언어능력의 측면에서는 문법적일지 모르지만 실제로 사람들은 이 문장들을 거의 사용하고 있지 않으며 거의 이해하고 있지도 않는 문장들이다. 그 이유는, 춈스키에 의하면, 비언어적 인지 능력의 제약 때문이다. 기억력이나 주의 집중력이 모자라서 그런 문장을 잘 쓰지 않지만 그런 조건이 따라 주면 그런 문장들이 무엇을 뜻하는 지 다 알 수 있다는 것이다. 따라서 이 문법적인 문장을 사용하지 않는다는 것이 언어 창조성에 대한도전이 될 수 없다고 그는 주장한다. 필자는 이 문장들이 단순한 단기 기억이나 주의 집중의 문제가 아니라 실제로 인간 언어 능력의 제약을 보여 줄 수 있는 인지적 조건들을 보여 주고 있다고 생각한다. 따라서 인간의 언어 능력이 무한수의 문장을 구성하고 이해할 수 있다는 주장은 언어 능력의 인지적 제약을 고려하지 못한 주장이다.

  • PDF

GIS 기반의 유역물수지 분석모형 개발 (Development of a GIS-Based Basin Water Balance Analysis Model)

  • 황의호;김계현;박진혁;이근상
    • 한국지리정보학회지
    • /
    • 제7권4호
    • /
    • pp.34-45
    • /
    • 2004
  • 기존 새만금유역의 물수지분석은 유역전체를 단일유역으로 단순화하여 가지야마식으로 산출한 유출량을 기초로 행해졌으나, 새만금유역은 용수공급체계가 복잡 다양하고 향후 임의의 지점에서 물수지요소가 변경될 때 탄력적으로 적용하기에 어려움이 있다. 본 연구에서는 새만금유역에 적합한 물수지분석모형 적용을 위하여 수개의 물수지 단위소유역으로 구분하고 각각의 소유역별 수자원의 개발과 이용에 대해 물수지를 상세분석할 수 있는 GIS 기반의 유역물수지모형을 개발하였다. 유역의 물수지 상세 분석을 위하여 UML 다이어그램을 이용한 물수지모형의 추상 및 개념 설계, 용수공급체계 반영을 위한 하천망 구성, GIS 기반의 전처리 및 후처리 모듈 개발, 모형 보정 및 검증 등을 포함하는 연구를 수행하였다. 이러한 물수지분석모형은 수자원의 유출과정 해석을 통해 유역내 효율적인 수자원관리 방안을 수립할 수 있도록 지원이 가능하며, 사용자로 하여금 유역의 체계적인 수자원관리에 있어 수작업을 최소화하고 다원화된 모델 분석체계를 지원함으로써 보다 편리하고, 합리적인 수자원관리방안 수립에 지원이 가능할 것으로 사료된다.

  • PDF

모델기반 컴포넌트 개발방법론의 지원을 위한 추상컴포넌트 자동 추출기법 (Automatic Extraction of Abstract Components for supporting Model-driven Development of Components)

  • 윤상권;박민규;최윤자
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권8호
    • /
    • pp.543-554
    • /
    • 2013
  • 모델 중심 개발 방법론은 시스템 개발의 추상화 수준을 높임으로써 구현 세부 사항과는 독립적으로 중요한 요구사항과 설계 문제 등을 개발 단계 초기에 점검할 수 있도록 해준다. 그러나 현재까지 많은 소프트웨어가 코드중심, 상향식 개발방식을 통해 개발되어 왔고, 따라서 적절한 도구의 지원 없이는 이러한 모델 중심 개발 방법을 도입하는 것이 쉽지 않다. 현재 코드 중심으로 개발된 시스템에 모델 중심 개발 방법론을 도입할 수 있도록 코드로부터 모델을 생성하는 역공학적인 접근방법이 연구되고 있으나 대부분 코드에서 일차적인 모델을 추출하는 데 그치고 있다. 하지만 추상컴포넌트 개념을 이용하면 이러한 모델을 일차적으로 추출에 그치지 않고, 추출된 일차 모델을 상위수준의 추상화 단계로 연속적으로 추출할 수 있다. 본 연구에서는 이러한 추상컴포넌트의 연속적인 추출 과정 중 첫 번째 단계인 코드로부터 최하위 기반(base) 추상컴포넌트를 추출하는 과정을 자동화할 수 있는 기법을 제안하고, 실제 도구 구현을 통해 그 기법의 타당성을 평가한다. 실험 대상으로 선택된 코드는 무선센서 네트워크 운영체제인 TinyOS의 소스 코드이며, 해당 소스 코드는 nesC 언어로 작성되었다.

Generating Motion- and Distortion-Free Local Field Map Using 3D Ultrashort TE MRI: Comparison with T2* Mapping

  • Jeong, Kyle;Thapa, Bijaya;Han, Bong-Soo;Kim, Daehong;Jeong, Eun-Kee
    • Investigative Magnetic Resonance Imaging
    • /
    • 제23권4호
    • /
    • pp.328-340
    • /
    • 2019
  • Purpose: To generate phase images with free of motion-induced artifact and susceptibility-induced distortion using 3D radial ultrashort TE (UTE) MRI. Materials and Methods: The field map was theoretically derived by solving Laplace's equation with appropriate boundary conditions, and used to simulate the image distortion in conventional spin-warp MRI. Manufacturer's 3D radial imaging sequence was modified to acquire maximum number of radial spokes in a given time, by removing the spoiler gradient and sampling during both rampup and rampdown gradient. Spoke direction randomly jumps so that a readout gradient acts as a spoiling gradient for the previous spoke. The custom raw data was reconstructed using a homemade image reconstruction software, which is programmed using Python language. The method was applied to a phantom and in-vivo human brain and abdomen. The performance of UTE was compared with 3D GRE for phase mapping. Local phase mapping was compared with T2* mapping using UTE. Results: The phase map using UTE mimics true field-map, which was theoretically calculated, while that using 3D GRE revealed both motion-induced artifact and geometric distortion. Motion-free imaging is particularly crucial for application of phase mapping for abdomen MRI, which typically requires multiple breathold acquisitions. The air pockets, which are caught within the digestive pathway, induce spatially varying and large background field. T2* map, that was calculated using UTE data, suffers from non-uniform T2* value due to this background field, while does not appear in the local phase map of UTE data. Conclusion: Phase map generated using UTE mimicked the true field map even when non-zero susceptibility objects were present. Phase map generated by 3D GRE did not accurately mimic the true field map when non-zero susceptibility objects were present due to the significant field distortion as theoretically calculated. Nonetheless, UTE allows for phase maps to be free of susceptibility-induced distortion without the use of any post-processing protocols.