• 제목/요약/키워드: Paper Retrieval

검색결과 2,125건 처리시간 0.03초

웹 크롤링 이용한 크레페 검색 시스템 설계 (Crepe Search System Design using Web Crawling)

  • 김효종;한군희;신승수
    • 디지털융복합연구
    • /
    • 제15권11호
    • /
    • pp.261-269
    • /
    • 2017
  • 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용한 방식이 아닌 단일 네트워크에서 정보의 최신성을 보장하기 위해 데이터베이스 서버를 사용하지 않고 실시간으로 웹에 접속하여 정보를 불러오는 방식을 사용한 검색 시스템을 설계하는 것이다. 연구의 방법은 크레페 시스템에서 신속하고 정확한 인물과 키워드 검색을 할 수 있는 시스템을 설계하고 분석한다. 크레페 서버는 본문 태그 매칭 변환 과정은 사용자가 정보를 등록할 경우 글자체, 글자 크기, 색상등과 같이 사용자마다 여러 스타일이 적용되어 그 자체가 정보가 되기 때문에 모든 정보를 그대로 저장하게 된다. 크레페 서버는 본문 태그 매칭 문제점이 발생되지 않는다. 그러나 크레페 검색 시스템을 실행할 때에는 사용자들의 스타일 및 특성을 정형화할 수 없다. 이러한 문제점을 html_img_parser 함수와 Go언어의 html 파서 패키지를 사용하면 해결할 수 있다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색, 수집한 빅 데이터를 다양한 응용 분야에 활용될 수 있을 것이다.

사이트 포트폴리오 구성을 위한 사용자 관점의 웹사이트 클러스터링 (User Perspective Website Clustering for Site Portfolio Construction)

  • 김민규;김남규
    • 인터넷정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.59-69
    • /
    • 2015
  • 많은 사용자들이 인터넷을 통해 정보검색, 쇼핑, 커뮤니티 참여 등의 일상 생활을 영위하고 있으며, 이들 인터넷 사용자들로부터 수익을 창출하기 위한 웹사이트들의 경쟁은 점점 치열해지고 있다. 각 사이트의 운영자 및 마케팅 담당자들은 경쟁 우위를 차지하기 위해 다양한 전략을 수립하고 있으며, 이 과정에서 타 사이트와의 제휴가 이루어지는 경우도 비일비재하다. 이는 타 사이트와의 제휴를 통해 타사의 고객 정보를 부분적으로 공유할 수 있을 뿐 아니라 포인트 공유, 상호 추천 등 보다 다양한 전략의 운용이 가능하기 때문이다. 제휴를 통해 긍정적인 성과를 거두기 위해서는 현재 자사의 고객은 아니지만 미래의 자사 고객이 될 수 있는 잠재 고객을 다수 확보하고 있는 타 사이트를 제휴 대상으로 선정하는 것이 매우 중요하다. 하지만 많은 사이트 중 이와 같이 자사에 도움이 되는 제휴 대상 사이트를 식별하는 것은 쉬운 일이 아니다. 따라서 본 논문에서는 방문 고객의 유사성 관점에서 사이트 클러스터링을 수행하고, 이에 근거하여 유사 고객군을 공유하고 있는 제휴 사이트 대상을 식별할 수 있는 방안을 제시한다. 또한 제안 방법론의 실무적용 가능성을 평가하기 위해, 웹사이트 150,295개에 대한 패널 5,000명의 실제 방문 기록 약 1억 4천만 건에 대해 실험을 수행하고 그 결과를 제시한다.

교육용 비디오의 ToC 자동 생성 방법 (A Method of Generating Table-of-Contents for Educational Video)

  • 이광국;강정원;김재곤;김회율
    • 방송공학회논문지
    • /
    • 제11권1호
    • /
    • pp.28-41
    • /
    • 2006
  • 양방향 맞춤형 방송의 실현으로 인해 비디오의 내용을 자동으로 분석하여 그 구조를 기술하거나 요약을 생성하는 등의 내용 기반 비디오 분석 기술의 필요성이 요구되고 있다. 본 논문에서는 온라인에서 수요가 높고 특히 맞춤형 방송에 적합한 방송 콘텐츠인 교육용 비디오의 ToC를 자동으로 생성하기 위한 방법을 제안한다. 제안한 ToC 생성 방법은 씬 분할과 씬 서술의 두 단계로 이루어져 있다. 씬 분할 단계에서는 삿 분할을 수행한 후 샷 간의 연결관계 분석을 통해 입력 영상을 씬 단위로 분할하게 된다. 씬 서술 단계에서는 분할된 각 씬이 장면 분류, 자막 검출, 화자 인식 등에 의해 그 내용이 자동으로 서술된다. 제안된 방법을 통해 생성된 ToC는 씬과 샷의 계층 구조를 통해 비디오의 구성을 표현하고, 검출된 여러 특정을 이용해 각 씬과 샷의 내용을 서술함으로써 사용자가 비디오의 내용을 한눈에 알아볼 수 있고 원하는 내용에 손쉽게 접근할 수 있도록 도와줄 수 있다. 또 보다 상세한 ToC가 요구되는 경우에는 유용한 정보들이 포함되어 있는 초기 형태의 ToC로써 이용되어 수작업에 의한 ToC 생성에 필요한 시간을 효과적으로 줄이는 것이 가능하다. 실험을 통해 제안한 방법으로 여러 개의 교육용 비디오에서 ToC를 효과적으로 생성될 수 있음을 확인하였다.

ISAAC :문장분석용 통합시스템 및 사용자 인터페이스 (ISAAC : An Integrated System with User Interface for Sentence Analysis)

  • 김곤;김민찬;배재학;이종혁
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.107-116
    • /
    • 2004
  • 본 논문에서 소개할 ISAAC(An Interface for Sentence Analysis & Abstraction with Cogitation)은 문장분석용 통합 사용자 인터페이스를 제공한다. 이 시스템에는 문장 분석 시 필요한 다양한 언어학적 도구와 자원이 통합되어 있다. 문장분석에 가용한 도구와 자원은 대부분 독립적으로 개발 축적된 것들이다. 이들을 활용한 문장분석의 경우, 단계적으로 얻어지는 문장분석 정보들을 문장분석가가 관리, 처리하기에는 어려움이 있다. 이에 본 논문에서는 가용 도구와 자원들을 통합하고, 각 기능들에 대해 사용자 중심의 일관된 인터페이스를 ISAAC이 제공하도록 하였다. 문장분석 처리과정은 총 14단계로 나눌 수 있었다. ISAAC에서는 이 단계들을 독립적인 기능을 가지는 4개의 모듈 - $\cicled1$문장의 통사구조 분석, $\cicled2$원형어휘 판별, $\cicled3$Roget 시소러스 범주정보 검색, $\cicled4$OfN(Ontology for Narratives) 범주정보 검색 - 로 처리하게 되어 있다. 따라서, ISAAC을 활용한 문장분석의 경우, 전체 14단계의 처리과정이 4개의 단계로 줄어든다. 이것은 문장분석가의 작업효율을 3.5배 이상 향상시킨 수 있음을 의미한다. 뿐만 아니라, 각 단계별 처리에 필요한 지루한 정보기록 이전작업을 ISAAC이 담당하게 함으로써 문장분석정보의 정확성도 높일 것으로 예상할 수 있다.

아리랑위성 5호의 GPS 전파 엄폐 자료처리시스템 개발을 위한 전리층 전자밀도 산출 (RETRIEVAL OF ELECTRON DENSITY PROFILE FOR KOMPSAT-5 GPS RADIO OCCULTATION DATA PROCESSING SYSTEM)

  • 이우경;정종균;조성기;박종욱;조정호;윤재철;이진호;천용식;이상률
    • Journal of Astronomy and Space Sciences
    • /
    • 제24권4호
    • /
    • pp.297-308
    • /
    • 2007
  • 2010년에 발사될 예정인 아리랑위성 5호의 부 탑재체인 AOPOD(Atmosphere Occultation and Precision Orbit Determination) 시스템은 GPS(Global Positioning System) 전파 엄폐(radio occultation) 자료를 제공한다. 이 논문에서는 아리랑위성 5호 궤도에서 발생하는 GPS 전파 엄폐의 발생 빈도 및 분포를 시뮬레이션하고, 현재 천문연구원에서 개발 중인 GPS 전파 엄폐 자료처리시스템인 KROPS(KASI Radio Occultation Processing System)를 사용한 전리층 전자밀도 산출결과를 제시하였다. 전자밀도를 산출하기 위해 2004년 6월 20일에 발생한 CHAMP(CHAllenging Minisatellite Payload) 위성의 GPS 전파 엄폐 관측값을 사용하였고 산출된 결과는 IRI(International Reference Ionosphere) - 2001 모델과 CHAMP 위성의 랑뮈어 탐침기(Planar Langmuir Probe) 및 이온존데 간과 비교하였다. 산출된 전자밀도를 이온존데 값과 비교했을 때, $F_2$층 최대전자밀도 고도인 $hmF_2$에서 약 5km, $F_2$층 최대전자밀도인 $NmF_2$에서 약 $3{\times}10^{10}el/m^3$의 차이를 보였으며, 랑뮈어 탐침기 값과 비교하여 고도 365.6km에서 두 값 모두 $1.6{\times}10^{11}el/m^3$로 일치하였다.

저작권보호를 위한 내용기반 비디오 복사검출의 비디오 정합 알고리즘 (Video Matching Algorithm of Content-Based Video Copy Detection for Copyright Protection)

  • 현기호
    • 한국멀티미디어학회논문지
    • /
    • 제11권3호
    • /
    • pp.315-322
    • /
    • 2008
  • 비디오 데이터베이스에서 복사본의 위치를 검출하기 위해서는 비디오의 특징(signature)이 비디오의 재편집(reediting), 채널 잡음, 시간적인 프레임 율(frame rate) 변화에 강한 특성을 지녀야 한다. 여러 가지 시그네쳐중 하나인 오디널(ordinal) 시그네쳐는 평균 명암도 값을 구하는 고정 윈도우(fixed window) $N{\times}N$의 크기에 따라 프레임의 공간적인 특징을 나타내기 어렵다. 본 논문은 인터넷상에서 이미 배포된 비디오, 위조된 비디오의 검출을 위해 키 프레임으로 정합하지 않고 연속적인 비디오 프레임에서 공간의 변화특성인 기존의 오디널을 개선한 변형된 robust 오디널 특징을 제안하였다. Robust 오디널은 2차원 벡터 구조를 가지고 있어 비디오의 잡음과 프레임 율의 변화에 강한 특성을 가지고 있으며, 검색공간인 R-트리 공간에서 MBR 형태로 표현될 수 있다. 또한 비디오 복사 검출에 필수적인 대용량 데이터베이스 검색에 적합한 R-트리 구조를 이용하여 정확히 정합되는 프레임의 위치를 찾아내고, n차원 입력의 구조를 가지고 있는 R-트리의 입력으로 robust 오디널 특징이 적합하게 사용되었다. 실험결과 비디오 정합율이 향상되고 대용량 데이터베이스에 알맞은 특징을 가지고 있음을 확인하였다.

  • PDF

퍼지관계 이론에 의한 집단지성의 도출 (Elicitation of Collective Intelligence by Fuzzy Relational Methodology)

  • 주영도
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.17-35
    • /
    • 2011
  • 집단지성은 개인들의 협업과 경쟁을 통한 공통이해에 기반한 생산으로서 대중의 지혜를 창출하는 개별 지성들의 통합체라고 할 수 있다. 집단지성의 활용은 공개와 공유 그리고 참여의 기본 철학을 갖고 있는 웹 2.0의 주요한 설계원칙으로 자리잡은 후로, 이와 관련된 연구가 다양하게 진행되고 있다. 이 논문은 개인들간의 관계와 상호작용에 대한 인식을 기반으로 집단지성을 밝혀보려는 방법론을 제안한다. 응용대상은 정보검색과 분류 분야이며, 개인지성의 표현과 도출을 위해 개인 컨스트럭트 이론과 지식 그리드 기법에 퍼지관계이론을 적용한다. 개인의 개별적인 지성은 헤세 다이어그램의 형태로 구현된 지성 구조로 표현하여 내재된 지식적인 의미를 분석한다. 논문의 목적인 집단지성의 도출은 개인지성들의 비교를 통해 상호간 공유와 일치를 찾아낼 수 있는 유사성 이론의 도입에 의해 이루어진다. 제안하는 방법론은 퍼지관계 이론 및 퍼지 매칭 알고리즘을 기반으로 실험 데이터로부터 유사성을 측정하고, 개인지성들을 대표할 수 있는 최적의 집단지성을 이끌어내고자 한다.

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

텍스트 마이닝 기법을 이용한 컴퓨터공학 및 정보학 분야 연구동향 조사: DBLP의 학술회의 데이터를 중심으로 (Investigation of Topic Trends in Computer and Information Science by Text Mining Techniques: From the Perspective of Conferences in DBLP)

  • 김수연;송성전;송민
    • 정보관리학회지
    • /
    • 제32권1호
    • /
    • pp.135-152
    • /
    • 2015
  • 이 논문의 연구목적은 컴퓨터공학 및 정보학 관련 연구동향을 분석하는 것이다. 이를 위해 텍스트마이닝 기법을 이용하여 DBLP(Digital Bibliography & Library Project)의 학술회의 데이터를 분석하였다. 대부분의 연구동향 분석 연구가 계량서지학적 연구방법을 사용한 것과 달리 이 논문에서는 LDA(Latent Dirichlet Allocation) 기반 다항분포 토픽모델링 기법을 이용하였다. 가능하면 컴퓨터공학 및 정보학과 관련된 광범위한 자료를 수집하기 위해서 DBLP에서 컴퓨터공학 및 정보학과 관련된 353개의 학술회의를 수집 대상으로 하였으며 2000년부터 2011년 기간 동안 출판된 236,170개의 문헌을 수집하였다. 토픽모델링 결과와 주제별 문헌 수, 주제별 학술회의 수를 조사하여 2000년부터 2011년 사이의 주제별 상위 저자와 주제별 상위 학술회의를 제시하였다. 주제동향 분석 결과 네트워크 관련 연구 주제 분야는 성장 패턴을 보였으며, 인공지능, 데이터마이닝 관련 연구 분야는 쇠퇴 패턴을 나타냈고, 지속 패턴을 보인 주제는 웹, 텍스트마이닝, 정보검색, 데이터베이스 관련 연구 주제이며, HCI, 정보시스템, 멀티미디어 시스템 관련 연구 주제 분야는 성장과 하락을 지속하는 변동 패턴을 나타냈다.

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.