• 제목/요약/키워드: 유사 키워드

검색결과 312건 처리시간 0.029초

키워드 질의를 이용한 순위화된 웹 서비스 검색 기법 (Ranked Web Service Retrieval by Keyword Search)

  • 이경하;이규철;김경옥
    • 한국전자거래학회지
    • /
    • 제13권2호
    • /
    • pp.213-223
    • /
    • 2008
  • 오늘날 XML 웹 서비스의 보급에 따라 많은 양의 서비스로부터 적합한 서비스들을 발견해 내는 문제는 중요한 문제로 부각되고 있다[7, 24]. 본 논문에서는 의미론적인 서비스 발견을 행하는 기존 연구와 다르게 구문적인 방법으로 서비스 발견 문제에 접근한다. 우리는 웹서비스 발견의 문제를 레지스트리에 저장된 웹 서비스 설명 정보들에 대한 정보 검색의 문제로 인식하고, 웹 서비스와 질의의 모델링과 유사도 측정을 통한 검색 기법을 고안하였다. 이 서비스 설명정보는 특정 구조를 가지는 XML 문서이며, 본 논문에서는 이를 대상으로 한 키워드 질의를 통해 서비스 발견을 수행한다. 본 논문의 특징은 다음과 같다. 사용자는 키워드 질의를 통해 순위화된 서비스 검색 결과를 제공받을 수 있다. 서비스 검색에 있어 기존 기법들과 달리 UDDI 레지스트리에 저장된 서비스 설명 정보와 WSDL 서비스 정의 모두를 활용한다. 또한 시스템은 기존 관계형 DBMS의 기능을 이용하여 구현됨으로써 의미적인 서비스 발견에 비해 구현이 용이하고, DBMS의 여러 장점을 취할 수 있다.

  • PDF

동적분류에 의한 주제별 웹 검색엔진의 설계 및 구현 (Design and Implementation of Web Directory Engine Using Dynamic Category Hierarchy)

  • 최범기;박선;박태수;송재원;이주홍
    • 인터넷정보학회논문지
    • /
    • 제7권2호
    • /
    • pp.71-80
    • /
    • 2006
  • 웹 검색엔진의 검색방법에는 키워드검색방법과 주제별검색방법이 있다. 키워드검색은 재현율(recoil)이 높지만 검색결과가 너무 많이 나오기 때문에 원하는 검색결과를 찾는 것이 어렵다. 주제별검색 역시 찾는 문서의 해당 주제가 모호하거나 주제를 정확하게 알지 못하면 문서를 찾지 못하는 경우가 있다. 즉, 검색결과의 정확율(precision)는 높으나 재현율이 떨어진다. 본 논문은 주제별검색의 문제점을 해결하기 위해서 주제와 키워드간의 관계를 퍼지논리로 정량적으로 계산하고, 이를 바탕으로 주제간의 함의(implication)관계를 유도하여 동적인 분류체계를 구성하는 새로운 웹 검색엔진을 설계하고 구현하였다. 구현된 검색엔진은 분류간의 함의관계를 유사한 하위주제로서 간주함으로써 주제별검색 결과의 재현율을 높일 수 있다.

  • PDF

공격키워드 사전 및 TF-IDF를 적용한 침입탐지 정탐률 향상 연구 (A Study on Improving Precision Rate in Security Events Using Cyber Attack Dictionary and TF-IDF)

  • 김종관;김명수
    • 융합보안논문지
    • /
    • 제22권2호
    • /
    • pp.9-19
    • /
    • 2022
  • 최근, 디지털전환의 확대로 사이버공격의 위협에 더욱 더 노출되고 있으며, 각 기관 및 기업은 공격이 유입되는 것을 막기 위해 시그니처 기반의 침입차단시스템을 네트워크 가장 앞단에 운영중에 있다. 그러나, 관련된 ICT시스템에 적절한 서비스를 제공하기 위해 엄격한 차단규칙을 적용할 수 없어 많은 오이벤트가 발생되고, 운영효율이 저하되고 있다. 따라서, 공격탐지 정확도 향상을 위하여 인공지능을 이용한 많은 연구과제가 수행되고 있다. 대부분의 논문은 정해진 연구용 데이터셋을 이용하여 수행하였지만, 실제 네트워크에서는 연구용 학습데이터셋과는 다른 로그를 이용해야만 하기 때문에 실제 시스템에서는 사용사례는 많지 않다. 본 논문에서는 실제 시스템에서 수집한 보안이벤트 로그에 대하여 주요 공격키워드를 분류하고, 주요 키워드별로 가중치를 부과, TF-IDF를 이용하여 유사도 검사를 수행후 실제 공격여부를 판단하는 기법에 대하여 제안하고자 한다.

온·오프라인 댓글 분석이 활용된 Word2Vec 기반 상품기획 모델연구 (A Study on the Product Planning Model based on Word2Vec using On-offline Comment Analysis)

  • 안영휘;정진영;박구락
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.79-80
    • /
    • 2021
  • 인터넷은 우리 경제를 디지털 경제로 변화시키며 전자상거래도 증가하고 있다. 따라서 구매자가 전자상거래에서 남기는 긍정적인, 부정적인 상품평은 상품기획의 주요 정보가 될 수 있다. 본 논문에서는 버티컬 무소음 마우스 10,000개에 대한 정형화된 데이터셋을 Word2Vec을 이용하여 유사도 분석, 온라인 상품평 빈도분석 상위 50개 단어를 제시하여 실제 상품을 사용한 후 설문조사 시행을 하였다. 온라인 상품평 유사도 분석결과 클릭 키워드에 대한 장점으로 통증(.986), 디자인(.982)가 분석되었으며 단점은 적응(.866), 불편(.854)이었다. 오프라인 상품평에서는 장점으로 디자인(17명), 단점으로 불편(11명)이었다. 또한 온라인과 오프라인의 상품평을 비교함으로써 구매자의 긍정, 부정의 의미를 교차 확인하여 유의미한 정보를 제시 하였다고 볼수 있다. 따라서 본 연구에서 제시하는 상품기획 프로세스를 신상품 개발 및 기존 상품의 개선 전략으로 적용할 수 있겠다.

  • PDF

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 (Translation Pre-processing Technique for Improving Analysis Performance of Korean News)

  • 이지민;정다운;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

ESG 보고서의 텍스트 분석을 이용한 ESG 활동 탐색 -중국 상장 제조 기업을 대상으로- (Exploring ESG Activities Using Text Analysis of ESG Reports -A Case of Chinese Listed Manufacturing Companies-)

  • 진웅철;백승익;손유봉;김향단
    • 서비스연구
    • /
    • 제14권2호
    • /
    • pp.18-36
    • /
    • 2024
  • 본 연구는 글로벌 경제 시장에서 중국의 제조 기업들이 동적역량을 기반으로 어떠한 ESG 활동을 수행하고 있으며 그 활동에는 어떠한 차이가 있는가를 분석하였다. 상하이와 선전 증권 거래소 (Shanghai & Shenzhen Stock Exchange)에서 151개 중국 상장 제조 기업들의 ESG 연례 보고서와 상하이 화정 지표 정보 회사(CSI, China Securities Index Company)의 ESG 지표를 데이터로 사용하였다. 연구 분석에는 TensorFlow-BERT 모델과 코사인 유사도를 사용하여 환경, 사회, 지배구조로 구분된 ESG 키워드를 분류하였고 이를 기반으로 다음 세가지의 연구 질문을 구성하였다. 첫번째는 ESG 점수가 높은 기업(TOP-25)과 낮은 기업(BOT-25)을 구분하여 이 기업들 사이의 ESG 활동에는 어떠한 차이가 있는지를 확인하였으며, 두 번째는 ESG 점수가 높은 기업만을 중심으로 10년간(2010~2019년)의 ESG 활동에는 어떠한 변화가 있는지도 확인하였다. 그 결과 ESG 점수가 높은 기업과 낮은 기업간의 ESG 활동에는 유의한 차이를 보였으며, TOP-25기업의 연도별 활동 변화 추적에서는 ESG 활동의 모든 부분에서 차이를 보이지 않은 것으로 나타났다. 세번째 연구에서는 연도별로 작성된 각 항목별 E, S, G 키워드에 대하여 소셜 네트워크 분석을 진행하였다. 동시발생행렬(Co-occurance matrix) 기법을 통해 기업들의 ESG활동을 4사분면 그래프로 시각화하였으며 이를 바탕으로 ESG활동에 대한 향후 방향을 제시하였다.

구조와 내용 유사도에 기반한 XML 웹 문서 검색시스템 구축 (An Implementation of XML document searching system based on Structure and Semantics Similarity)

  • 박우창;서여진
    • 인터넷정보학회논문지
    • /
    • 제6권2호
    • /
    • pp.99-115
    • /
    • 2005
  • XML은 인터넷상에서 데이터 표현과 변환을 위한 표준이며, 이러한 XML 문서에서 필요한 정보를 찾아내기 위해 XML 문서 검색 시스템이 필요하다. 본 연구는 이러한 필요성에 기반을 두어 XML 구조를 최대한 활용하여, 주어진 XML 문서에 대해 구조와 내용이 가장 가까운 문서들을 찾아내는 검색 시스템을 개발하였다. 검색 메트릭은 XML 문서들 중 각 태그의 이름에 대한 유사도, 각 태그가 포함하는 값의 유사도와 태그 간 구조에 대한 유사도를 모두 고려하며, 검색 후 유사도의 결과 값에 따라 검색 결과를 순위화 하여 보여준다. 검색 방법은 전통적인 키워드 검색 방식, 태그와 값을 입력하여 검색할 수 있는 방식, XML 문서를 입력하여 검색하는 세 가지 질의 방식을 제공함으로서 사용자들의 기호에 따라 원하는 방식을 골라 검색할 수 있도록 구성하여 시스템의 유용성을 높였다. 개발된 XML 문서 검색 시스템은 INEX에서 제공된 XML 문서들을 대상으로 하여 테스트하였다.

  • PDF

웹마이닝을 활용한 사이클웨어 소비자 인식 분석 (Analysis of Consumer Awareness of Cycling Wear Using Web Mining)

  • 김춘정;이은주
    • 한국산학기술학회논문지
    • /
    • 제19권5호
    • /
    • pp.640-649
    • /
    • 2018
  • 본 연구는 빅데이터 분석방법 중 하나인 웹마이닝을 이용하여 사이클웨어의 요구성능 및 착용 현황 및 소비자 감성을 분석하였다. 이를 위해 네이버 카페인 '자전거로 출퇴근하는 사람들'을 대상으로 2006년~2017년 기간 동안 사이클웨어와 관련 있는 게시글과 댓글을 R 패키지를 사용하여 크롤링하였다. 수집된 데이터는 데이터 전처리 과정을 거쳐 선별된 15,321건의 문서를 데이터를 분석에 사용하였다. 추출된 데이터에서 텍스트는 한국어형태소분석기(KoNLP)를 사용하여 키워드를 추출한 후 TDM(Term Document Matrix)과 co-occurrence matrix로 변환하여 키워드별 출현 빈도수와 키워드 간 관계를 계산하였다. 사이클웨어에서 가장 출현빈도수가 높았던 키워드는 '타이츠'로 전문적인 사이클웨어에 대한 높은 관심을 나타내었으나 몸에 달라붙어 착용 시 민망하다는 의견이 많았다. 사이클웨어 '구매'와 관련하여 '가격', '사이즈', '브랜드' 등과 관련이 많았으며 '가격'과 관련하여 '저가'와 '가성비'에 대한 출현빈도수가 높았다. 이것은 최근 고가의 브랜드보다는 가격대비 성능을 만족시키는 실용적인 제품들이 선호되는 경향을 나타내주었다. 사이클웨어에서 소재의 흡한속건성이나 패드의 기능성, 불편함 등에 대한 소재나 디자인 등에 대한 개선이 요구되었다. 이처럼 웹마이닝을 이용하여 사이클웨어에 대한 소비자의 의견을 분석할 수 있었으며 기존의 설문조사와도 유사한 결과를 보여주었다. 그러므로 웹마이닝을 이용하여 소비자의 의견이나 요구사항을 실시간으로 분석하여 제품개발에 반영할 수 있는 객관적 지표로 사용할 수 있을 것으로 기대된다.

맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색 시스템 (An Integrated Region-Related Information Searching System applying of Map Interface and Knowledge Processing)

  • 신진주;서경석;장용희;권용진
    • Spatial Information Research
    • /
    • 제18권4호
    • /
    • pp.129-140
    • /
    • 2010
  • Google, NAVER와 같은 대형포털에서 지도 기반의 다양한 서비스를 제공함에 따라, 지역관련 정보를 얻으려는 사용자들의 관심과 요구 또한 증가하고 있다. 하지만, 대형포털의 서비스들은 특정 지역에 대한 상세정보가 충분하지 않고 관련 정보를 획득하는 과정이 반복되는 번거로움이 존재하기 때문에, 사용자가 특정 지역의 관련 정보를 자세하고 종합적이며 손쉽게 획득할 수 있도록 지원하는 시스템이 필요하다. 본 논문에서는 사용자의 지역정보 획득에 유용한 시스템의 구축을 위해, 맵 인터페이스와 지식처리를 활용한 시스템 모델을 제안한다. 제안한 모델은 '지역정보 웹 문서 Layer', '고유지역키워드 Layer', '맵 인터페이스 Layer'의 3-Layer로 구성된다. 이 모델을 기반으로 한 지역관련정보 통합검색 시스템은 (l) 특정 지역의 대표 키워드 추출 (2) 관련 웹 페이지 수집 (3) 연관 키워드 집합 추출 및 키워드간의 연관도 계산 (4) 사용자 인터페이스 구축의 4단계 과정을 거쳐 구현한다. 구체적으로 고양시 지역을 대상으로 한 시스템의 구축을 통해 제안한 모델과 유사도 행렬을 이용한 지역정보의 지식처리 알고리즘, 사용자의 검색 편의를 돕는 UI 등의 타당성을 검증하였다. 본 시스템은 단순히 개별 '정보'로 존재하는 지역정보들을 융합하고, 새로운 '지식'을 생산 및 체계화하여 사용자들에게 제공해준다. 이를 통해 사용자는 다양하고 상세한 지역정보를 제공받을 수 있고 관련 정보도 쉽게 얻을 수 있다.

교육개발협력에 관한 국제 학술지 연구 동향 고찰 : 텍스트 네트워크 분석을 중심으로(2002~2017) (A Study on the International Research Trend in Education Development focused on Text Network Analysis(2002~2017))

  • 김상미;김영환;조원겸
    • 비교교육연구
    • /
    • 제28권1호
    • /
    • pp.1-24
    • /
    • 2018
  • 본 연구는 교육개발협력에 관한 글로벌 연구 동향을 살펴보고, 이를 통해 국내 관련 연구에서의 향후 방향과 시사점을 탐색하는 것을 목적으로 한다. 이를 위해 교육개발협력 분야의 국제 학술지인 "International Journal of Educational Development"를 선정하고, 2002년부터 2017년까지 약 15년간 게재된 연구 논문 966편을 대상으로 연구 초록에 제시된 (저자) 키워드를 텍스트 네트워크 분석하여 시기별, 교육영역별로 연구 주제가 어떻게 변화하고 이에 나타나는 특징이 무엇인지를 알아보았다. 이에 대한 주요 연구 결과는 다음과 같다. 첫째, 분석 대상 전체 논문에 나타난 연구 주제어의 출현 빈도를 살펴본 결과, 교육프로그램관리, 학교수업, 지역공공행정, 교육지원서비스, 초등교육 순으로 높았으며, 빈도 순 상위 20개의 핵심주제어에 대한 네트워크 중앙성 분석 결과는 빈도수 결과와 유사한 상관관계를 나타내었다. 그러나 중등교육, 학습, 교육연구, 교육변화, 교육의질 등의 주제어는 출현 빈도에 비해 높은 중앙성 지수를 나타내고 있어 다른 키워드들과 높은 관계성을 가지고 있었다. 둘째, 시기별 핵심 주제어 분석 결과 MDGs 전기 대비 후기와 SDGs 초기에는 새로운 키워드(초등교육, 초중등학교, 학교수업, 교육의 질, 중등교육, 교육계획)가 다양하게 나타났고, 중앙성 지수에서도 높은 수치를 나타내고 있어 새로운 핵심 연구 주제가 되고 있음을 알 수 있다. 셋째, 교육일반, 기초교육, 중등교육, 고등교육으로 분류한 교육영역별 분석 결과에서는 빈도수와 중앙성이 높은 핵심 주제어가 각각 다소 상이하게 나타나고 있어 영역에 따른 연구 키워드가 구분되고 있다는 특징이 부각되었다. 본 연구는 국제 아젠다로서의 교육개발협력 특성을 고려하여 국제적 수준에서 약 15년간 누적된 연구 논문들을 대상으로 객관적 데이터 분석 프로그램을 활용해 연구 주제의 변화 동향을 조망하였다는데 의의가 있으며, 현재 국내에서 실천적 노력과 더불어 교육개발협력에의 학문적 연구 개발이 지속적으로 강화되어야 할 시점임을 고려할 때, 향후 보다 다양한 분야에서의 연구 개발에서 참고할 만한 시사점을 제공할 수 있을 것이다.