• 제목/요약/키워드: 키워드 유사성

검색결과 147건 처리시간 0.025초

인터넷 게시판 질문 분류를 위한 인터랙티브 접근방법에 관한 연구 (An Interactive Approach to Categorize Questions on the Internet BBSs)

  • Jae-Kwang Lee;Seong-Ho Noh;Ok-Hyun Ryou
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.177-195
    • /
    • 2003
  • 전통적인 고객지원방법에서는 콜 센터와 서비스 센터가 고객의 질문과 요구 사항을 접수하고 응대하는 기능을 담당해왔다. 최근 인터넷의 급속한 확산에 따라 전화, 우편, 방문 등의 전통적인 고객과의 의사소통수단이 전자우편과 인터넷 게시판과 같은 웹기반의 고객지원시스템으로 전환되고 있다. 인터넷 게시판은 기본적으로 고객의 질문에 관리자가 응답하는 시스템이므로 고객이 응답을 받는데 시간이 걸리는 제약이 있다. 이러한 시간적 제약을 해결하기 위하여 고객이 인터넷을 통하여 고객지원시스템에 접속하여 미리 구축된 지식 데이터베이스로부터 원격에서 질문에 대한 응답을 받을 수 있도록 공통적인 질문과 응답을 FAQ와 같은 형태를 제공한다. 그리고, 인터넷 게시판에 다양한 내용과 형태의 질문이 혼재되어 사용됨으로써 응답과 관리상의 어려움이 많다. 따라서 질문들을 체계적으로 분류하여 FAQ를 만들고, 인터넷 게시판의 관리작업을 지원하기 위한 도구의 필요성이 대두되고 있다. 본 연구에서는 키워드와 키워드들간의 친밀도를 이용하여 벡터형태로 표현한 질문들간의 유사 도를 계산하여 질문들을 클러스터링 하는 방법을 제안한다. 제안한 방법은 기본적으로 자동으로 질문들을 분류하지만, 내용이 애매모호한 질문의 경우 사용자가 상호작용을 통하여 사용자의 판단을 받아들일 수 있도록 개발되었다. 그리고, 제안한 방법의 성능을 평가하기 위하여 프로토타입 시스템을 개발하고 제한된 상황하에서 실험을 수행하였다.

  • PDF

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.

텍스트 마이닝과 빅카인즈를 활용한 노인장기요양기관 부당청구 동향 분석 (Trend Analysis of Fraudulent Claims by Long Term Care Institutions for the Elderly using Text Mining and BIGKinds)

  • 윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.13-24
    • /
    • 2022
  • 본 연구는 우리나라에서 매년 증가하고 있는 노인장기요양기관의 부당청구 맥락과 부당청구 예방을 위한 대책들이 어떠한지를 탐색하기 위해서 언론기사를 활용한 텍스트 마이닝 분석을 실시하였다. 기사는 뉴스 빅테이터 분석 시스템인 빅카인즈에서 수집하였고, 수집기간은 노인장기요양보험이 시행된 2008년 7월부터 2022년 2월 28일까지로 약 15년간이다. 이 기간 동안 '노인요양+부당청구', '장기요양+부당청구', 등의 키워드로 총 2,627개의 기사가 수집되었고, 이중 중복된 기사를 제외한 총 946개가 선정되었다. 본 연구의 텍스트마이닝 분석결과로 첫째, 모든 구간(2008.7.1-2022.2.28)에서 가장 높은 빈도로 언급된 상위 10위 키워드는 노인장기요양기관, 부당청구, 국민건강보험공단, 노인장기요양보험, 장기요양급여(비용), 노인요양시설, 보건복지부, 노인, 신고, 포상금(지급)의 순으로 나타났다. 둘째, N-gram 분석결과 장기요양급여(비용)과 부당청구, 부당청구와 노인장기요양기관, 허위와 부당청구, 신고와 포상금(지급), 노인장기요양기관과 신고 등의 순으로 나타났다. 셋째, TF-IDF 분석은 빈도분석의 결과와 유사하게 나타났지만, 신고, 포상금(지급), 증가 등은 순위가 상승하였다. 상기 분석결과를 바탕으로 노인장기요양기관 부당청구 예방을 위한 방향성을 제시하였다.

내용기반 이미지 검색에 있어 이미지 속성정보를 활용한 검색 효율성 향상 (A Study on Increasing the Efficiency of Image Search Using Image Attribute in the area of content-Based Image Retrieval)

  • 모영일;이철규
    • 한국시뮬레이션학회논문지
    • /
    • 제18권2호
    • /
    • pp.39-48
    • /
    • 2009
  • 본 연구는 내용 기반 이미지 검색 관련한 기존의 이미지 검색 방식에 관한 고찰을 통하여 이미지 검색의 한계점을 살펴보고, 보다 효율적인 내용기반의 이미지 검색을 위한 사용자용 인터페이스와 이미지 속성 활용 방법에 대하여 제안 하고자 한다. 현재 이미지 검색에 관련된 대부분의 연구들은 내용기반을 위주로 연구가 진행되고 있으며, 대표적으로는 이미지의 색상, 질감, 모양, 전체적인 이미지 형태를 기준으로 검색을 시도하고 있다. 하지만 여러 가지 기술적 한계로 인하여 만족할 만한 검색결과를 얻지 못하고 있다. 이에 본 연구에서는 내용기반 이미지 검색과 종래의 키워드 검색 방식을 적용한 새로운 검색방식을 제안하였다. 이는 이미지 내에 텍스트로 속성을 부여하는 방법과, 이미지 내의 속성정보들을 키워드화 하여 검색에 활용함으로써 이미지를 빠르게 검색하는 방법에 대한 것이다. 또한 인터넷상에서의 질의어 생성을 위한 사용자 인터페이스용 시뮬레이션과 이미지 속성을 기반으로 한 검색 시스템개발 시 활용할 수 있는 분야로 인터넷 쇼핑몰의 의류상품 검색을 중심으로 설명 하였다. 본 연구로 인해 인터넷 쇼핑몰에서 새로운 구매유형이 추가될 수 있고, 유사 이미지 검색 분야의 발전에 기여할 것이다.

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

이용자 태그를 활용한 비디오 스피치 요약의 자동 생성 연구 (Investigating an Automatic Method in Summarizing a Video Speech Using User-Assigned Tags)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제46권1호
    • /
    • pp.163-181
    • /
    • 2012
  • 본 연구는 스피치 요약의 알고리즘을 구성하기 위해서 방대한 스피치 본문의 복잡한 분석 없이 적용될 수 있는 이용자 태그 기법, 문장 위치 및 문장 중복도 제거 기법의 효율성을 분석해 보았다. 그런 다음, 이러한 분석 결과를 기초로 하여 스피치 요약 방법을 구성, 평가하여 효율적인 스피치 요약 방안을 제안하는 것을 연구 목적으로 하고 있다. 제안된 스피치 요약 방법은 태그 및 표제 키워드 정보를 활용하고 중복도를 최소화하면서 문장 위치에 대한 가중치를 적용할 수 있는 수정된 Maximum Marginal Relevance 모형을 사용하여 구성하였다. 제안된 요약 방법의 성능은 스피치 본문의 단어 빈도 및 단어 위치 정보를 적용하여 상대적으로 복잡한 어휘 처리를 한 Extractor 시스템의 성능과 비교되었다. 비교 결과, 제안된 요약 방법을 사용한 경우가 Extractor 시스템의 경우 보다 평균 정확률은 통계적으로 유의미한 차이를 보이며 더 높았고, 평균 재현율은 더 높았지만 통계적으로 유의미한 차이를 보이지는 못했다.

적외선분광분석과 Py-GC/MS를 이용한 옻칠 및 캐슈칠도막 분석 (Analysis of Lacquer and CNSL Using Infrared Spectrometer and Pyrolysis-GC/MS)

  • 최재완;김수철
    • Journal of the Korean Wood Science and Technology
    • /
    • 제46권1호
    • /
    • pp.1-9
    • /
    • 2018
  • 칠기문화재 보존에 옻칠이 사용되지만 근대화로 인해 캐슈칠과 같은 합성도료가 같이 사용되는 추세이다. 보존윤리에서는 문화재 보존 시 동일 재료가 사용되어야 한다고 명시되어있다. 따라서 칠기문화재 보존에는 옻칠과 같은 천연 도료가 사용되어야 한다. 하지만 옻칠과 캐슈칠의 성분이 유사하여 전문가들도 쉽게 구분하지 못하는 실정이다. 본 연구에서는 IR과 Py-GC/MS를 이용하여 이를 분석하고 식별 키워드를 찾고자 하였다. IR 분석 결과 옻칠은 $720cm^{-1}$ 대에서 피크가 확인되었으며 캐슈칠은 $750cm^{-1}$, $720cm^{-1}$, $700cm^{-1}$ 대에서 피크가 확인되었다. Py-GC/MS 결과 두 종류의 시료에서 Benzene과 Phenol계 화합물과 알킬사슬고리에 기인하는 성분이 검출되었다. 하지만, 캐슈칠에서는 Hexanoic acid라는 성분이 검출되었고 옻칠에서는 검출되지 않았다. 이러한 분석방법을 토대로 진정성 있는 칠기문화재 보존처리 및 복원에 활용될 수 있을 것이라 판단된다.

빅데이터 분석을 통한 익산의 도시 이미지 자산 비교 연구 (Comparative research on urban image assets of Iksan by analysing bigdata)

  • 양지유
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.385-392
    • /
    • 2018
  • 익산시는 전국의 0.51%, 전북의 6.3%에 달하는 중소 도시이다. 1읍 14면 14동의 행정구역을 가지고 있으며 자연산업의 특화 잠재력과 개발 사업에 유리한 자연환경을 가지고 있다. 또한 미륵사지를 포함한 다양한 역사문화자원을 가지고 있고 KTX 호남선 개통과 함께 고속철도 및 고속도로 등 교통기반이 우수한 인프라를 구축하고 있다. 그러나 인접 시 군과의 유기적인 연계성이 미약하고 인접지역의 대규모 개발, 특히 전주와 군산을 중심으로 한 지역 개발로 인적, 물적 유출이 우려된다. 이에 본 고에서는 SNS와 웹사이트에서 추출한 빅데이터 분석을 통해 익산이 보유하고 있는 도시 이미지 자산을 '익산역' 및 'ktx'를 키워드로 하여 분류해 보고 교통물류중심도시로서의 가능성을 알아보고자 한다. KTX 호남선 정차역 중 역세권을 중심으로 유사한 지역적 특성으로 개발이 이루어지고 있는 광주송정과 비교를 진행하였으며 이를 통해 향후 익산시의 도시 이미지 개선 및 수립방향의 기틀을 마련하고자 하였다.

C2C에 기반으로 해외직구 불법거래에 관한 모니터링 시스템 설계 및 분석 (Design and analysis of monitoring system for illegal overseas direct purchase based on C2C)

  • 신용훈;김정호
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.609-615
    • /
    • 2022
  • 본 논문은, 개인 간 거래 C2C에 기반으로 해외직구 불법 거래에 관한 모니터링 시스템을 제안한다. 관세법에서는 해외직구 물품이 일정 금액 (미화 150불, 단 미국은 미화 200불)이하 또는 자가 사용 물품으로 인정되는 경우에만 제세를 면제토록 규정하고 있다. 과세를 면제받아 구매한 해외직구 물품을 온라인 등에서 되파는 행위는 무신고 밀수입죄에 해당한다. 그런데도 온라인 중고 사이트에는 이에 대한 되팔이가 증가하여 지속적인 관세법 위반이라는 사회적 이슈로 논란이 되고 있다. 따라서 본 연구에서는 해외직구 관련 불특정 거래 내용을 수집하고, 정보를 빅데이터 방식으로 데이터를 정제하여, 자연어 처리 등을 통해 모니터링 시스템으로 설계하여 판매자와 유사한 형태를 보이는 키워드 분석, 거래방식 분석, 동일성 판별 등을 분석하였다. 해외직구 물품의 불법 거래 단속에 활용이 가능할 것이다.

의미간의 유사도 연구의 패러다임 변화의 필요성-인지 의미론적 관점에서의 고찰 (The Need for Paradigm Shift in Semantic Similarity and Semantic Relatedness : From Cognitive Semantics Perspective)

  • 최영석;박진수
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.111-123
    • /
    • 2013
  • 개념간의 의미적 유사도 및 관계도(Semantic Similarity/Relatedness)를 구하는 연구는 고전적인 연구에서는 데이터 베이스 통합이나 시스템 통합, 그리고 현대의 연구에 있어서는 태그 및 키워드 추출, 연관 단어 추천 등에 걸쳐 다양한 분야에서 활용되어 온 연구이다. 그 연구는 역사가 오래되었을 뿐만 아니라, 경영정보와 컴퓨터 공학, 계산 언어학에 걸쳐 여러 분야에서도 많은 관심을 가져왔던 연구 분야라고 할 수 있다. 그러나, 지금까지의 개념간의 관계도 계산 방식은 미리 만들어진 사전이나 참조할 수 있는 다른 시맨틱 네트워크(Semantic Network)를 이용하여 계산하는 방법이 주를 이루었다. 이러한 접근 방법의 경우, 개념간의 의미적 관계가 변화에 대한 가능성을 고려하지 않는 것이 일반적이다. 하지만, 정보 기술의 발달과 빠른 사회변화는 개념간의 의미관계 등에 변화를 가져오고 있는 것이 현실이다. 사회적으로 일어나는 사건이나, 문화적 변화 등이 개념간의 의미관계를 변화시키는 것을 물론이며, 이러한 변화가 정보 통신 기술의 도움으로 빠르게 공유되고 있다. 이렇게 개념간의 의미 관계가 시간이나 맥락에 따라 빠르게 변화할 수 있는 가능성이 있음에도 불구하고, 기존의 개념간 의미적 유사도 및 관계도에 대한 연구들은 이러한 '의미관계의 변화'에 대한 새로운 문제에 대해 해답을 제시하지 못한 것이 사실이다. 따라서, 본 연구에서는 개념간의 유사도 연구에 있어 지금까지 있어왔던 '정적인 의미간 관계도 패러다임'에서 '동적인 의미간 관계도 패러다임'으로의 전환의 필요성과 그 당위성을 인지 의미론적(Cognitive Semantics)의 관점에서 역설하고자 한다. 인간이 인지하는 개념간의 의미관계가 변화할 수 있는 이론적 근거를 인지 의미론에서 찾아봄으로써, 패러다임 변화의 방향을 구체적으로 제시하였다. 또한 이러한 패러다임의 변화에 맞추어 개념간의 의미적 유사도 및 관계도에 대한 연구가 어떠한 방향으로 나아가야 할지 구체적인 연구 방향을 제시함으로써 관련 연구자들에게 새로운 연구의 가이드라인을 제시하였다.