• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.025초

특허 정보 검색을 위한 대체어 후보 추출 방법 (Extracting Alternative Word Candidates for Patent Information Search)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.299-303
    • /
    • 2009
  • 특허 정보 검색은 연구 및 기술 개발에 앞서 선행연구의 존재 여부를 확인하기 위한 사전 조사 목적으로 주로 사용된다. 이러한 특히 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서 본 연구는 키워드 불일치에 의한 정보 누락을 최소화하기 위한 대체어 후보 추출 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 추출 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 만족하는 대체어를 추출하기 위해서 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어뭉치, 연관단어 뭉치간 코사인 유사도 및 순위 보정 기법을 제안한다. 본 연구에서 제안한 대체어 후보 추출 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 재현율을 측정함으로써 평가하였으며, 제안 방법이 문서 벡터공간 모델의 성능보다 더 우수한 것으로 나타났다.

비정형 Security Intelligence Report의 정형 정보 자동 추출 (An Automatically Extracting Formal Information from Unstructured Security Intelligence Report)

  • 허윤아;이찬희;김경민;조재춘;임희석
    • 디지털융복합연구
    • /
    • 제17권11호
    • /
    • pp.233-240
    • /
    • 2019
  • 사이버 공격을 예측하고 대응하기 위해서 수많은 보안 기업 회사에서는 공격기법의 특성, 수법 유형을 빠르게 파악하고, 이에 대한 Security Intelligence Report(SIR)들을 배포한다. 하지만 각 기업에서 배포하는 SIR들은 방대하며, 형식이 맞춰져 있지 않다. 본 논문은 대량의 비정형한 SIR들에서 정보를 추출하는데 소요되는 시간을 줄이고 효율적으로 파악하기 위해 SIR들에 대해 정형화하고 주요 정보를 추출하기 위해 5가지 분석기술이 적용된 프레임워크를 제안한다. SIR들의 데이터는 정답 라벨이 없기 때문에 비지도 학습방식을 통해 키워드 추출, 토픽 모델링, 문서 요약, 유사문서 검색 총 4가지 분석기술을 제안한다. 마지막으로 SIR들에서 위협 정보 추출하기 위해 데이터를 구축하였으며, 개체명 인식 기술에 적용하여 IP, Domain/URL, Hash, Malware에 속하는 단어를 인식하고 그 단어가 어떤 유형에 속하는지 판단하는 분석기술을 포함한 총 5가지 분석기술이 적용된 프레임워크를 제안한다.

메타버스(Metaverse)와 방송 미디어

  • 정상섭
    • 방송과미디어
    • /
    • 제27권1호
    • /
    • pp.59-70
    • /
    • 2022
  • 메타버스 서비스란 '가상', '초월' 등을 뜻하는 영어 단어 '메타(Meta)'와 우주를 뜻하는 '유니버스(Universe)'의 합성어다. 현실세계와 같은 사회.경제.문화 활동이 이루어지는 3차원의 가상세계를 의미한다. 코로나 상황 속에서 비대면 소통의 수단 중 하나로 주목받으며 업무, 친목, 각종 행사 등 다양한 분야에서 활용되고 있다. 2022년 신년 사업 계획에서 메타버스 단어가 들어가지 않은 곳이 없다고 한다. 그만큼 핵심 키워드로 떠오르고 있다. 즉, 메타버스는 현실을 초월한 가상의 세계로 스마트폰, 컴퓨터 등 디지털 미디어에 담긴 세계를 뜻한다. 세상은 점차 바뀌어 가고 있다. 글로벌 통계 전문 업체 스태티스타는 2021년 307억 달러(약 35조 3265억 원) 규모이던 메타버스 시장 규모가 2025년에는 약 2969억 달러(약 341조 6428억 원)까지 커질 것으로 예측하였다. 현재 시장에서 통용되고 있는 메타버스에 대한 정의는, '현실세계의 사회·경제·문화적 활동이 유사하게 실현되거나, 현실에서 제공하지 못하는 경험을 제공하는 3차원 디지털 가상공간'으로 요약된다. 2021년의 메타버스는 더 이상 상상의 영역이 아니며, 현실세계 영역으로 침투하고 있는 것이다. 현실세계와 연결되는 가상세계, 실재감을 느낄 수 있는 가상공간이 점점 현실이 되어가고 있다. 1990년대 처음으로 등장한 메타버스 개념이 2020년대에 재부상 하였는데, 과거의 메타버스보다 몰입감과 실재감 있는 경험을 제공할 수 있는 XR 기술의 결합에 대한 기대감 때문이다. 지나온 30여 년간 메타버스가 뜨거운 주목을 받게 된 이유는 기술의 발전에 있다. 초고속인터넷 5G 상용화와 더불어 6G 출현, 가상현실, 증강현실이 일상에 스며들었기 때문이다. 이러한 기술 발달은 현실세계의 물리적 객체와 가상의 객체가 상호 작용할 수 있는 혼합현실까지 발전시키는 촉매제가 되었다. 여기에 지난 2년 동안 전 세계를 강타한 코로나19로 인해 비대면, 온라인 서비스가 확산되면서 메타버스는 개념이 아닌, 우리 일상의 한 부분으로 인정받게 되었다. 현재 우리 사회는 과거에는 불가능하다고 생각했던 사회적 거리두기, 재택근무, 온라인 수업 등을 진행하면서 이렇게도 사회가 돌아갈 수 있다는 것을 점차 느껴가고 있다. 더불어 현재 코로나로 인해 멀게만 느껴졌던 메타버스 세계를 반강제적으로 경험하고 있기도 하다. 이처럼 본 고에서는 최근에 나타난 메타버스를 이해하고 방송미디어(계)와 접목된 유형과 기술적, 서비스 사례를 파악하고, 주요 기업들의 추진 방향, 주요 시사점 및 결론으로 도출해보았다.

C2C에 기반으로 해외직구 불법거래에 관한 모니터링 시스템 설계 및 분석 (Design and analysis of monitoring system for illegal overseas direct purchase based on C2C)

  • 신용훈;김정호
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.609-615
    • /
    • 2022
  • 본 논문은, 개인 간 거래 C2C에 기반으로 해외직구 불법 거래에 관한 모니터링 시스템을 제안한다. 관세법에서는 해외직구 물품이 일정 금액 (미화 150불, 단 미국은 미화 200불)이하 또는 자가 사용 물품으로 인정되는 경우에만 제세를 면제토록 규정하고 있다. 과세를 면제받아 구매한 해외직구 물품을 온라인 등에서 되파는 행위는 무신고 밀수입죄에 해당한다. 그런데도 온라인 중고 사이트에는 이에 대한 되팔이가 증가하여 지속적인 관세법 위반이라는 사회적 이슈로 논란이 되고 있다. 따라서 본 연구에서는 해외직구 관련 불특정 거래 내용을 수집하고, 정보를 빅데이터 방식으로 데이터를 정제하여, 자연어 처리 등을 통해 모니터링 시스템으로 설계하여 판매자와 유사한 형태를 보이는 키워드 분석, 거래방식 분석, 동일성 판별 등을 분석하였다. 해외직구 물품의 불법 거래 단속에 활용이 가능할 것이다.

온라인 빅 데이터 분석 결과와 상수도 통계 비교를 통한 데이터 가치 추출 (Data value extraction through comparison of online big data analysis results and water supply statistics)

  • 홍성진;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.431-431
    • /
    • 2021
  • 4차 산업혁명의 도래로 사회기반시설물의 계획 및 운영관리에 있어 데이터 분석을 통한 가치추출에 대한 관심은 매우 높은 상황이다. 데이터의 가용성과 접근성, 정부 지원 등을 평가하는 공공데이터 개방지수에서 한국은 1점 만점에 0.93점을 획득하여 경제협력개발기구 회원국 중 1위(2019년 기준)를 할 정도로 매우 높은 수준(평균 0.60점)이다. 그러나 공식적으로 발표 및 배포되는 사회기반시설물 관련 정보와 심도 있는 연구 분석이 필요한 정보는 접근이 여전히 제한적이라 할 수 있다. 특히 대표적인 사회기반시설물인 상수도시스템은 대부분 국가중요시설로 지정되어 있어 다양한 정보를 획득하고 분석하는데 제약이 존재하며, 관련 국가통계인 상수도통계에서는 누수사고 등과 같은 비정상적 상황에 대한 사고지점, 원인 등과 같은 세부정보는 제공하고 있지 않다. 본 연구에서는 웹크롤링 및 빅데이터 분석기술을 활용하여 과거 일정기간 발생한 지자체의 상수도 누수사고 관련 뉴스를 전수조사하고 도출된 사고건수를 국가 공인 정보인 상수도통계자료와 비교·분석하였다. 독립적인 누수사고 기사를 추출하기 위해서 중복기사의 제거, 누수 관련 키워드 정립, 상수도분야 이외의 관련기사 제거 등의 절차가 필요하며, 이와 같은 기법은 R프로그래밍을 통해 구현되었다. 추가적으로 뉴스기사의 자연어 처리기반 정보추출기법을 통해 누수사고 건수 뿐만 아니라 사고발생일, 위치, 원인, 피해정도, 그리고 대상 관로의 크기 등을 획득하여 상수도 통계에서 제시하고 있는 정보보다 많은 가치를 추출하여 연계할 수 있는 방안을 제시하였다. 제시된 방법론을 국내 A광역시에 적용하여 누수사고 건수를 비교한 결과 상수도통계에서 제시하고 있는 누수발생건수와 유사한 규모의 사고건수를 뉴스기사분석을 통해 도출할 수 있었다. 제안된 방법론은 추가적인 정보의 추출이 가능하다는 점에서 향후 활용성이 높을 것으로 기대된다.

  • PDF

물공급네트워크 수질사고인지를 위한 소셜네트워크 서비스 별 웹크롤링 방법론 개발 (Web crawling process of each social network service for recognizing water quality accidents in the water supply networks)

  • 유도근;홍승혁;문기훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.398-398
    • /
    • 2022
  • 최근 수돗물 공급과정에 있어 적수, 유충 발생 등 지역 단위의 수질문제로 국민의 직간접적인 피해가 발생된 바 있다. 수질문제 발생 시, 소셜네트워크서비스(SNS)에 게시되는 피해 관련 의견은 시공간적으로 빠르게 확산되며, 궁극적으로는 물공급과정 전체의 부정적 인식증가와 신뢰도 저하를 초래한다. 따라서, 물공급시스템에서의 수질사고 발생을 빠르게 인지하는 다양한 방법론의 적용을 통한 피해 최소화를 위한 노력이 반드시 필요하다. 일반적으로 수질사고는 다양한 항목의 실시간 계측기에서 획득되는 시계열자료의 변화양상을 통해 판단할 수 있으나, 이와 같은 방법론의 효율적 적용을 위해서는 선진계측인프라의 도입이 선행되어야 한다. 본 연구에서는 국내의 발달된 정보통신기술환경을 활용하여, 물공급네트워크 내 수질사고인지를 위한 SNS 별 웹크롤링 방법론을 제안하고, 적용결과를 분석하였다. 방법론의 구현에 앞서, 각종 SNS 별(트위터, 인스타그램, 블로그, 네이버 카페 등) 프로그래밍을 통한 웹크롤링 가능여부, 정보획득 기간 등을 확인하였으며, 과거 유사 수질사고 발생 시 영향력과 관련 게시글이 크게 나타난 네이버 카페와 트위터를 중심으로 웹 크롤링 절차를 제시하였다. 네이버 카페의 경우 대상급수구역 내의 시민들이 다수 참여하는 카페를 목록화하고, 지자체명과 핵심 키워드(수돗물, 유충, 적수) 조합을 활용한 웹크롤링을 수행하여, 관련 게시물 건수와 의미를 실시간으로 분석하는 절차를 마련하였다. 개발된 SNS 별 웹크롤링 방법론에 따라 과거 수질사고가 발생된 바 있는 2개 이상의 지자체에 대한 분석을 실시하였으며, SNS 별 결과에 있어 차이점을 확인하여 제시하였다. 향후 제안된 방법을 적용하여 시공간적 수질사고 정보의 전파 및 확산양상을 추가적으로 분석할수 있을 것으로 기대된다.

  • PDF

의미간의 유사도 연구의 패러다임 변화의 필요성-인지 의미론적 관점에서의 고찰 (The Need for Paradigm Shift in Semantic Similarity and Semantic Relatedness : From Cognitive Semantics Perspective)

  • 최영석;박진수
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.111-123
    • /
    • 2013
  • 개념간의 의미적 유사도 및 관계도(Semantic Similarity/Relatedness)를 구하는 연구는 고전적인 연구에서는 데이터 베이스 통합이나 시스템 통합, 그리고 현대의 연구에 있어서는 태그 및 키워드 추출, 연관 단어 추천 등에 걸쳐 다양한 분야에서 활용되어 온 연구이다. 그 연구는 역사가 오래되었을 뿐만 아니라, 경영정보와 컴퓨터 공학, 계산 언어학에 걸쳐 여러 분야에서도 많은 관심을 가져왔던 연구 분야라고 할 수 있다. 그러나, 지금까지의 개념간의 관계도 계산 방식은 미리 만들어진 사전이나 참조할 수 있는 다른 시맨틱 네트워크(Semantic Network)를 이용하여 계산하는 방법이 주를 이루었다. 이러한 접근 방법의 경우, 개념간의 의미적 관계가 변화에 대한 가능성을 고려하지 않는 것이 일반적이다. 하지만, 정보 기술의 발달과 빠른 사회변화는 개념간의 의미관계 등에 변화를 가져오고 있는 것이 현실이다. 사회적으로 일어나는 사건이나, 문화적 변화 등이 개념간의 의미관계를 변화시키는 것을 물론이며, 이러한 변화가 정보 통신 기술의 도움으로 빠르게 공유되고 있다. 이렇게 개념간의 의미 관계가 시간이나 맥락에 따라 빠르게 변화할 수 있는 가능성이 있음에도 불구하고, 기존의 개념간 의미적 유사도 및 관계도에 대한 연구들은 이러한 '의미관계의 변화'에 대한 새로운 문제에 대해 해답을 제시하지 못한 것이 사실이다. 따라서, 본 연구에서는 개념간의 유사도 연구에 있어 지금까지 있어왔던 '정적인 의미간 관계도 패러다임'에서 '동적인 의미간 관계도 패러다임'으로의 전환의 필요성과 그 당위성을 인지 의미론적(Cognitive Semantics)의 관점에서 역설하고자 한다. 인간이 인지하는 개념간의 의미관계가 변화할 수 있는 이론적 근거를 인지 의미론에서 찾아봄으로써, 패러다임 변화의 방향을 구체적으로 제시하였다. 또한 이러한 패러다임의 변화에 맞추어 개념간의 의미적 유사도 및 관계도에 대한 연구가 어떠한 방향으로 나아가야 할지 구체적인 연구 방향을 제시함으로써 관련 연구자들에게 새로운 연구의 가이드라인을 제시하였다.

역사객체 기반의 기계학습 기법을 활용한 웹 문서의 시간정보 추출 방안 제안 (A Proposal of Methods for Extracting Temporal Information of History-related Web Document based on Historical Objects Using Machine Learning Techniques)

  • 이준;권용진
    • 인터넷정보학회논문지
    • /
    • 제16권4호
    • /
    • pp.39-50
    • /
    • 2015
  • 최근 검색엔진을 통한 정보검색 과정에서 특정 시구간 상황에 대응하는 문서를 검색하고자 하는 경우가 있다. 예를 들면, 임진왜란 이전의 시대적 상황과 관련된 문서를 검색하기 위해, 키워드 '임진왜란'으로 검색하면 시간에 관계없이 임진왜란 당시나 전후의 모든 문서가 검색되어 추가적인 작업이 요구된다. 또한, 역사관련 문서의 경우는 문서내용에 대응하는 시간 정보가 문서 생성시간과 일치하지 않는 경우가 대부분이다. 만약 웹 문서의 내용에 대응하는 시간 정보를 추출 할 수 있다면 효과적인 정보검색은 물론 다양한 응용에 적용 가능할 것이다. 따라서 본 논문은 문서 내용에 대응하는 시간정보 추출을 목적으로, 조선시대를 대상으로 한 역사문헌을 활용하여 조선시대 역사관련 문서의 시간추출에 대한 연구를 진행한다. 역사 문헌과 웹으로부터 수집된 역사관련 문서를 바탕으로 역사객체를 정의하고, 이를 기반으로 다양한 기계학습 기법을 활용하여 웹 문서의 시간정보 추출에 대한 가능성을 확인한다. 또한 기계학습 과정에 있어서 객체의 유사도에 기반 한 여과과정을 제안하고 이를 적용한 효율적인 시간정보 추출 및 정확도 향상에 대한 결과를 비교 분석한다.

한국미혼모에 대한 관점 변화와 정부정책의 방향: 1995년~2020년 소셜미디어 빅데이터 분석 (A Study on the Changes in Perspectives on Unwed Mothers in S.Korea and the Direction of Government Polices: 1995~2020 Social Media Big Data Analysis)

  • 서동희;전복선
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.305-313
    • /
    • 2021
  • 본 연구는 1995년부터 2020년까지 기간의 '미혼모', '싱글맘', '비혼모' 키워드를 중심으로 시기별 빅데이터를 수집, 분석하여, 미혼모에 대한 관점 변화에 따른 적절한 정부의 지원정책 방향성을 제시하고자 한다. 자료수집을 위해 빅데이터 수집 플랫폼인 텍스톰을 활용하여 포털검색 사이트 네이버, 다음에서 데이터 수집 후, 데이터를 정제하는 과정을 거쳤다. 최종 정제된 데이터는 텍스톰에서 제공하는 단어빈도분석, TF-IDF 분석, N-gram 분석, UCINET6 프로그램을 통한 Network 분석과 CONCOR 분석을 진행하였다. 연구결과, 단어빈도분석, TF-IDF 분석에서는 유사한 단어들이 출현하였으나 연도별로 차이를 보였고, N-gram 분석에서는 단어 출현의 유사점은 있었으나 빈도수와 연쇄적으로 출현되는 단어들의 형태에 많은 차이가 있었으며 CONCOR 분석결과, 연도별로 다른 군집을 이루는 것을 볼 수 있었다. 본 연구는 미혼모의 관점 변화를 빅데이터의 분석을 통해 확인하고, 독립적인 여성들의 다양한 선택권을 위한 미혼모 정책, 그리고 그에 맞는 차별 없는 임신, 출산, 양육이 새로운 가족의 형태 내로 포용 되는 정책의 필요성을 제언한다.

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 (A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis)

  • 감미아;송민
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.53-77
    • /
    • 2012
  • 본 연구는 경향신문, 한겨레, 동아일보 세 개의 신문기사가 가지고 있는 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시하고자 시행되었다. 본 연구는 텍스트 마이닝 기법을 활용하여 신문기사의 키워드 단순빈도 분석과 Clustering, Classification 결과를 분석하여 제시하였으며, 경제, 문화 국제, 사회, 정치 및 사설 분야에서의 신문사 간 차이점을 분석하고자 하였다. 신문기사의 문단을 분석단위로 하여 각 신문사의 특성을 파악하였고, 키워드 네트워크로 키워드들 간의 관계를 시각화하여 신문사별 특성을 객관적으로 볼 수 있도록 제시하였다. 신문기사의 수집은 신문기사 데이터베이스 시스템인 KINDS에서 2008년부터 2012년까지 해당 주제로 주제어 검색을 하여 총 3,026개의 수집을 하였다. 수집된 신문기사들은 불용어 제거와 형태소 분석을 위해 Java로 구현된 Lucene Korean 모듈을 이용하여 자연어 처리를 하였다. 신문기사의 내용 및 논조를 파악하기 위해 경향신문, 한겨레, 동아일보가 정해진 기간 내에 일어난 특정 사건에 대해 언급하는 단어의 빈도 상위 10위를 제시하여 분석하였고, 키워드들 간 코사인 유사도를 분석하여 네트워크 지도를 만들었으며 단어들의 네트워크를 통해 Clustering 결과를 분석하였다. 신문사들마다의 논조를 확인하기 위해 Supervised Learning 기법을 활용하여 각각의 논조에 대해 분류하였으며, 마지막으로는 분류 성능 평가를 위해 정확률과 재현률, F-value를 측정하여 제시하였다. 본 연구를 통해 문화 전반, 경제 전반, 정치분야의 통합진보당 이슈에 대한 신문기사들에 전반적인 내용과 논조에 차이를 보이고 있음을 알 수 있었고, 사회분야의 4대강 사업에 대한 긍정-부정 논조에 차이가 있음을 발견할 수 있었다. 본 연구는 지금까지 연구되어왔던 한글 신문기사의 코딩 및 담화분석 방법에서 벗어나, 텍스트 마이닝 기법을 활용하여 다량의 데이터를 분석하였음에 의미가 있다. 향후 지속적인 연구를 통해 분류 성능을 보다 높인다면, 사람들이 뉴스를 접할 때 그 뉴스의 특정 논조 성향에 대해 우선적으로 파악하여 객관성을 유지한 채 정보에 접근할 수 있도록 도와주는 신뢰성 있는 툴을 만들 수 있을 것이라 기대한다.