• 제목/요약/키워드: 동시단어 분석

검색결과 186건 처리시간 0.028초

KT 증권정보 서비스 이용 실태 및 인식 결과 조사 (A Research on the state of the utilization of the stock-information-retrieval-service)

  • 최영재
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.63-66
    • /
    • 1998
  • 한국통신에서는 PC로 된 프로토타입 시스템을 이용하여 음성인식 증권정보 서비스를 1995년 11월부터 1998년 초까지 5채널에 대해 시험운용을 해왔으며, 상용서비스를 위해 120명이 동시에 서비스 받을 수 있는 시스템을 개발하였다. 개발된 시스템의 전반적인 문제점을 파악하기 위하여 개발된 시스템을 사용하여 1998년 3월 16일부터 30 채널규모로 일반인들에게 시험서비스를 제공하고 있다. 음성인식 전화정보 서비스를 현재보다 훨씬 더 활성화시키기 위해서, 서비스의 이용 형태에 대한 분석을 통해, 어느 부분이 어떻게 개선되어야 할지를 연구하여, 초보 사용자라도 이용하기 쉬운 형태로 서비스를 시나리오를 개선해 나가고 있다. 본 논문에서는 사용자 특히, 처음 사용자의 여러 가지 이용 실태 요인을 분석하였다. 또한, 음성인식 증권 정보 서비스가 정식으로 서비스되기 이전과 그 이후의 일시별 인식률을 통해 조사하고, 이용자가 동일 대상 단어를 연속으로 발음하는 경우, 동일 대상 단어에 대한 인식률을 조사하였다. 조사결과 문제점은 4가지로 분류될 수 있었으며, 드러난 문제점을 해결하기 위하여 노력하고 있다.

  • PDF

동시출현단어 분석을 활용한 한국어교육에서의 학습전략 연구 동향 탐색 (Exploring the Research Trends of Learning Strategies in Korean Language Education Using Co-word Analysis)

  • 허영수;박지홍
    • 정보관리학회지
    • /
    • 제38권2호
    • /
    • pp.65-86
    • /
    • 2021
  • 외국어 교육 분야에서 학습자는 교육의 한 축을 이루는 중요한 부분이지만 한국어교육의 경우 교육 내용, 교수 방법, 교재 등에 비해 학습자 연구는 미진한 면이 있었다. 이에 학습자 연구, 그중에서도 학습전략 연구가 어떻게 이루어져 왔는지를 분석하고 더 나은 교육을 위해 연구가 필요한 부분을 도출해 보는 것은 의미가 있다. 본 연구에서는 한국어교육 분야에서 학습전략 연구의 현황을 분석하기 위해 학술지와 학위논문의 제목에 대해 동시출현단어 분석을 진행하였다. 연구 결과, 한국어 학습자의 학습전략 관련 가장 많은 연구가 이루어진 분야는 '읽기'이고, 대상은 '중국인 유학생'과 '결혼이민자'였다. 또한, 연구 주제에 대한 서브그룹 분석 결과를 보면 주요 서브그룹이 네 개가 나타나는데 '학문 목적 읽기' 관련 그룹, '요청, 거절, 대화 등 화행' 관련 그룹, '쓰기' 관련 그룹, '어휘, 듣기' 관련 그룹이다. 이를 통해 한국어 학습자의 학습전략과 관련해 연구자들의 주요 관심 분야가 '읽기, 화행' 등임을 알 수 있으며, 연구 대상과 연구 분야가 부분적으로 편중되어 있는 상황이므로 다양한 분야와 대상으로 연구를 확대할 필요가 있음을 알 수 있다.

국내 언론매체의 이념성향과 뉴스구성에 대한 연구 : 미 대선 후보 '버니 샌더스' 관련 보도의 의미연결망 분석을 중심으로 (A Study on Ideological Orientation and the Construction of News about Korean News Media : Focused on a Semantic Network Analysis for Articles about 'Bernie Sanders')

  • 이혜미;김혜영;유승호
    • 한국콘텐츠학회논문지
    • /
    • 제16권8호
    • /
    • pp.180-191
    • /
    • 2016
  • 본 연구는 국내 주요언론이 이념성향에 따라 보도 프레임을 달리할 것이라는 가정 하에 미국 대선 후보 주자였던 '버니 샌더스'를 대상으로 뉴스보도의 의미연결망을 분석하였다. 버니 샌더스라는 인물은 '미국'이라는 보수의 가치와 '불평등 해소'라는 진보의 가치를 동시에 지닌 인물이이서 언론의 이념적 차이가 잘 드러날 수 있는 대상이기도 하다. 보수언론과 진보언론의 빈도순위를 비교해 본 결과, 보수언론은 '사회주의자'와 '흑인'이라는 단어를, 진보언론은 '불평등'과 '문제'라는 단어를 많이 사용한 것으로 나타났다. 특히 보수언론과 진보언론은 '한국'이라는 동일한 단어를 가지고 전혀 다른 의미구성을 보였다. 진보언론은 샌더스가 지적하는 사회문제와 기성정치에 대한 비판을 '한국'사회에 접목하여 이야기하고자 했다면, 보수언론은 '한국'이라는 단어와 구체적인 정당, 그리고 정치인의 이름을 거론해 샌더스와 닮았다고 한 발언에 대해 노골적인 표현으로 비난했다. 이는 동일한 단어를 사용함에도 전혀 다른 관점과 맥락에서 보도하는 경향성을 파악한 것으로, 사안에 대한 언론사의 의미구성이 이념적 지향에 따라 확연한 차이를 보인다는 것을 알 수 있다. 또한 본 연구는 의미연결망 분석을 통해 주요 단어들의 사용빈도 뿐만 아니라 단어들 간의 연결 강도와 중심성을 토대로 뉴스구성의 맥락을 해석했다는 점에서 보도분석을 위한 방법론의 확장에도 기여하고자 하였다.

메타버스 관련 국내외 연구동향 분석 (An Analysis of Domestic and International Research Trends on Metaverse)

  • 김현정
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.351-379
    • /
    • 2023
  • 본 연구는 국내외 메타버스 관련 연구의 동향을 파악하기 위해 한국학술지인용색인(KCI)과 Web of Science(WoS), 그리고 Web of Science - CPCI(Conference Proceeding Citation Index)에서 메타버스를 검색어로 입력하여 KCI에서 913편, WoS에서 232편, WoS-CPCI에서 277편의 논문을 수집하였고, 각각 2,644개, 885개, 787개의 저자 키워드를 추출하여 동시출현단어 분석을 수행하였다. 정량분석을 통해 메타버스 관련 연구가 최근 들어 양적으로 폭증하였고, 국내에서 는 학제간연구, 컴퓨터학, 교육학 등의 주제분야에서 주로 연구되고 있으며, WoS에서는 경영·경제 분야에서, WoS-CPCI 에서는 컴퓨터공학 분야에서 주로 연구되고 있음을 알 수 있었다. 키워드 네트워크 분석에서는 모든 데이터베이스에서 Virtual Reality, Augmented Reality 등 메타버스의 기술적 측면과 관련된 용어들의 전역중심성이 공통적으로 높게 나타났으며 군집분석을 통해 국내에서는 교육 관련 연구와 메타버스 플랫폼에 관한 키워드의 군집이 포함되고, WoS에서는 계량서지학적 분석과 관련된 키워드 군집이 생성되었으며, WoS-CPCI는 주로 메타버스의 기술적 측면에 대한 키워드 군집이 주로 나타났다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

조현병과 정신분열병에 대한 뉴스 프레임 분석을 통해 본 사회적 인식의 변화 (Text Mining Driven Content Analysis of Social Perception on Schizophrenia Before and After the Revision of the Terminology)

  • 김현지;박서정;송채민;송민
    • 한국문헌정보학회지
    • /
    • 제53권4호
    • /
    • pp.285-307
    • /
    • 2019
  • 질환자에 대한 사회적 낙인을 제거하기 위해 2011년, 대한의사협회는 정신분열병을 '조현병'으로 개정하였다. 병명을 변경한 지 약 9년이 지났지만 실제로 사회적 인식이 어느 정도 변화하였는지 정량적으로 분석한 연구는 아직 없다. 이에 본 연구에서는 병명 개정에 따른 조현병에 대한 사회적 인식 변화를 확인하고자 네이버 뉴스 기사를 수집 분석하였다. 텍스트 분석에는 LDA 토픽 모델링, TF-IDF, 동시출현 단어, 감성분석 기법을 사용하였다. 분석 결과, 병명 개정 전보다 후에, 그리고 병명 개정 후 병용되는 정신분열병과 조현병 중 조현병에 대한 사회적 인식이 더 부정적인 것으로 나타났다. 즉, 병명 개정이 낙인을 해소하지 못했음을 알 수 있었다.

트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구 (Topic-Network based Topic Shift Detection on Twitter)

  • 진설아;허고은;정유경;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.285-302
    • /
    • 2013
  • 본 연구는 높은 접근성과 간결성으로 인해 방대한 양의 텍스트를 생산하는 트위터 데이터를 분석하여 토픽의 변화 시점 및 패턴을 파악하였다. 먼저 특정 상품명에 관한 키워드를 추출한 후, 동시출현단어분석(Co-word Analysis)을 이용하여 노드와 에지를 통해 토픽과 관련 키워드를 직관적으로 파악 가능한 네트워크로 표현하였다. 이후 네트워크 분석 결과를 검증하기 위해 출현빈도 기반의 시계열 분석과 LDA 토픽 모델링을 실시하였다. 또한 트위터 상의 토픽 변화와 언론 기사 검색결과를 비교한 결과, 트위터는 언론 뉴스에 즉각적으로 반응하며 부정적 이슈를 빠르게 확산시키는 것을 확인하였다. 이를 통해 기업은 대중의 부정적 의견을 신속하게 파악하고 이에 대한 즉각적인 의사결정 및 대응을 위한 도구로 본 연구방법을 활용할 수 있을 것으로 기대된다.

Scientific Data 학술지 분석을 통한 데이터 논문 현황에 관한 연구 (An Investigation on Scientific Data for Data Journal and Data Paper)

  • 정은경
    • 정보관리학회지
    • /
    • 제36권1호
    • /
    • pp.117-135
    • /
    • 2019
  • 데이터 학술지와 데이터 논문이 오픈과학 패러다임에서 데이터 공유와 재이용이라는 학술활동이 등장하여 지속적으로 성장하고 있다. 본 논문은 영향력있는 다학제적 분야의 데이터 학술지인 Scientific Data에 게제된 총 713건의 논문을 대상으로 저자, 인용, 주제분야 측면을 분석하였다. 그 결과 저자의 주된 주제 영역은 생명공학, 물리학 등으로 나타났으며, 공저자 수는 평균 12명이다. 공저 형태를 네트워크로 살펴보면, 특정 연구자 그룹이 패쇄적으로 공저활동을 수행하는 것으로 나타났다. 인용의 주제영역을 살펴보면, 데이터 논문 저자의 주제영역과 크게 다르지 않게 나타났으나, 방법론을 주로 다루는 학술지의 인용 비중이 높은 것은 데이터 논문의 특징으로 볼 수 있다. 데이터 논문 저자의 키워드를 사용하여 동시출현단어분석 네트워크로 살펴본 데이터 논문의 주제영역은 생물학이 중심이며, 구체적으로 해양생태, 암, 게놈, 데이터베이스, 기온 등의 세부 주제 영역을 확인할 수 있다. 이러한 결과는 다학제학문 분야를 다루는 데이터 학술지이지만, 데이터 학술지 출간에 관한 논의를 일찍부터 시작해온 생명공학 분야에 집중된 현상을 보여준다.

검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구 (A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search)

  • 정소나;정지나
    • 한국산학기술학회논문지
    • /
    • 제18권5호
    • /
    • pp.596-607
    • /
    • 2017
  • 의학학술문헌에는 해부학적 조직이나 기관명이 종양, 질환 또는 감염 용어들과 서로 조합하여 사용되는 언어적 특성을 가지고 있다. 의학학술문헌을 검색할 때 데이터베이스가 제공하는 통제어휘도구인 Medical Subject Headings (MeSH)를 활용하면 합성어, 동의어, 그리고 관련어를 추가로 검색할 수 있어 검색효율이 높다. 본 연구에서는 위암(Stomach Neoplasms) 어휘군을 검색용 필터로 추가하는 방법과 동시출현용어의 거리를 측정하여 단어인접탐색 기법으로 검색효율성을 향상시키는 연구를 수행하였다. 검색용 MeSH에 추가할 어휘군을 결정하기 위해 실험데이터로 PubMed에서 중심주제어가 "Stomach Neoplasms"인 2007년~2016년 논문 8,625편을 내려 받아 논문제목으로부터 Stomach와 Neoplasms 관련 용어의 동시출현여부를 분석하였다. 검색효율성은 KoreaMed에서 검색되는 MEDLINE 학술지를 대상으로 "Stomach Neoplasms"가 MeSH로 색인되어 있는 277편으로 검증하였는데 MEDLINE MeSH, MeSH on Demand, 그리고 KoreaMed MeSH Indexer의 "Stomach Neoplasms" 색인어 추출여부와 검색용 필터로 어휘군을 적용했을 때, 그리고 동시출현 용어의 단어인접검색 기법을 적용했을 때 "Stomach Neoplasms"의 매칭여부를 비교하였다. 가장 출현빈도가 높은 용어는 "Gastric Cancer"로 2,780회 출현하였다. "Gastric Adenocarcinoma", "Gastric MALT Lymphoma" 등과 같이 "Stomach" 용어와 "Neoplasms" 관련 조직학적 용어가 조합된 경우는 7,376개(88.51%)였다. 동시출현 거리가 2단어인 용어는 "Stomach"와 "Neoplasms"의 합성어로 5,234개(70.95%)였다. 연구 결과 MeSH용어를 제외하고 973개의 용어를 후보어휘군으로 선정하였다. MEDLINE MeSH와 KoreaMed MeSH Indexer의 MeSH 매칭률은 209편(75.5%)이었는데 검색필터를 적용한 결과 263편(94.9%)으로, 동시출현 용어의 13단어 단어인접탐색 기법을 적용한 경우 268편(96.7%)으로 매칭률이 향상되었다. 본 연구를 통해 자연어 검색에 있어서 검색효율을 향상시키는 수단으로 검색용 시소러스를 사용하면 색인비용에 대한 부담이 적고, 통제어의 망라적 장점과 자연어가 가지는 용어의 특정성을 유지할 수 있음을 증명하였다. 또한 불리안 검색보다는 단어인접탐색 기법을 활용하면 정확률을 높일 수 있어 검색 효율성이 향상됨을 알 수 있었다.

동시출현 자질과 집단 지성을 이용한 지식검색 문서 사용자 명성 평가 (User Reputation Evaluation Using Co-occurrence Feature and Collective Intelligence)

  • 이현우;한요섭;김래현;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 2008
  • 많은 사용자들의 참여로 구축된 집단 지성을 이용한 지식 검색 서비스에서 사용자가 원하는 답변을 빨리 찾고자 하는 요구가 증가하고 있다. 기존의 연구에서 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보가 답변을 평가하는데 좋은 자질임이 증명되었고, 신뢰도를 추정할 수 있는 여러 종류의 단어 사전을 이용하여 답변의 좋고 나쁨을 평가할 수 있는 연구도 진행되었다. 하지만, 조회 수, 추천 수, 답변 수와 같은 비텍스트 정보는 사용자 조작이 간단하여 지속적으로 관리를 해야 하며, 신뢰도를 추정할 수 있는 단어는 지속적으로 보강되어야 한다. 본 논문에서는 이러한 문제점을 해결하고자 동시출현 자질을 이용한 질문과 답변의 유사성을 활용하여 집단 지성에서 사용자의 활동을 분석하여 사용자의 명성을 평가하는 방법을 제안한다. 사용자의 명성을 계산할 수 있다면 조회 수와 추천 수가 많지 않은 답변의 신뢰도도 비교적 정확하게 추정할 수 있다. 이를 위해 우리는 PageRank 알고리즘을 수정하여 사용자 명성을 계산한다. 네이버 지식iN의 문서로 실험한 결과, 기존 정답 선택률을 보완할 수 있는 결과를 보였다.

  • PDF