• 제목/요약/키워드: wikipedia

검색결과 157건 처리시간 0.026초

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여 (An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.111-118
    • /
    • 2015
  • 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

위키피디아 기반의 3차원 텍스트 표현모델을 이용한 개념망 구축 기법 (Building Concept Networks using a Wikipedia-based 3-dimensional Text Representation Model)

  • 홍기주;김한준;이승연
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.596-603
    • /
    • 2015
  • 개념망(Concept Network)은 시멘틱 검색, 개인화 검색, 추천, 텍스트마이닝 기법의 개선 등에 필수적인 지식베이스이다. 최근 효과적인 개념망 구축을 위해 온톨로지를 기반으로 하여 개념의 표현을 확장시키는 연구가 활발하다. 이에 본 논문은 World Knowledge로 평가받고 있는 위키피디아 데이터를 '개념' 집합의 원천으로 활용하여 3차원 텍스트 표현 모델 기반 개념망을 구축하는 기법을 제안한다. 사실상 개념들 간의 관계 정보는 시간의 흐름에 따라 변동하기 때문에, 텍스트 문서로부터 도출되는 '개념'은 Formal Concept Analysis 이론체계의 개념에 따르는 것이 바람직하다. 이를 위해 본 논문은 하나의 개념을 '단어'와 '문서' 간의 2차원 행렬로 표현하여 문서집합에 잠재된 개념간의 연관망을 보다 정확하게 생성하게 한다.

집단지성의 품질, 그 결정요인, 유용성의 관계: 수용자 관점에서 한국의 위키서비스와 Q&A 서비스의 비교 (Relationships between Collective Intelligence Quality, Its Determinants, and Usefulness: A Comparative Study between Wiki Service and Q&A Service in Perspective of Korean Users)

  • 주재훈;이스마틸라 노르마토프
    • Asia pacific journal of information systems
    • /
    • 제22권4호
    • /
    • pp.75-99
    • /
    • 2012
  • Innovation can come from inside or outside organizations. Recently, organizations have begun turning to external knowledge more often, through various forms of collective intelligence (CI) as collaborative platform to solve complex problems. Several factors facilitate this CI utilization phenomenon. First, with the rapid development of Internet and social media, numerous web applications have become available to millions of the Internet users over the past few decades. Web 2.0 and social media have become innovative web applications that provide an environment for human social interaction and collaboration. Second, the diffusion of simple and easy-to-use technologies that enable users to interact and design web applications without programming skills have led to vast, previously unknown amounts of user-generated content. Finally, the Internet has enabled communities to connect and collaborate, creating a virtual world of CI. In this study, web enabled CI is defined as a composed ability of individuals who are acting as a single cognitive unit to achieve common goals, think reasonably, solve problems, make decisions, carry out complex tasks, and develop creative ideas collectively through participation and collaboration on the web. Although CI plays a critical role in organizational innovation and collaboration, the dubious quality of CI is still problem that is difficult to solve. In general, the quality level of content collected from the crowd is lower than that from professionals. Thus, it is important to identify determinants of CI quality and to analyze the relationship between CI quality and its usefulness. However, there is a lack of empirical study on the quality factors of web-enabled CI. There exist a variety of web enabled CI sites such as Threadless, iStockphoto or InnoCentive, Wikipedia, and Youtube. One of the most successful forms of web-enabled CI is the Wikipedia online encyclopedia, accessible all over the world. Another one example is Naver KnowledgeiN, a typical and popular CI site offering question and answer (Q&A) services. It is necessary to study whether or not different types of CI have a different effect on CI quality and its usefulness. Thus, the purpose of this paper is to answer to following research questions: ${\bullet}$ What determinants are important to CI quality? ${\bullet}$ What is the relationship between CI quality factors and the usefulness of web-enabled CI? ${\bullet}$ Does CI type have a moderating effect on the relationship between CI quality, its determinants, and CI usefulness? Online survey using Google Docs with email and Kakao Talk was conducted for collecting data from Wikipedia and Naver KnowledgeiN users. A totoal of 490 valid responses were collected, where users of Wikipedia were 220 while users of Naver KnowledgeiN were 270. Expertise of contributors, community size, and diversity of contributors were identified as core determinants of perceived CI quality. Perceived CI quality has significantly influenced perceived CI usefulness from a user's perspective. For improving CI quality, it is believed that organizations should ensure proper crowd size, facilitate CI contributors' diversity and attract as many expert contributors as possible. Hypotheses that CI type plays a role of moderator were partially supported. First, the relationship between expertise of contributors and perceived CI quality was different according to CI type. The expertise of contributors played a more important role in CI quality in the case of Q&A services such as Knowledge iN compared to wiki services such as Wikipedia. This implies that Q&A service requires more expertise and experiences in particular areas rather than the case of Wiki service to improve service quality. Second, the relationship between community size and perceived CI quality was different according to CI type. The community size has a greater effect on CI quality in case of Wiki service than that of Q&A service. The number of contributors in Wikipeda is important because Wiki is an encyclopedia service which is edited and revised repeatedly from many contributors while the answer given in Naver Knowledge iN can not be corrected by others. Finally, CI quality has a greater effect on its usefulness in case of Wiki service rather than Q&A service. In this paper, we suggested implications for practitioners and theorists. Organizations offering services based on collective intelligence try to improve expertise of contributeros, to increase the number of contributors, and to facilitate participation of various contributors.

  • PDF

온라인 지식공유의 참여정도: 위키피디아에 대한 행태적 접근 (Participation Level in Online Knowledge Sharing: Behavioral Approach on Wikipedia)

  • 박현정;이홍주;김종우
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.97-121
    • /
    • 2013
  • 급변하는 환경 속에서 지속적인 경쟁우위와 혁신을 위한 지식의 중요성이 증대되면서, 그 동안 지식공유에 관한 많은 연구들이 있었다. 그런데, 이러한 연구들의 대부분이 응답자의 인지오차가 내재된 서베이에 의존해왔다. 본 연구는 대표적인 온라인 지식협업 커뮤니티인 위키피디아 유저들의 온라인 행위만을 토대로 지식공유 참여정도에 대한 행위 특성들간의 관계를 도출하였다. 그런데, 유저들의 편집 참여 패턴이 서로 다르기 때문에 편집횟수는 같아도 재방문기간은 달라질 수 있고 이에 따라 지식공유 결과가 달라질 수 있으므로, 지식공유 참여정도를 아티클 편집 참여횟수와 재방문기간의 두 가지 관점에서 접근하였다. 지식공유 참여정도에 영향을 미치는 행위특성으로는 위키 플랫폼에서 관찰이 가능한, 공적인 토론툴인 아티클 톡과 사적인 메시징 툴인 유저 톡 참여여부 및 정도, 그리고 커뮤니티 등록여부를 사용하였다. 행위 분석은 먼저, 행위특성 차원에 의한 유저 카테고리별 참여정도를 비교하였고, 행위 특성의 정도를 반영하는 독립변수들과 참여정도를 나타내는 종속변수간의 관계에 대한 로버스트 회귀분석을 수행하였다. 특히, 연구가설을 설정하는 단계에서 온라인 환경에 적합한 모티베이션 이론을 도입함으로써, 온라인 지식공유 참여정도에 관한 이론적인 설명 모델을 제시하였다. 결론적으로, 본 연구는 이론적인 시사점 외에 다음과 같은 실제적인 행위 결과를 얻었다. 첫째, 공적인 토론 및 사적인 메시징 참여와 지식공유 참여정도간에는 양의 관계가 성립한다. 둘째, 공적인 토론이 사적인 메시징 보다 지식공유 참여정도에 더 큰 영향력을 미친다. 셋째, 아티클 편집 참여횟수에 대해서는 공적인 토론과 사적인 메시징의 시너지 효과가 존재하는 반면에, 재방문기간에 대해서는 아주 약한 음의 상호작용효과를 나타낸다. 넷째, 커뮤니티 등록 여부는 재방문기간에 대해서는 절대적인 양의 영향력을 미치지만, 실질적인 편집 참여횟수에 대해서는 유의한 영향력을 나타내지 않는다. 다섯째, 사적인 메시징에 의한 관계성을 고려할 때, 관계의 범위보다는 빈도 또는 깊이가 더 중요한 것으로 보인다.

영어 위키피디아 페이지뷰를 통한 한중일 국가 인지도 비교 (A study on the nation images of the big three exporting countries in East Asia shown in Wikipedia English-Edition)

  • 이영환;전희주;송영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1071-1085
    • /
    • 2015
  • 본 연구에서 우리는 인터넷 상에서 경쟁국과의 경쟁력을 제고 할 수 있는 국가정책 수립이나 국가정책 수행 평가 등에 사용할 수 있는 실시간으로 국가이미지를 추출하고자 하였다. 이를 위하여 여러 선행연구와 위키피디아에 정의된 카테고리를 참고하여 온라인 특성을 고려한 국가이미지에 대한 온톨로지 구축하였다. 이렇게 구축된 온톨로지는 국가이미지를 위한 소셜미디어를 장단점을 고려하여 선택된 영어판 위키피디아 상에서 최근 6년간 한중일 삼국의 국가이미지를 추출하는데 적용되었다. 추출된 삼국의 국가이미지의 차이를 시각화하여 분석하기 위하여 대응분석 (correspondence analysis)으로 한 중 일 3국 간의 정치, 사회, 문화, 경제 인지도 간의 상대적인 관련성을 표현하고 분석하였다. 삼국의 이미지 분석 결과는 다음과 같다. 대응분석을 이용한 삼국의 이미지 분석 결과 각 나라를 대표하는 이미지가 합리적으로 도출되었음이 확인되었다. 또한 과거 정책의 변화와 이미지 변화를 검증한 결과 정책의 변화의 성공과 실패를 검증할 수 있음을 확인하였다. 따라서 국가정책 수립이나 수행평가 등에 사용할 수 있음을 확인하였다.

능동 학습 기법을 활용한 개체명 사전 반자동 구축 도구 개발 (Development of Semi-automatic Construction Tool for Named Entity Dictionary based on Active Learning)

  • 윤보현;오효정
    • 컴퓨터교육학회논문지
    • /
    • 제18권6호
    • /
    • pp.81-88
    • /
    • 2015
  • 웹 3.0 시대의 도래와 IoT(Internet of Things) 기술을 발달에 따라 생산된 정보의 양 역시 기하급수적으로 늘고 있다. 본 논문에서는 이 중에서 사용자의 관심도가 높은 개체명(NE: Named Entity) 사전을 반자동으로 구축하는 도구를 개발하였다. 제안된 방법은 초기 학습 모델을 통해 인식된 결과로부터 오류 후보를 자동으로 생성하고 사용자로부터 최소한의 보정 작업을 수행하여 이를 재학습한다, 특히 공개지식자원인 위키피디아 내의 다양한 메타데이터의 특성을 활용하여 능동 학습에 필요한 학습 예제 작성을 위한 수작업을 최소화하고자 한다. 도구 활용 효과를 분석한 결과, 능동 학습을 통해 자동 인식 결과의 오류의 약 68.6%가 보정됨을 보였다.

커널 Ripple-Down Rule을 이용한 태깅 말뭉치 오류 자동 수정 (Automatic Correction of Errors in Annotated Corpus Using Kernel Ripple-Down Rules)

  • 박태호;차정원
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.636-644
    • /
    • 2016
  • 자연어처리에서 기계학습을 위한 학습 말뭉치는 매우 중요하다. 정제된 대량의 말뭉치는 자연어처리 시스템에 직접 영향을 준다. 본 논문에서는 대량의 말뭉치 오류를 자동으로 수정하는 새로운 방법을 제안한다. 오류 말뭉치와 정답 말뭉치에서 사람이 태깅한 문서의 특성을 반영한 수정 규칙을 자동으로 생성하였다. 수정 규칙은 RDR(Ripple-Down Rules)를 사용하여 표현하였다. 수정 방법의 가치를 보이기 위해 품사 부착 말뭉치와 개체명 부착 말뭉치에 대해서 실험하였으며 두 분야에서 유의미한 결과를 보였다. 이 방법은 대량의 말뭉치를 제작할 때 오류를 최소화하는 방법으로 사용이 가능하다.

RAMP를 활용한 EAC 기반 전거레코드의 연계 및 공유 관한 연구 - 박경리의 전거레코드를 중심으로 - (Linking and Sharing EAC Authority Records Using RAMP: Focusing on the Records of "Park, Kyung-ni")

  • 박지영
    • 한국기록관리학회지
    • /
    • 제14권2호
    • /
    • pp.61-82
    • /
    • 2014
  • 기록전거레코드는 이용자가 기록물에 접근하고, 기록물을 이해하는 것을 지원한다. 그런데 기록물의 생산자는 기록 외에 다른 출판물의 생산자이기도 하며, 이용자도 정보에 통합적으로 접근하기를 원한다. 게다가 기록전거레코드와 서지제어를 위한 전거레코드는 상이한 특성을 지니면서도 상호 연계가능한 공통점을 지니고 있다. 이에 본 연구에서는 기록전거레코드를 구축하거나 확장하는데 기존의 전거레코드를 반입하여 이용하고, 확장된 기록전거레코드를 다시 공유할 수 있도록 위키피디아와 같은 웹 환경에 반출하는 방안을 제안하였다. 그리고 시범적인 연계 및 공유결과를 바탕으로 도출된 시사점과 향후 과제를 제안하였다.