• 제목/요약/키워드: Zipf's distribution

검색결과 11건 처리시간 0.025초

한글 문헌에 있어서 Zipfian 현상에 관한 연구 (A Study of Zipfian Phenomena in Hangul Literaure)

  • 신강현;이두영
    • 정보관리학회지
    • /
    • 제5권2호
    • /
    • pp.53-98
    • /
    • 1988
  • 본 연구는 Zipf가 최초에 유도한 공식이 한글 문헌에 있어서도 그 타당성이 성립하 는지의 여부를 조사 연구 하였다. 그 결과 한글 문헌에 있어서도 단어의 수록 빈도와 등급 사이에 일정한 통계적인 법칙성이 존재하며 이 현상은 Zipf가 유도한 공식과 일치하는 것으 로 나타났다. 한편 Zipf의 제2법칙은 한글 문헌에 적용되지 않았기 때문에 본 연구에서는 이 에 적합한 공식을 유도하였다.

  • PDF

검색엔진에서 일간질의 어분포의 정상성에 관한 연구 (On Regularity of Daily Distribution of Queries in Search Engine)

  • 박상규;이찬규;윤경현;김성희;이준호
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.255-265
    • /
    • 2007
  • 하루에도 수백만 건 이상의 방대한 질의어가 입력되는 검색엔진을 통해 인터넷 검색 패턴을 분석하는데 활용될 수 있는 질의어 분포의 정상성을, Pareto 분포와 Zipf 모형을 이용해 검토하였다. 실제2주일간의 일간 검색어 분포를 Pareto 모형으로 적합 시킨 결과, 그 기울기가 1.33에서 1.34 정도로 일관되게 측정되고 있어 Pareto 분포를 이용해 일간질의어 분포의 정상성을 평가할수 있음을 제시하였다. 이런 연구결과는 사회적 관심사와 그 변동 흐름을 해석하는데 보다 객관적이며, 효율적인 자료를 제공해 줄 수 있을 것이다.

모바일 장치와 공용 디스플레이 장치를 포함하는 환경에서 사용자의 특성에 기반한 Adaptive UI 설계 방안 (Method for Designing Adaptive UI Based on User's Context in the Environment Including Mobile Device and Public Display Device)

  • 강승수;고현;윤희용
    • 한국IT서비스학회지
    • /
    • 제11권4호
    • /
    • pp.181-194
    • /
    • 2012
  • The one of the most meaningful change in the recent ubiquitous environment is the omnipresence of public digital display device for providing ubiquitous information. It is the important issue to provide publicity as well as adaptive information to each user in the field of the public digital display device. This research proposes the idea ensuring fast response speed by the selection of user preference function. The preference function is selected by statistics using Zipf distribution in the system comprising mobile device and digital display device based on NFC (Near Field Communication). The idea is proved by CPM-GOMS model and the improvement of user response can be achieved.

User Centric Content Management System for Open IPTV Over SNS

  • Jeon, Seung Hyun;An, Sanghong;Yoon, Changwoo;Lee, Hyun-woo;Choi, Junkyun
    • Journal of Communications and Networks
    • /
    • 제17권3호
    • /
    • pp.296-305
    • /
    • 2015
  • Coupled schemes between service-oriented architecture (SOA) and Web 2.0 have recently been researched. Web-based content providers and telecommunications company (Telecom) based Internet protocol television (IPTV) providers have struggled against each other to accommodate more three-screen service subscribers. Since the advent of Web 2.0, more abundant reproduced content can be circulated. However, because according to increasing device's resolution and content formats IPTV providers transcode content in advance, network bandwidth, storage and operation costs for content management systems (CMSs) are wasted. In this paper, we present a user centric CMS for open IPTV, which integrates SOA and Web 2.0. Considering content popularity based on a Zipf-like distribution to solve these problems, we analyze the performance between the user centric CMS and the conventional Web syndication system for normalized costs. Based on the user centric CMS, we implement a social Web TV with device-aware function, which can aggregate, transcode, and deploy content over social networking service independently.

우리나라 공공도서관의 규모에 나타나는 복잡계 현상에 관한 연구 (A Study on the Behaviors of Complex System Revealed in the Sizes of Public Libraries in Korea)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제44권4호
    • /
    • pp.399-419
    • /
    • 2013
  • 이 연구는 우리나라 공공도서관의 규모를 나타내는 8가지 변인을 대상으로 2011년도 통계데이터를 적용한 분포에서 어떤 독특한 특성이 나타나는지를 실증적으로 분석하였다. 그 결과 8가지 규모변인들 모두에서 멱함수 법칙이 나타나는 복잡계 현상이 발견되었다. 우리나라 공공도서관의 규모에서 양극화가 발생한 것이다. 특히 연면적, 직원수, 도서수, 예산의 변인에서는 지프의 법칙이 나타났다. 그리고 등록회원수, 자료실 이용자수, 대출자수, 대출권수의 변인에서는 지프의 법칙보다 더 심하게 불균등한 분포가 나타났다. 따라서 우리나라 공공도서관 규모의 양극화 현상을 해소할 수 있는 정책의 개발이 요구된다.

A New Parameter Estimation Method for a Zipf-like Distribution for Geospatial Data Access

  • Li, Rui;Feng, Wei;Wang, Hao;Wu, Huayi
    • ETRI Journal
    • /
    • 제36권1호
    • /
    • pp.134-140
    • /
    • 2014
  • Many reports have shown that the access pattern for geospatial tiles follows Zipf's law and that its parameter ${\alpha}$ represents the access characteristics. However, visits to geospatial tiles have temporal and spatial popularities, and the ${\alpha}$-value changes as they change. We construct a mathematical model to simulate the user's access behavior by studying the attributes of frequently visited tile objects to determine parameter estimation algorithms. Because the least squares (LS) method in common use cannot obtain an exact ${\alpha}$-value and does not provide a suitable fit to data for frequently visited tiles, we present a new approach, which uses a moment method of estimation to obtain the value of ${\alpha}$ when ${\alpha}$ is close to 1. When ${\alpha}$ is further away from 1, the method uses the associated cache hit ratio for tile access and uses an LS method based on a critical cache size to estimate the value of ${\alpha}$. The decrease in the estimation error is presented and discussed in the section on experiment results. This new method, which provides a more accurate estimate of ${\alpha}$ than earlier methods, promises more effective prediction of requests for frequently accessed tiles for better caching and load balancing.

Market Access Approach to Urban Growth

  • MOON, YOON SANG
    • KDI Journal of Economic Policy
    • /
    • 제42권3호
    • /
    • pp.1-32
    • /
    • 2020
  • This paper studies urban growth in Korean cities. First, I document that population growth patterns change over time and that the current population distribution supports random urban growth. I confirm two empirical laws-Zipf's law and Gibrat's law-both of which hold in the period of 1995-2015, but do not hold in the earlier period of 1975-1995. Second, I find a systematic employment growth pattern of Korean cities in spite of the random population growth. I examine market access effects on employment growth. Market access, a geographical advantage, has a significant influence on urban employment growth. The market access effect is higher in the Seoul metropolitan area than in the rest of the country. This effect is stronger on employment growth in the manufacturing industry compared to employment growth in the service industry. These results are robust with various checks (e.g., different definitions of urban areas). The results here suggest that policymakers should consider geographical characteristics when they make policy decisions with respect to regional development.

텍스트 마이닝과 네트워크 이론을 활용한 권역별 국가하천 점용허가 키워드 분석 (Analysis of Keywords in national river occupancy permits by region using text mining and network theory)

  • 정성윤
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.185-197
    • /
    • 2023
  • 점용허가 정보를 기록하는 단순 용도로만 사용되고 있는 허가 대장에서 허가 내용에 내재한 점용 신청과 허가업무 수행에 유용한 정보를 추출하기 위해 텍스트 마이닝과 네트워크 이론을 활용하여 본 연구를 진행하였다. 텍스트 마이닝 기반으로 불용어 제거와 형태소 분석 등 정규화 과정을 비롯하여 서울·경기, 경상, 전라, 충청, 강원 등 5개 권역별로 어휘 출현 빈도와 토픽 모델링을 분석, 비교하였다. 네트워크 이론에 가정 많이 사용되는 단계, 근접, 매개 및 고유벡터 등 4종의 중심성 알고리즘을 적용하여 네트워크에서 중심적인 위치에 있거나 중간 매개체 역할을 하는 키워드를 살펴보았다. 이러한 어휘 출현 빈도, 토픽 모델링 및 네트워크 중심성을 종합적으로 분석하여 모든 권역에서 '설치' 키워드가 가장 영향력이 큰 것을 알 수 있었다. 이는 환경부의 허가관리청에서는 시설물을 건설하거나 공작물을 설치하는 허가가 많아서 나타난 결과라고 판단된다. 또한, 도로 시설, 치수 시설, 지하 매설 시설, 전력·통신 시설, 체육·공원 시설 등과 연관된 키워드가 토픽 모델링과 네트워크에서 중심적 위치에 있거나 중간 매개체의 역할을 하는 것을 알 수 있었다. 키워드 대부분은 출현 빈도와 분포 비율이 낮은 짚프의 원칙(Zipf' Law)의 통계분포 형태를 보이는 것으로 보였다.

인터넷 문서빈도를 통해 본 도시순위규모에 관한 연구 -미국 10만 이상의 인구를 갖는 도시들을 사례로- (Rank-Size Distribution with Web Document Frequency of City Name : Case study with U.S incorporated places of 100,000 or more population)

  • 홍일영
    • 한국지역지리학회지
    • /
    • 제13권3호
    • /
    • pp.290-300
    • /
    • 2007
  • 본 연구는 인터넷 문서상에 나타나는 도시 지명의 문서 빈도를 통계량으로 도시규모에 대한 분석을 실시하였다. 검색어가 갖는 의미상의 차이에 따른 조건과 검색의 범위를 제약하면서 나타나는 유의적인 차이점들에 대해 분석하였고, 도시규모분포의 상관계수에 대한 분석을 통해 인구와 문서빈도와의 차이점을 분석하였다. 각 도시의 인구와 문서빈도와 상관관계 분석에서는 검색어의 종류를 보다 공간적의 의미로 제약할수록 더 높은 상관관계가 나타났고, 문서의 종류는 상용, 네트워크, 기관의 경우에 있어서 높은 상관관계가 나타났다. 그리고 인구와 문서빈도의 통계량을 이용한 군집분석을 통해서, 인구에 비해 더 많은 혹은 낮은 문서빈도를 보이는 도시들을 파악하였다. 이와 같은 분석은 웹 문서라는 정보통신사회 속에서 반영되는 각 도시의 특성을 분석하는 새로운 방안을 제시한다는 점에서 큰 의미를 갖는다고 할 수 있다.

  • PDF

키워드 네트워크 분석을 활용한 세계 크루즈산업 연구동향 (Research Trends in Global Cruise Industry Using Keyword Network Analysis)

  • 장세은;이수호
    • 한국항해항만학회지
    • /
    • 제38권6호
    • /
    • pp.607-614
    • /
    • 2014
  • 세계적으로 해양산업은 크루즈산업에 많은 관심과 연구가 대폭적으로 이루어지고 있고 우리나라도 미래의 잠재력 있는 국가동력산업의 하나로 인식하고는 있으나 크루즈산업의 연구동향 분석 연구는 국내외에 활발히 이루어지고 있지 않다. 따라서 우선 세계 크루즈산업을 연구하고 이해하기 위해서는 최근에 다양한 산업에 대한 연구동향을 분석한 방법을 활용하여 크루즈산업에도 적용할 필요가 있다. 본 논문의 목적은 외국 유명저널에 발표된 크루즈산업과 관련된 학술논문에서 제시하고 있는 키워드와 논문을 매개로 한 키워드 네트워크를 구축하여 복잡계의 네트워크 분석에서 사용하는 연결 중심성과 매개 중심성 분석방법으로 시대별로 나누어 시각화하여 살펴봄으로써 세계 크루즈산업의 연구동향을 심층적으로 관찰하여 논의하는 것이다. 본 연구에서 제시된 키워드 빈도는 Zipf의 법칙을 따르고 노드의 연결정도는 멱함수 분포를 보여주고 있어 언어네트워크에서 분석하는 키워드 네트워크와 동일함을 관찰한다. 연구방법론으로는 키워드 네트워크 분석을 위하여 사회연결망 프로그램인 넷마이너 4.0을 사용하여 여러 가지 중심성 측정방법 중 키워드 상위 20개의 빈도순위를 비교하여 빈도순위와 가장 가까운 중심성 측정방법을 선택하여 크루즈산업의 연구동향을 분석한다. 특히 크루즈산업의 연구동향이 연도 기간별로 어떠한 변화를 가져왔는지를 살펴보기 위해 2000년 이전과 2000년 이후로 크게 대별하여 나누고 2000년 이후에는 5년 주기로 각 기간별 공통적으로 나타나는 연결 중심성이 높은 최상위의 키워드인 cruise와 tourism 노드를 중심으로 매개 중심성이 높은 것들의 키워드 네트워크를 시각화하여 논의한다. 연구결과에서 흥미롭게도 2010-2014의 기간에 새로운 노드로 China가 등장하여 최상위의 키워드들을 연결하고 있는 것은 최근 급성장하고 있는 중국의 크루즈산업의 발전 양상을 보여준다. 그러므로 본 연구에서 사용하는 키워드 네트워크 분석은 각 연도 기간별 네트워크의 다른 종류의 숫자와 크고 작은 중심축 군집 네트워크의 숫자의 증감뿐 아니라 중심축 군집 네트워크의 중심에 있는 키워드 간의 연결 분석을 용이하게 해주어 기간별 연구동향을 파악하는데 유용한 방법임을 확인할 수 있었다.