본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

통계청9

호주 시장 조사 및 통계 서비스 산업에서 지난 수 년간 시장 조사와 관련 서비스에 대한 수요가 혼합되면서 수익이 줄어든 것으로 나타났다. 이는 코로나19와 정부 자금 변동성으로 인한 불확실성과 수요 변화에 기인한다. 일부 기업은 외부 서비스를 내부적으로 수행하기 시작하면서 업계 수요가 감소했다. 이는 가격 경쟁과 인구 조사로 인한 비용 증가와도 관련이 있었지만, 이익은 확대되었다. 그러나 온라인 미디어와 빅데이터의 성장은 업계에 동시에 기회를 제공한다. 새로운 미디어 청중과 광고 효과에 대한 수요가 증가하는 가운데, 업계는 효과적인 측정 시스템 개발에 어려움을 겪고 있으며 기술적인 경쟁은 치열해질 것으로 예상된다. IBIS에 따르면 미래에는 산업은 5년 동안 연평균 2.1% 증가하여 37억 달러에 이를 것으로 보인다. 이러한 변화와 동.. 2023. 12. 29.
[2022 통계청 공모전] 5. test 및 후기.. 마지막.. test padding이다. 토크나이저시키고.. tokenizer = Tokenizer() tokenizer.fit_on_texts(test) X_encoded = tokenizer.texts_to_sequences(test) 패딩시킨다... X_test = pad_sequences(X_encoded, maxlen=max_len, padding='post') 잘잘한 코드를 몇 줄 작성한 뒤, predicted에 y_pred의 argmax 다시 말해서, 최대가 되는 벡터값을 넣어주면 완료! y_pred = np.mean(pred_list,axis=0) predicted = y_pred.argmax(axis=-1) 이후 아래 그림처럼 digit_1, digit_2, digit_3이 비어있는데, 이.. 2022. 5. 16.
[2022 통계청 공모전] 4. modeling with CNN-LSTM 임베딩까지 마친 set을 CNN-LSTM의 모델을 적용시키는 분류 분석을 진행하였다. CNN Algorithm : 차원 축소 단계를 거쳐 이미지를 분류하는 신경망 알고리즘이다. convolution layer , pooling layer , fully connected layer을 통해 feature 추출. LSTM(Long Short Term Memory) RNN에서 발전된 구조로 3개의 gate와 2개의 state가 존재한다. Forget Gate : 잊고자 하는 정도. 활성화함수 : sigmoid 함수 (출력값 : 0~1 사이) Input Gate : 새로운 입력을 받고자 하는 정도. 활성화함수 : sigmoid 함수 (출력값 : 0~1 사이) Output Gate : Cell State 중 어떤 .. 2022. 5. 11.
[2022 통계청 공모전] 3. embedding_model Embedding_model 만들기 Word2Vec 함수 사용 from gensim.models import Word2Vec embedding_okt = Word2Vec(tokenized_okt1, size=100, window = 2, min_count=50, workers=4, iter=100, sg=1) embedding 모델을 구축한다는 것은 Word2Vec의 함수를 써서 단어벡터를 만들어준다는 뜻이다. 이후 아래 코드처럼 저장해주면 임베딩된 모델이 완성되게 된다. embedding_okt.save('/emb__okt.model') 자연어처리에서 사용하는 gensim 라이브러리는 아래를 참고하면 된다. https://radimrehurek.com/gensim/ Gensim: topic modell.. 2022. 5. 9.
[2022 통계청 공모전] 2. remove stopwords (불용어 처리) check bigword split 큰 단어들을 일일이 쪼개준 뒤, 잘 쪼개져있는지 확인 후 불용어 처리를 하였다. bigword = {key: value for key, value in count.items() if len(key)>=5 and value 2022. 5. 8.
[2022 통계청 공모전] 1. bigword split 이름을 bigword split이라고 지은 이유는.. tokenized를 봤을 때, noun(명사)로 토큰화하였다고 할지어도, '이벌게임'처럼 명사화가 잘 되지 않은 문장들을 더 잘게 쪼개주어 의미를 부여할 수 있도록 하기 위해서 단어수가 긴 단어의 경우, 잘게 쪼개주면 좋지 않을까 싶었다. 나중에 임베딩 모델을 구현할 때, 단어수의 빈도가 50 이상인 단어들로만 이뤄지게 하기에. 단어수의 빈도가 50 미만인 (임베딩에 영향을 주지 않는) 단어들을 Split 해주기로 하였다. count={} for j in range(len(bigword_split_okt)): for i in bigword_split_okt[j]: try: count[i] += 1 except: count[i]=1 print(count.. 2022. 5. 6.