サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
tech-blog.abeja.asia
ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択され、その中で大規模言語モデルの開発を行っていました。 その際にモデルの開発と同時に日本語用の学習コーパスを構築しました。 www.abejainc.com そして、この構築した日本語用の大規模言語コーパス、すなわち言語モデル用の学習データセット ABEJA-CC-JA を公開しました! 商用利用も可能です。 ここでは、公開したデータセットについてご紹介します。 構築したデータセット ABEJA-CC-JAについて 元データ: Common Crawl 2019年から2023年までを対象に、計41のtimestamp データセットのサイズ : 約430Bトークン Mixtral8x7bのtokenizerでのtoken数 約407B (4070億)文字 日本語公開コーパスとして
はじめに ハードウェアの準備 Arduino の準備 Switch -> PC 環境の実装 stepメソッド 状態の遷移 報酬 を計算する 終了判定 reset メソッド ゲームのリトライ 自動プレイのテスト はじめに ABEJAでデータサイエンティストをしている清田です。今回は強化学習で何かゲームの学習をやってみたいと考え、その題材としてスイカゲームを扱えるようにしました。「強化学習で攻略したい」と銘打っているのですが、この記事で扱うのはその準備までです。 スイカゲームは Nintendo Switch (以下 Switch)用ゲームとして発売された落ち物パズルゲームです。箱の中に果物を落としていき、同じ種類の果物同士を接触させると合わさって一段階上の果物に変化します。より上位の果物を作るほど高い点数が得られます。箱から果物が飛び出してしまうとゲームオーバーです。2048 パズル + 落
はじめに Looker Studioについて (参考) Cloud Identityについて(参考) アーキテクチャ 最後に はじめに ABEJA大田黒です。皆様、Looker Studioはお使いでしょうか?無料で使えて便利ですよね!私もよく使っています。ちなみに、 Looker Studioで作成したレポートをGoogle Workspaceの組織を超えて組織外(社外等)にシェアするとき、権限設定で困った経験はございませんでしょうか? 社外ユーザーがそもそもGoogleアカウントを持っていない 自社のGoogle Workspaceに社外ユーザーを作りたくない 社外ユーザーが個人で持っているGoogleアカウントを連携させるのは論外... 共有先の社外ユーザーが1人2人じゃなくて、何人か増えていきそう... 社外ユーザーの異動・退職時のユーザーマネジメントを誰がやるのか... Look
ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Crawlをベースとしてデータセットを作った過程について解説します。 データセットの概要 Common Crawlについて warcとwet データセット作成方針 前処理の流れ 1. 日本語の簡易判定、w
こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、本LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張版継続事前学習です。弊社が調べた限り、Megatron-LMでMixtralモデルを継続事前学習するソースコードは2024年4月12日時点(執筆時)では存在していません。 GENIACの計算資源提供の
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。 今回 LangChain での RAG を使用して、LLM が学習に使用していない特定ドメインでの用語を応答する Slack ボットをさくっと作ってみたので共有します。 本コード一式は、以下の GitHub レポジトリに保管しています。 github.com 使い方 コード解説 アーキテクチャ RAG の仕組み ヒューマンインザループによる継続的品質改善 まとめ We Are Hiring! 使い方 事前準備として{用語集スプレッドシートの作成・Slack アプリの初期設定・各種
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。LangChain 使えば、RAG [Retrieval Augment Generation] などを活用した LLM アプリケーションも簡単に作成できるので大変便利ですよね。そんな LangChain を開発している LangChain 社から LLMOps ツール(*1)である LangSmith が登場しているので調査してみました。昨今 ChatGPT 等の LLM 技術の発展に伴い、LLM を実際のアプリケーション開発や運用に適用する際に MLOps から派生した LLMOps という概念が有益になってきています。LangSmith はそのような LLMOps において、LLM アプリケーションの運用向け LLMOps 機能に焦点を絞っており、ま
ABEJA でプロダクト開発を行っている平原です。 先日、バックエンドで使っているGo言語のお勉強しようと「go言語 100Tips ありがちなミスを把握し、実装を最適化する」を読んでいました。その中でinterfaceは(パッケージを公開する側ではなく)受け側で定義するべきという記述を見つけてPythonでも同じことできないかと調べていると(PythonではProtocolを使うとうまくいきそうです。)、どうやら型ヒント機能がかなりアップデートされていることに気づき慌てて再入門しました。(3.7, 3.8あたりで止まってました。。) この記事では、公式ドキュメントを見ながら適当にコードを書き散らし、どの機能はどこまで使えるのか試してみたことをまとめてみました。 docs.python.org 環境 Python: 3.12.1 エディタ: Visual Studio Code Pylan
ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語では言います。 データの特性だったりデータから何が言えるかを把握するための分析であり、JohnTukey氏により1960~70年頃に統計学の分野で提唱されたようです。 今では機械学習の分野でも、「まずEDAをしてからモデルを作ろう」と言われる場面をよく見かけ、EDAをすることは当たり前になってきています。 en.wikipedia.org 本記事のモチベーション EDAに関する情報もたくさん調べると出てきますが、EDAのためのPythonライ
はじめに こんにちは、ABEJAでプロジェクトマネジメントをしている服部です。ABEJAアドベントカレンダー2023の24日目の記事です。皆さん日々の思い出はどういった形で残されていますか?写真?動画?それとも3Dスキャン?今回はドローンにiPhoneを載せることで広がる可能性をご紹介しようと思います。 注意点 ドローン運用の際には、機体の登録や飛行区域の確認などが求められます。本記事では、その点の説明を省きますので、詳細は国土交通省のページをご確認ください。 航空安全:無人航空機(ドローン・ラジコン機等)の飛行ルール - 国土交通省 前振り iPhoneで「12以降の"Pro"」に搭載のLiDARスキャン機能ですが、これは距離センサー(LiDAR)とカメラの合わせ技で3Dモデルを生成するものです。 下記のリンクからScaniverseで撮った自然や人工物をご覧ください。 材質にもよります
ABEJA でプロダクト開発を行っている森永です。ABEJAアドベントカレンダー2023の22日目の記事です。普段の業務ではフロントエンドからバックエンドやインフラまで幅広く扱っています。今回は、一般的な Web 開発のスタックを飛び越えてより低レイヤーの領域に触れてみたくなり、以前から興味があった FPGA デバイスを触ってみましたのでこちらの記事にやったことをまとめてみました。 注: 筆者 FPGA は超初心者なため、あくまでも私のような初心者の方の参考となる記事に仕立ております。 1. FPGA とは? 1.1 概要 1.2 FPGA が身近に使われているところ 2. FPGA を使うと何が良いのか? 3. FPGA を始めるには何の言語を学べばいいのか? 4. 実際に簡単な回路を FPGA 上で動作させてみる 4.1 環境構築手順 4.1.1 Xilinx ISE Design S
切っ掛けと問題の認識 AWS Config のカウント数の監視 対象外にしたいリソースが見つかったら AWS Config 側で除外する 実際のコスト削減効果 なぜもともとコストが高かったのか まとめ こんにちは、ABEJAの村主です。ABEJAアドベントカレンダー2023の18日目の記事です。今回は、意外にも高額になりがちなAWS Configのコスト削減について、どのように対応したかをご紹介します。特に、AWS Configのコストを大幅に減らすためのアプローチについてお話しします。また、CloudWatch で AWS Config のカウント量を可視化する方法はあまり見かけなかったのでブログにしておきました。 切っ掛けと問題の認識 最初に気づいたのは、AWS Cost Explorer を確認していたときです。そこで見たAWS Configのコストは、1日あたり約$15、月間では約
こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々
はじめに こんにちは、ABEJAでデータサイエンスグループに所属している今井です。ABEJAアドベントカレンダー2023の20日目の記事です。 OpenAIのAPIには、チャットアプリケーションを作る際に役立つfunction callingという機能がありますが、かねてから「どれくらいfunction callingは精度良く呼び出されるのだろうか?」と思っていました。 今回の記事では、上記の疑問に答えるべくfunction callingの呼び出し精度をレストラン予約のシナリオを題材に定量的に評価してみたので、その内容についてご紹介したいと思います。 以下の順序で内容を説明していきます。 はじめに Function callingについて Function callingの使用イメージ Function calling評価のモチベーション 評価用データセット データセットの概要 レスト
本記事はABEJAアドベントカレンダー2023 19日目の記事です。 こんにちは!データサイエンティストの安倍(あんばい)です。 最近の趣味は競馬布教です。 社内のNotionページに毎週予想を記載し、それを信じて馬券を購入する同僚が徐々に増えてきています。残念ながら、全体収支はマイナスのようです。 さて、今回のテーマですが、昨年投稿した「競走馬骨格推定」の続き話となります。嬉しいことに、読者の方から講演依頼を頂き、実際に発表、議論をしてきましたので、その内容についてご紹介したいと思います。 tech-blog.abeja.asia 目次 目次 競走馬骨格推定について 講演依頼 発表してきた 議論の様子 終わりに We Are Hiring! 競走馬骨格推定について まず初めに、昨年執筆した競走馬骨格推定について、簡単に説明をします。 競走馬骨格推定 鼻の時系列プロット こんなものを作りま
"Everything is true," he said. "Everything anybody has ever thought." この記事は ABEJAアドベントカレンダー2023 の 17 日目の記事です。 こんにちは。システム開発部の石川 (@ishikawa) です。昨年のいまごろは Objective-C ばかり書いていましたが、今年は念願の Swift で QR コードリーダーを書き直したり、React Native の C++ コードをデバッガで追いかけて不思議なバグの修正をした年でした。 react-native で 196,607 回 fetch() すると通信できなくなるバグを直した https://t.co/lvNC3PL85b— takanori_is (@takanori_is) 2023年9月21日 普段の業務では TypeScript と Go、Pyt
はじめに リークって何? リークの例 テーマ概要 使用できるデータ,手法 例 例1.運用時に使えない情報を使ってしまう 例2.更新された情報を使ってしまう その他例 リークを回避するためには? ドメイン知識をもとにした確認 データを正しく理解する 重要特徴量からの判断 特徴量作成後の可視化 自分がやったことを信用しすぎない まとめ We Are Hiring! はじめに こちらは、ABEJAアドベントカレンダー2023の13日目の記事です。 こんにちは!ABEJAでデータサイエンティストをしております松村です。2021年の入社時から地元広島からフルリモートで働いており、早いものでもうすぐ3年が経過します。 今回は、データサイエンティスト誰もが一度は直面するリーク問題について考えてみました! リークって何? 「機械学習におけるリークとは何か?」について一言で言うと、本来使うことのできない情報
TL; DR GPTsに音声入力で指示すると、それに従ってATOM Matrix経由でtoioが動いてくれるようなものを作ってみました。 GPTsのActionsから何秒動きたいかを判断して、BeebotteというMQTTブローカーを使ってATOM Matrix経由でtoioにその秒数を指示します。 ChatGPTなので、「ちょっと進んで」というような曖昧な指示でも1秒を設定して指示してくれます。 (スタックチャンは賑やかしのために参加してもらっただけで今回の内容とは関係ないです。そのうちAIスタックチャンのfunction callingで指示できるように改良予定) 動画↓ www.youtube.com はじめに こんにちは。株式会社ABEJA でプロジェクトマネージャーをメインにやっていて、データサイエンティストも兼務している道辻です。本記事はABEJAアドベントカレンダー2023の
はじめに 本記事で目指すこと スライド作成のステップ プロンプト作成 ステップ1~3: スライドコンテンツ作成までの準備 ステップ4: 日本語でスライドコンテンツを作成 ステップ5: Reveal.js のコードを作成 工夫点 明示的に CoT をさせるため、ステップの中で複数回に分けて GPT-4 にリクエストを送る Role-Play Prompting を先頭に仕込む STEP-BACK PROMPTING として途中にメタ質問を加える 作成した結果 パターン1 パターン2 その他のトライ さいごに はじめに ABEJAアドベントカレンダー2023の14日目の記事になります。 こんにちは、ABEJAでデータサイエンティストをしている中西 @cfiken です。 LLM の登場のおかげで arxiv に上がる論文やテクニカルレポートの概要をチェックするのが簡単な時代になりました。例えば
TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ
この記事はABEJA Advent Calendar 2023の12日目の記事です。 ABEJA のアジャイル開発チームでスクラムマスターをしている小川です。 今日はスクラムなどに代表されるアジャイルなチームに欠かせない「自己管理(自己組織化)」についてご紹介をさせていただきます! また、失敗例という形で「自己管理型チームから遠ざかる危険シグナル」についてもご紹介をさせていただき、最後に自己管理型チームを実現するための(私の経験をベースに独断と偏見による)代表的なコツも挙げさせていただきます! アジャイルなチーム作りをされている方の参考になれば幸いです。 (この記事では上下関係に対して否定的な表現を使っていますが、あくまでアジャイルなチームにおいては望ましくないという意図であることをご承知おきください。) 目次 はじめに なぜ自己管理型チームの実現にはフラットな関係が欠かせないのか? フラ
はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning(arXiv: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning)で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージェントが対戦相手に勝つことを目的として学習を行います。一方でDeepNashでは相手に勝つことを直接目指すのではなく、ナッシュ均衡を目指します。ナッシュ均衡を目指すことで相手がどんな手を打ったとしても
はじめに 完成品イメージ (Tagurobot v1) 3Dモデルの全体像 メイン構造体 制御系回路・バッテリー搭載用ボード 関節 アーム End Effector 電源・制御系の全体像 モジュール紹介 (LiPoバッテリー) モジュール紹介 (ヒューズ) モジュール紹介 (DC-DCコンバーター) モジュール紹介 (RaspberryPi) モジュール紹介 (サーボモータードライバー:) モジュール紹介 (サーボモーター) モジュール紹介 (加速度ジャイロセンサー) 制御系ソフトウェアの全体像 Tripod Gait(トライポッド歩容)の紹介 適切な関節角度を算出するための逆問題を解く 制御系ソフト 設計・作成しての学び 3Dプリント関連 機構・ソフトウェア設計関連 v2に向けた改善点 最後に ※3Dモデル・ソフトウェアの利用ポリシー We Are Hiring! はじめに こんにちは!
概要 ABEJAアドベントカレンダー2023の7日目の記事です。これは普段の仕事でプロダクト開発を行っている私が、自分自身の悩みを解決するためにiPadOS向けの書道アプリを開発し実際に使ってみる話である。 ZenPen Tetsu Kuribayashii グラフィック/デザイン 無料 apps.apple.comiOS向けには配信していません 背景 私は字が上手くない。 社会人になってから約2年。学生の頃より紙とペンを使う機会は減り、もっぱらキーボードを叩く毎日である。それでも時々、書類や封筒に字を書く機会がある。なるべく丁寧に書くことを心がけているものの字の形や全体のバランスが綺麗に決まらず、書き直すことがしばしばある。 字を綺麗に書くことが毎日続けやすい環境があったらなと思いつき、字の練習を楽しみながら継続したくなるようなプロダクトを作ることに決めた。 課題とソリューション 今回の
1. AWS CDKとは 2. AWS CDKを触ってみる 2.1 環境構築 Volta Node.js CDK 2.2. とりあえずLambdaを作成するところまでやってみる 2.2.1. プロジェクト作成 2.2.2. デプロイ用のLambda関数を書く 2.2.3. CDKのStackにLambda関数を記載する 2.2.4. デプロイしてみる 2.2.5. お片付け 2.3. CRUDっぽいAPIをAPI Gatewayで公開してみる 2.3.1. Lambda関数を用意する 2.3.2. CDKを用意する 2.3.3. デプロイして動かしてみる 2.3.4. お片付け 2.3.5. 詰まったところ 3. 感想 We Are Hiring! ABEJAでプロダクト開発をしている平原です。ABEJAアドベントカレンダー2023の6日目の記事です。皆さんはAWSでIaCを利用する時には
はじめに PiM(プロジェクトインサイトマネージャー)のコンセプト カスタムGPTの機能と要件 カスタムGPTの作成 実際の対話ログ おわりに はじめに この記事はABEJAアドベントカレンダー2023の5日目の記事です。こんにちは。プロジェクトマネージャーのブレイニーです。私はABEJAでPMアシスタントとして業務に取り組みつつ、PM研修を受講したり、プロジェクトマネジメントの手法が解説されている書籍を通じて理解を深めたりなどしています。そんな中、プロジェクトマネジメントのよくある失敗として、以下のようなケースが紹介されていました。 プロジェクトを進めている最中に突然新しいリスクや問題が浮上して、その結果、予期していなかったスコープ変更や、納期の遅延が必要となってしまう プロジェクトマネジメントでは、当初は見えていなかった問題が原因となって、計画通りにプロジェクトが進まなくなってしまうこ
はじめに 皆さん、お久しぶりです、ABEJAで細々とNotion普及活動をしている齋藤です。 こちらは ABEJAアドベントカレンダー2023 の 4日目の記事です。 他にも弊社メンバーが面白い記事をどんどん投稿予定なので、是非チェックしてみてください。 目次 はじめに 目次 Notion Database automationsって何? できること Database automationsの設定 対象選択 トリガー アクション Edit property - propertyの編集 Add Page to... - ページの追加 Edit pages in... - ページの編集 Send Slack notification to... - Slackへの通知 事例紹介 自身の入力を補助する系 TodoリストでFormulaプロパティを使わず進捗のバーを表示 議事録でチームを指定すると
今日は、法務・コンプライアンス・AI倫理担当の古川が担当させていただきます。ABEJAアドベントカレンダー2023の3日目の記事です。これで4回目のアドベントカレンダーです。筆者の経歴などは過去の記事で書きましたので省略します。若干追加するならば、Global Partnership On AI(GPAI)というOECDが運営するAIの適切な利活用に関する取り組みの日本の専門家委員を1月からやっております。GPAIを通じてAI倫理だとか責任あるAIの国際的な様々な取り組みに関与させていただいています。 今年も去年に従って「AI倫理ニュース振り返り2022年」を書こうと思ったのですが、より興味が高いであろう国内外のルールメーキングの状況をお話しします。といっても、EU、US、日本だけですが。 1.EU EUはAI法案が非常に重要です。2021年にAI法案をリリースしています。その後、議会によ
目次 はじめに DALL·E 3とGPT-4Vにまかせる 実装 実験結果 定量評価 その他 さいごに はじめに この記事はABEJAアドベントカレンダー2023の2日目の記事です。 こんにちは。データサイエンティストの小林です。12月に入り、クリスマスももうすぐですね。 私は一年中、Spotifyの"Christmas Hits!"を聞くくらいにクリスマスソングが大好きです! アドベントカレンダー用にクリスマスっぽいサムネを作ろうかなと思い、早速ChatGPTに作ってもらっていたのですが、画像生成のプロンプト調整結構難しいですよね。。 ネットで流れてくる他の人の作った画像、どんなプロンプトで作ったんだろう?とが気になることが結構あります。 そこで今回は、先月公開されたGPT-4 with Vision(GPT-4V)のAPIを用いて、DALL·E 3への画像生成プロンプトを自動で推定・修正
次のページ
このページを最初にブックマークしてみませんか?
『ABEJA Tech Blog』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く